基于深度图像和表观特征的手势识别_李瑞峰

2020-03-09 来源：步旅网

第３９卷　增刊Ⅱ２０１１年　１１月　华中科技大学学报（自然科学版）

）Ｊ．ＨｕａｚｈｏｎＵｎｉｖ．ｏｆＳｃｉ．＆Ｔｅｃｈ．（ＮａｔｕｒａｌＳｃｉｅｎｃｅＥｄｉｔｉｏｎ　　　ｇ　

Ｖｏｌ．３９Ｓｕ．Ⅱｐ

ｏｖ．０１１　Ｎ　２

基于深度图像和表观特征的手势识别

李瑞峰　曹雏清　王　丽（）哈尔滨工业大学机器人技术与系统国家重点实验室，黑龙江哈尔滨１５０００１

摘要　针对复杂环境下的手势快速识别问题，提出一种基于深度图像信息和表观特征的手势识别方法．首先利用深度图像信息从复杂环境中快速提取手势区域；然后综合手势的表观特征，建立分类决策树实现手势的识别．针对常见的８种手势在复杂背景条件下进行测试，在机器人平台下手势的平均识别率高达９８．２％，速度达到２５帧／ｓ．

关键词　图像识别；手势；深度图像；复杂背景；人机交互

（）中图分类号　ＴＰ２４２．２　　文献标志码　Ａ　　文章编号　１６７１４５１２２０１１Ｓ２００８８０４－－－Ｈａｎｄｒｅｃｏｎｉｔｉｏｎｕｓｉｎｄｅｔｈｉｍａｅａｎｄａｅａｒａｎｃｅｆｅａｔｕｒｅｏｓｔｕｒｅ　　　　　　　ｇｇｐｇｐｐｐ　

ＬｉＲｕｉｅｎａｏＣｈｕｉｎａｎＬｉ　　ｆｇ　Ｃｑｇ　Ｗｇ　

（，Ｈ）ＳｔａｔｅＫｅＬａｂｏｒａｔｏｒｏｆＲｏｂｏｔｉｃｓａｎｄＳｓｔｅｍ，ＨａｒｂｉｎＩｎｓｔｉｔｕｔｅｏｆＴｅｃｈｎｏｌｏａｒｂｉｎ１５０００１，Ｃｈｉｎａ　　　　　　　　ｙｙｙｇｙ　　

ｕｉｃｋｌｏｓｔｕｒｅＡｂｓｔｒａｃｔｎｅｗ　ｍｅｔｈｏｄｔｏｒｅｃｏｎｉｚｅｈａｎｄｆｒｏｍｃｏｍｌｅｘｂａｃｋｒｏｕｎｄｓｂａｓｅｄｏｎｄｅｔｈ　Ａ　　　　　　　　　　　ｑｙｐｇｐｇｐ　

，ａｎｄａｅａｒａｎｃｅｆｅａｔｕｒｅｗａｓｈａｎｄｒｅｉｏｎｗａｓｅｘｔｒａｃｔｅｄｆｒｏｍｉｍａｅｒｏｏｓｅｄ．Ｆｉｒｓｔｏｓｔｕｒｅｕｉｃｋｌ　　　　　　　　　　ｇｐｐｐｐｐｇｑｙ　，ｃｏｍｌｅｘｂａｃｋｒｏｕｎｄｖｉａｄｅｔｈｉｍａｅ．Ｔｈｅｎａｅａｒａｎｃｅｆｅａｔｕｒｅｓｗｅｒｅｉｎｔｅｒａｔｅｄｔｏｂｕｉｌｄｔｈｅｄｅｃｉｓｉｏｎ　　　　　　　　　　　ｐｇｐｇｐｐｇｏｓｔｕｒｅｏｓｔｕｒｅｓｔｒｅｅｆｏｒｈａｎｄｒｅｃｏｎｉｔｉｏｎ．Ｅｉｈｔｃｏｍｍｏｎｕｎｄｅｒｔｈｅｃｏｍｌｅｘｂａｃｋｒｏｕｎｄｗｅｒｅｔｅｓｔｅｄ　　　　　　　　　　　　ｐｐｇｇｐｇｉｎｏｕｒｅｘｅｒｉｍｅｎｔｓ．Ｔｈｅｅｘｅｒｉｍｅｎｔａｌｒｅｓｕｌｔｓｓｈｏｗｔｈａｔｔｈｅｒｅｃｏｎｉｔｉｏｎｒａｔｅｉｓ９８．２％ａｎｄｓｅｅｄｒａｔｅ　　　　　　　　　　　　　ｐｐｇｐａｃｈｉｅｖｅｓ２５ｆｒａｍｅｓｅｒｓｅｃｏｎｄ．　　　ｐ

；；；；Ｋｅｗｏｒｄｓｉｍａｅｒｅｃｏｎｉｔｉｏｎｈａｎｄｏｓｔｕｒｅｄｅｔｈｉｍａｅｃｏｍｌｅｘｂａｃｋｒｏｕｎｄｈｕｍａｎｒｏｂｏｔｉｎｔｅｒ　　　　　－　－ｇｇｐｐｇｐｇｙ　

ａｃｔｉｏｎ

　　基于视觉的手势的识别是实现新一代人机交它通过图像信息，互所不可缺少的一项关键技术．

让机器人获取人的手势姿态信息，进行分类识别和相应的人机交互．近年来一些学者在基于视觉的手势识别上进行了一定的研究：Ｂ．Ｋａｕｆｍａｎｎ

［１］２］

等［提出了智能进化算法，Ｃ．Ｗｅｎｇ等采用了

肤色区域，它们对手势区域提取有着较大的影响．同时光线也影响肤色模型，直接影响了人机交互的实际效果．本研究从深度图像信息中提取手势区域，运用几何方法提取手势表观特征并分类，解决了以上应用中常见问题，实现了基于复杂环境下的快速手势识别．

多特征融合的方法进行手势识别，Ｍ．Ｆｌａｓｉｎｓｋｉ

［］和Ｓ．Ｍ谭ｓｌｉｎｓｋｉ３提出了手势图解析分类法，ｙ４］昶和肖南峰［提出了基于改进神经网络法，杨波５］等［针对复杂背景采用空间分布特征对手势进行

１　手势区域分割

１．１　深度图像成像原理

使用Ｋ采集６ｉｎｅｃｔ进行深度图像采集，４０×，深度的分４８０的深度图像速度可以达到３０帧／ｓ辨率为５ｍｍ左右．Ｋｉｎｅｃｔ是应用于由微软开发的Ｘ其中的深度摄像头ｂｏｘ３６０主机的周边设备，　

识别等．

上述针对复杂背景的下的手势识别方法都使

］５７－，用肤色模型对手势区域分割［可以区分肤色和

非肤色区域．然而，实际图像往往包括肢体和面部

收稿日期　２０１１０４３０．－－，：作者简介　李瑞峰（男，教授，１９６５Ｅ－ｍａｉｌｌｒｆ１００＠ｈｉｔ．ｅｄｕ．ｃｎ．－）

）基金项目　机器人技术与系统国家重点实验室课题资助项目（ＳＫＬＲＳ２００８０２Ａ０２．

增刊Ⅱ

李瑞峰，等：基于深度图像和表观特征的手势识别　　

·８９·

采用了光编码技术，利用人眼看不见的红外光，透过镜头前的扩散片将红外光均匀分布投射在测量空间中，再透过红外图像传感器读取空间中的每个编码点信息，最后由芯片运算进行解码，生成点的深度信息．

Ｋｉｎｅｃｔ深度摄像头获取的场景中的深度信

息不受物体自身的颜色、纹理特征以及背景环境）光线的影响．实际场景的Ｒ所ＧＢ图像如图１（ａ示，把Ｋｉｎｅｃｔ采集到的场景深度值转换到灰度）值空间，在深度图像（如图１（所示）中像素点的ｂ灰度值对应于场景中点的深度值．

２．１　手势的表观特征

根据表征手势指头数以及指间的夹角的不同对手势进行分类，实现手势在旋转缩放条件下的快速识别．相比于其他的手势特征提取方法，手势的表观特征更加直观，无需训练样本、适应性强、运算速度快且实时性好．

手势表观特征提取的主要步骤如下．

［］

ａ．通过数学形态学中的腐蚀操作８获取手

２　特征提取与分类

势区域中心点．由于手掌作为手势表观的主要组成部分，在手势区域占有最大的面积而且点较为集中，因此通过连续的腐蚀操作，可以消除手势区域的边界点，使手势区域逐步缩小，最终得到手势（）实际效果如图１所示．区域的中心点，ｄｂ．计算出中心点Ｃ０与手势区域边缘的最大

，距离值ｌ对距离进行１以手势区域中心点０等分．／，圆半径从ｄ＝为圆心做出圆轨迹，ｌ１０开始到ｌ每次递加值为ｄ，得到１结果如图２０个圆轨迹线，所示．

图１　手势区域分割及中心点获取

１．２　手势区域的分割

人机交互的过程中，手势动作都置于身体位姿之前，因此利用手势区域的与背景区域深度值同一深度的像素点在深的不同分割出手势区域．

度图像中灰度值相同，但是每次人和深度摄像头的之间的距离不完全相同，无法用固定深度阈值实现区域的分割．这里使用基于灰度直方图的方法寻找手势区域与背景的最佳分割阈值．

灰度直方图表示图像中具有每种灰度级的像

８］

素的个数，反映图像中每种灰度出现的频率［针．

对深度值所对应的灰度图像，计算出灰度直方图，对直方图中灰度值出现较高的区域段进行分段，提取出每段的灰度值对应的区域．这些同一段灰度值的区域，对应深度图像上和深度摄像头同一距离的物体点．

手势往往是离深度摄像头较近的区域，因此从灰度值最高（即距离最靠近）的区域块开始进行判断筛选，通过判断区域块内像素点松散性以及数量，剔除近景处的一些小块干扰区域，最后对手势区域与背景区域作二值化处理，分割效果如图（）所示．１ｃ

图２　手势表观特征提取

ｃ．按顺时针方向记录每条圆轨迹线上像素

值变化点Ｐ即从黑色区域到白色区域）０到１，ｉｊ（和Ｑ即从白色区域到黑色区域）的位置１到０，ｉｊ（坐标值，ｉ表示轨迹圆的编号，ｊ表示同一轨迹圆上Ｐ或Ｑ点编号，同时删除单独存在的Ｐｉｊ点和

Ｑｉｊ点．

计算每对Ｐｄ．根据Ｐｉｉｉｊ和Ｑｊ的位置坐标，ｊ和Ｑｉ当轨迹圆与指尖部分区域ｉｊ之间的距离Ｄｊ．相截时获得较小的Ｄ它不能表现手指的实际宽ｉｊ，

·９０·

华中科技大学学报（自然科学版）

第３９卷

度值，所以当Ｄ删除对应的Ｐｉｉｊ小于阈值δ时，ｊ和由图２可以看出一些手指的指间处ＰＱｉｉｊ点，ｊ和

／根据经验设置阈值为δ＝ｄＱｉ４．ｊ点被去除，

为与手掌ｅ．每个轨迹圆上获得的ｊ最大值，

（由于分支中包含相连分支数量总和Ｎ＝ｍａｘ．ｊ）手指和手腕分支，因此手指数量是Ｎｆ＝Ｎ－１．ｆ．由每个分支的平均值计算得到分支的平

均宽度Ｗｊ．手腕宽度大于手指，在分支中手腕对除手腕分支外的其他分支应于最大宽度的分支．

的最大轨迹圆上取Ｐｉｉｊ和Ｑｊ的中点分别与中心位得到指间夹角Ａ置点Ｃ０连线，ｊ－１．２．２　手势的分类

通过手势的表观特征，对手势进行分类识别．以常见的８种手势（如图３所示）以为例，建立分类决策树，其识别流程如图４所示．首先根据不同对于手指数相同手势的手指数量Ｎｆ加以区分；

的手势，再对各个指间夹角Ａｊ－１差异情况进行分类．手势１，直接可４，５手指数量特征具有唯一性，手势２和６的Ｎｆ＝２，下以通过根节点给以分类；

一层子节点通过判断指间夹角Ａ１大小加以区手势３，须要通过第二层子节点分；７，８的Ｎｆ＝３，判断指间夹角Ａ１和Ａ２大小进行区分．

图４　８种手势识别流程图

２．３　手势旋转和缩放

人机交互中需要自然的手势动作，而不局限于某些特定手势位姿或是特定手势区域大小．提出的特征提取方法，利用等分轨迹圆消除手势区域大小对特征提取的影响，同时对轨迹上的变化提取的手指数量Ｎｆ和指间夹点进行特征计算，

角Ａｊ－１特征都具有旋转和缩放不变性．

３　实验及分析

３．１　手势识别实验

基于机器人平台环境，针对８种常见的手势进行识别．由５个人在强光、弱光和普通光线的背景条件对下每种手势测试２共计１００次，６００次　测试，表１为手势识别测试结果．手势１，２，４，５的识别率都为１００％，手势３，６，７，８的识别率分别为９由于非特定人物对７．５％，９７％，９５％，９６％．手势３，６，７，８表达差异较大因此会造成测试过程中的识别错误．从整体上看，平均手势识别成功率达到９说明了本文方法的有效性．８．２％，

图３　８种常见手势

４］

空间分布特征的手势识别法［在普通光照背

表１　手势识别测试结果

测试手势手势１　手势２　手势３　手势４　手势５　手势６　手势７　手势８　

手势１２００　０　０　０　０　１　０　０　

手势２０　２００　０　０　０　５　０　０　

手势３０　０　１９５　０　０　０　０　０　

手势４０　０　０　２００　０　０　０　０　

手势５０　０　０　０　２００　０　０　０　

手势６０　０　０　０　０　１９４　０　０　

手势７０　０　２　０　０　０　１９０　８　

手势８００３０００１０１９２

景下的图片识别率达到了９但５．４％的识别效果，识是对于强光和弱光背景条件下测试效果较差，别率仅有１３．６％．

Ｋｉｎｅｃｔ通过ＵＳＢ口与机器人主机进行数据

通信，主机的配置是２．０ＧＨｚ的ＣＰＵ和１ＧＢ的

采样图片大小为６识别速度可ＲＡＭ．４０×４８０时，

，达到了实时手势识别的要求．以达到２５帧／ｓ３．２　复杂背景下的实验

环境中光线强度的变化是手势区域提取常见的难题之一．由于深度信息的获取主要通过深度

增刊Ⅱ

李瑞峰，等：基于深度图像和表观特征的手势识别　　

·９１·

摄像头自身对非可见光信号进行发射和采集，因此环境外部可见光的变化对深度图像的采集没有任何的影响．复杂背景下手势区域分割效果如图可见，即使在室外强光甚至室内几乎没有５所示，

仍可以准确提取手势区域．光线的情况下，

验结果表明，本文方法有很强的实用性和稳定性，解决了在复杂背景下的手势提取识别问题．

参

考

文

献

［，Ｌｏｓｔｕｒｅ１］ＫａｕｆｍａｎｎＢ，ＬｏｕｃｈｅｔＪｕｔｔｏｎＥ．Ｈａｎｄ　　　　ｐ

ｒｅｃｏｎｉｔｉｏｎｕｓｉｎｒｅａｌｔｉｍｅａｒｔｉｆｉｃｉａｌｅｖｏｌｕｔｉｏｎ［Ｊ］．　－　　ｇｇ　，２ＡｌｉｃａｔｉｏｎｓｏｆＥｖｏｌｕｔｉｏｎａｒＣｏｍｕｔａｔｉｏｎ０１０，　　ｐｐｙｐ　６０２４：２５１２６０．－［］Ｗ２ｅｎＣ，ＬｉＹ，ＺｈａｎＭ，ｅｔａｌ．Ｒｏｂｕｓｔｈａｎｄｏｓｔｕｒｅ　　　　ｇｇｐ　　

］ｉｎｔｅｒａｔｉｎｍｕｌｔｉｃｕｅｈａｎｄｔｒａｃｋｉｎＪ．ｒｅｃｏｎｉｔｉｏｎ　－　　ｇｇｇ［ｇ　：ＶＲｅｃｅｎｔＰｒｏｒｅｓｓｉｎＲｏｂｏｔｉｃｓｉａｂｌｅＲｏｂｏｔｉｃＳｅｒｖｉｃｅ　　　　　ｇ，Ｈｕｍａｎ２０１０，６２４９：４９７５０８．ｔｏ　－［］３ＦｌａｓｉｎｓｋｉＭ，ＭｓｌｉｎｓｋｉＳ．Ｏｎｔｈｅｕｓｅｏｆｒａｈａｒ　　　　　　　－ｙｇｐｐ

ｓｉｎｆｏｒｒｅｃｏｎｉｔｉｏｎｏｆｉｓｏｌａｔｅｄｈａｎｄｏｆＰｏｌｏｓｔｕｒｅｓ　　　　　　　－ｇｇｐ　］，２ｉｓｈＳｉｎＬａｎｕａｅ［Ｊ．ＰａｔｔｅｒｎＲｅｃｏｎｉｔｉｏｎ０１０，　　　ｇｇｇｇ（）：４３６２２４９２２６４．－［］谭昶，肖南峰．基于改进Ｒ４ＣＥ和ＲＢＦ神经网络的静

］：态手势识别［Ｊ．计算机工程与应用，２０１１，４７（７）１７２１７６．－［］杨波，宋晓娜，冯志全，等．复杂背景下基于空间分布５

］特征的手势识别算法［Ｊ．计算机辅助设计与图形学（）：学报，２０１０，２２１０１８４１１８４８．－［］李瑞峰，贾建军．一种复杂背景下的手势提取方法６

［］Ｊ．华中科技大学学报：自然科学版，２００８，３６（）：Ｓ１８０８２．－［］陈一民，张云华．基于手势识别的机器人人机交互技７

］（）：术研究［Ｊ．机器人，２００９，３１４３５１３５６．－［］蓝章礼，李益才．数字图像处理与图像通信［８Ｍ］．北

京：清华大学出版社，２００９．

图５　复杂背景下手势区域分割效果

肤色重合时的手势区域分割是常提及的难题

［５］

，如手势和脸部区域重合情况．虽然在采集到

的ＲＧＢ图像中手势和脸部等肤色区域的重合影响了手势区域的分割效果，但在深度图像中，手势和脸部等区域往往处于不同的深度区域下，通过本文方法仍可以实现非常好的分割效果．

综合利用深度图像信息以及手势的表观特征，解决了在光照及肤色区域重合时的手势区域以及手势在旋转缩放条件下的快速识别．实分割，

因篇幅问题不能全部显示，请点此查看更多更全内容

查看全文

全部栏目

基于深度图像和表观特征的手势识别_李瑞峰