您的当前位置:首页正文

基于连通区域和统计特征的图像文本定位

2021-06-21 来源:步旅网
Computer Engineering andApplications计算机工程与应用 基于连通区域和统计特征的图像文本定位 刘亚亚,于凤芹,陈 莹 LIU Yaya,YU Fengqin,CHEN Ying 江南大学物联网工程学院,江苏无锡214122 School of Internet of Things Engineering,Jiangnan University,Wuxi,Jiangsu 2 1 4 1 22,China LIU Yaya,YU Fengqin,CHEN Ying.Text location in image based on connected—component and statistical features. Computer Engineering and Applications,2016,52(5):165—168. Abstract:Text location 1S the premise and foundation of text extraction in images.In order to overcome the complex background and the effect of illumination,a coarse—to—fine text location algorithm is proposed.The algorithm firstly USeS connected—component analysis for coarsely locating on the edge image,and then extracts histogram of oriented gradient feature and modified local binary patterns feature to classify the candidate regions,removes the false text to achieve accu— rate location.Experimental results indicate that this algorithm can effectively reduce the influence of non—uniform illumi— nation and complex background,accurately locate the text area in scene image. Key words:text location;connected—component analysis;histogram of oriented gradient feature;local binary patterns feature 摘要:文本定位是图像中文本提取的前提与基础。针对场景图像中背景复杂和光照影响,提出一种由粗略到精确 的文本定位算法。该算法首先在边缘图像上利用连通区域分析进行粗略定位得到文本候选区域,然后提取候选区 域的方向梯度直方图特征和改进的局部二值模式特征进行分类,去除虚假文本达到精确定位。仿真实验结果表明, 该算法能够有效地降低背景复杂与光照不均的影响,在场景图像中准确地定位文本区域。 关键词:文本定位;连通区域分析;方向梯度直方图特征;局部二值模式特征 文献标志码:A 中图分类号:TN911.73 doi:10.3778 ̄.issn.1002.8331.1403—0104 1 引言 图像中文本信息是描绘和理解图像内容的重要信 息,文本区域的定位是文本提取非常重要的步骤与基 础,准确的文本区域的定位才能保证文本信息提取的有 效性。然而,由于背景复杂、光照变换、字体大小和方向 的多变等原因,自然场景图像中的文本定位具有更多的 不确定性和难度,是目前研究的难点。 文本定位的方法通常分为基于连通区域、基于边缘 检测和基于纹理特征的三类算法” 。基于连通区域的算 型进行连通域分析,得到文本区域;Shivakumara等 首 先通过傅里叶.拉普拉斯变换对图像进行滤波,然后基 于最大差值用K.means聚类得到文本区域,可检测非水 平方向上的文本;Hinnerk Becker等 首先采用一种自 适应二值化的算法在图像中提取字母,然后利用几何约 束的方法将字母连接成文本行。基于边缘检测的算法 是利用文本区域与背景对比度较强的特性检测文本,但 是当背景复杂、边缘较多时容易形成虚假文本;Boris Epshtein等 提出笔画宽度变换的概念,经过笔画宽度 法是利用图像中的文本颜色相似并与背景颜色相差较 大的特征进行文本定位的,但是对光照和颜色比较敏 感,对背景复杂的图像效果不理想;Pan等 设计一个文 本区域探测器生成文本置信图,然后利用条件随机域模 基金项目:国家自然科学基金(No.61104213)。 变化对图像进行聚类得到文本区域,再分割成单独的文 字以实现文本信息的提取;Yi等 利用边缘检测的图像 计算图像的颜色直方图来进行聚类分组,得到文本字符 候选,再根据文本字符共同的结构特征进行文本行分 作者简介:刘亚亚(199O一),男,硕士研究生,主要研究领域为图像信号与信息处理,E.mail:183525l3426@163.tom;于风芹 (1962~),女,博士,教授,主要研究领域为语音信号分析与处理研究、图像信号与信息处理等;陈莹(1976一),女,博 士,教授,主要从事计算机视觉与模式识别的研究和信号与信息处理等。 收稿日期:2014—03.11 修回日期:2014.04—29 文章编号:1002.8331(2016)05.0165—04 CNKI网络优先出版:2014—07.16.http://www.cnki.net/kcms/doi/10.3778 ̄.issn.1002—8331.1403 0104.html Computer Engineering andApplications计算机工程与应用 组。基于纹理的算法是将文本看成一种特殊的纹理,提 取文本明显的纹理特征进行文本定位,比如局部二值模 式(Local Binary Patterns,LBP) 、灰度共生矩阵 、 Gabor滤波 。1和小波变换[Ill等纹理特征,这种算法的鲁 棒性较好,但是复杂性较高。 本文针对场景图像的复杂背景和光照条件的影响, 提出一种由粗略到精确的文本定位算法。在粗略定位 阶段,首先对输入图像进行边缘检测,在边缘图像上进 义为厂。b:(fe )06,即结构元素b对图像厂的先腐蚀 后膨胀为开运算。膨胀运算具有扩大边界,填补空洞的 作用,而开运算可用来消除小噪声点,断开物体连接,平 滑目标边界的同时不明显改变其面积。 2.2 HoG特征 HOG是Dalal提出的一种图像处理中的特征描述 算子 ,通过统计和计算图像局部区域的梯度方向直方 图来构成特征,具有较好的图像几何和光学形变的不变 行连通区域分析,通过启发式规则的过滤和形态学处理 得到文本候选区域;然后提取候选区域的方向梯度直方 图(Histogram of Oriented Gradient,HOG)特征和改进 的LBP特征,利用SVM分类器进行分类,将非文本区域 去除达到精确定位。 2连通区域分析与特征提取 2.1连通区域分析 图像中的文本区域会具有比较明显的边缘特征,在 边缘图像上进行连通域分析能降低光照的影响,可以更 加准确地定位文本。本文采用Sobel检测算子,在RGB 空问三个通道分别对图像进行边缘检测,再结合起来得 到边缘图像,这样在不均匀的光照下可保留更多的边缘 信息。这里考虑到文本的方向性,在每个通道都采用 0。、45。、90。和135。四个方向的Sobel算子分别进行检 测 ,进行合并后得到该通道的边缘图像,再将三个通 道的边缘图像求和得到比较完整的边缘图像。 在边缘图像上首先进行基于启发式规则的过滤,将 一些明显不是文本的区域过滤掉,可很好地减少文本候 选区域的个数。这里采用区域形状大小、纵横比与区域 占有率三种启发式规则:区域形状大小包括区域面积 A、区域高度h与长度,;纵横比为 =h/l,是指区域高 度与长度的比值;区域占有率为C=A/A ,其中 是指连 通区域的面积,A 是指连通区域最小外接矩形的面积。 其次通过形态学处理将相邻的文字连接成文本行, 形成候选的文本区域,先对图像进行膨胀操作,然后进 行开运算以达到边缘轮廓的光滑和噪声的过滤。形态 学处理的基础运算是膨胀与腐蚀㈣,使用结构元素b对 图像厂的膨胀记为feb,定义为: (/06)( , )=ma ̄{f(x— ,Y—Y )+6( , )f( ,Y )∈D6}(1) 其中,D 是b的定义域,f(x,Y)在.厂的定义域外假设 为一O0。而腐蚀作为膨胀的对偶运算,结构元素b对图 像厂的腐蚀记为 6,定义为: (fOb)(x,y)=min{f(x+x ,Y+ )一6( , )l( ,Y )∈D6}(2) 其中,D 是b的定义域,f(x,Y)在厂的定义域外假设 为+。。。而结构元素b对图像厂的开运算记为f。b,定 性。图像中文本区域的边缘信息丰富,梯度幅值较大, 而且在各个方向上梯度的幅值相差不大,具有较明显的 梯度特征,因此HOG特征可以有效地描述文本区域的 特征。 在提取HOG特征的过程中,首先要采用Gamma校 正法对输入图像进行颜色归一化,目的是为了减少噪声 的干扰,降低局部的阴影和光照变化对特征提取造成的 影响。然后计算每个像素的梯度幅值和梯度方向,得到 图像的轮廓信息,同时也进一步弱化光照的影响,像素 点(x,Y)的梯度幅值和方向分别为: G(x,Y): J[H(x+1, )一H(x一1, )] +[ ( ,Y+1)一 ( ,Y一1)] (3) =tan-t( ) ㈩ 其中,H(x,Y)是像素点(x,Y)的像素值,G(x,Y)和a(x,Y) 分别表示梯度的幅值与方向。将输入图像分为若干个 单元(cel1),统计每个单元的梯度直方图,这里将梯度方 向分为9个通道(bin),则每个单元直方图可表示为一 个9维的特征向量。将前面的单元合并成块(block),再 利用L2.Hys范式进行归一化处理,以消除光照变化的 影响,将图像中的所有block的HOG特征串联起来即得 到图像的HOG特征。L2.Hys范式的计算公式为: = n —一 /f∑ +s,百 其中s取较小值,为了防止分母为零。 2.3 LBP特征 LBP是一种有效的纹理描述算子 1,可用来描述文 字笔划固有的纹理特征。LBP算子是一个固定为3 X 3 大小的矩阵元,对应9个灰度值,将周边的8个像素灰 度值与中心像素灰度值比较大小,大于或等于中心像素 值的像素点置为1,否则置为0,按照逆时针或顺时针 方向读取8个二进制值作为特征值,其特征的计算公式是: LBP =∑s(g 一go)2 (5) 其中 (g)= ,g。为中心像素值, 为周边的8 个像素值。Jun等人 1采用周边像素值和中心像素值的 差值大小来对s(g)进行重新定义,取得了更好的效果, 208 2016,52(5) ComputerEngineering andApplications计算机工程与应用 [9]Zhao L,Zhang L,Ma S,et a1.Fast mode decision algo— 间。实验表明,与HM10.0相比,在图像质量几乎不变的 情况下,编码时间平均减少16.575%,有效降低HEVC 的计算复杂度。下一步工作将针对权重的设定展开一定 的研究,希望设计出一种有效的算法对将要编码的视频 进行相关性学习之后再进行权重的分配,另外希望将此 rithm for intra prediction in HEVC[C]//Visual Communi— cations and Image Processing(VCIP),2011:1-4. [10]Kim J,Jeong S,Cho S,et a1.Adaptive coding unit early termination algorithm for HEVC[C]//2012 IEEE Inter— 方法用于帧间预测,进一步提高视频编码的效率和质量。 national Conference on Consumer Electronics(ICCE), 2012:261—262. 参考文献: 【1】Sullivan G J,Ohm J,Han W J,et a1.Overview of the High Eficifency Video Coding(HEVC)standard[J].IEEE Transactions on Circuits and Systems for Video Tech— 【11]Lee J H,Park C S,Kim B G.Fast coding algorithm based on adaptive coding depth range selection for HEVC[C]//2012 IEEE International Conference on Con— sumer Electronics—Berlin(ICCE.Berlin),2012:31—33. nology,2012,22(12):1649—1668. [1 2]Leng J,Sun L,Ikenaga T,et a1.Content based hierarchi- [2]严顺卿.HEVC帧内预测快速模式选择算法研究【D].上海: 上海交通大学,2013. cal fast coding unit decision algorithm for HEVC[C]// 20 1 1 International Conference on Multimedia and Sig— [3]沈燕飞,李锦涛,朱珍民,等.高效视频编码[J].计算机学报, 2013,36(11):2340—2355. nal Processing(CMSP),20l1,1:56—59. 【13】Park S,Choi K,Jang E S.CU depth—based ALF deci- sion for fast HEVC enc0ding[C]//2012 IEEE 16th Inter— national Symposium on Consumer Electronics(ISCE), 2012:1—4. [4]路伟,余宁梅,南江涵,等.并行可配置的HEVC熵编码的 VLSI结构fJ].计算机工程与应用,2014,50(3):121—124. [5]Lainema J,Bossen F,Han W J,et a1.Intra coding of the HEVC standard[J].IEEE Transactions on Circuits and Systems for Video Technology,2012,22(12):1792—1801. [1 4】Shen X,Yu L.CU splitting early termination based on weighted SVM[J].EURASIP Journal on Image and Video Processing,2013,2013(1):1—11. [6]Kim I K,Min J,Lee T,et a1.Block partitioning structure in the HEVC standard[J].IEEE Transactions on Circuits and Systems for Video Technology,2012,22(12): 1697 1706. [1 5]Schwarz S,Olsson R,Sjosrom M,et a1.Adaptive depth ifltering for HEVC 3D video coding[C]//Picture Cod- ing Symposium(PCS),2012:49-52. [7]Muhit A A,Picketing M R,Frater M R,et a1.Video cod— ing using fast geometry—adaptive partitioning and an [16】Zhang M,Zhao C,Xu J.An adaptive fast intra mode decision in HEVC[C]N2012 19th IEEE International Con— ference on Image Processing(ICIP),2012:221—224. elastic motion model[J].Journal of Visual Communica— tion and Image Representation,2012,23(1):31—41. [1 7】Kumar V,Quaid M,Eapen J.Fast intra mode decision based on block orientation in High Eficifency Video [8]Shen L,Liu Z,Zhang X,et a1.An efective CU size deci— sion method for HEVC encoders[J].IEEE Transactions on Multimedia,2013,15(2):465—470. Codec(HEVC)【C]//2014 International Symposium on Computer,Consumer and ConVo1(IS3C),2O14:506—511. (上接168页) [1 0]Yi C C,Tian Y L.Text detection in natural scene images by s ̄oke gabor words[C]//Proceedings of the IEEE Inter— national Conference 0n Document Analysis and Recog· ment Analysis and Recognition(ICDAR),2005:610—614. [13】 Gonzalez R C擞字图像处理(MATLAB版)[M】.阮秋琦, 译一匕京:电子工业出版社,2005. Dalal N,Triggs B.Histograms of oriented gradients for [14] nition(ICDAR),2O11:177—181. human detection[C]//IEEE Computer Society Conference on Computer Vision and Pattern Recognition(CVPR), 2005:886—893. [11]李念永,梁艳梅,张舒,等.基于BP神经网络的复杂彩色 图像文本定位[J].光子学报,2009,38(10):2712.2716. [1 2]Liu C,Wang C,Dai R.Text detection in images based on unsupervised classiifcation of edge—based features[C]// Proceedings of the International Conference on DOCU一 [15] Ojala T,Pietikainen M,Maenpaa T.Multiresolution gray- scale and rotation invariant texture classiicatfion with local binay patrterns[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2002,24(7):971-987. 

因篇幅问题不能全部显示,请点此查看更多更全内容