文档识别及其在藏文古籍识别中的应用探讨
作者:李振江
来源:《求知导刊》2016年第35期
摘 要:文档识别技术能自动识别文档中的文本、图片、表框等信息,为纸质文档的全文数字化提供了便利。文章分析了文档识别过程中预处理、版面分析、行字切分、特征提取以及分类的流程,对文档识别技术的发展做了一个简单的综述,并结合藏文古籍识别的具体应用,对该技术在藏文古籍识别方面的应用难点进行了探讨。 关键词:文档识别;版面分析;藏文古籍 中图分类号:G273.3 文献标识码:A 一、引言
从20世纪90年代开始,文档分析与识别吸引了越来越多的研究者,目前有多个专门的国际会议对该项工作进行研究。
例如,ICDAR(International Conference on Document Analysis and Recognition),ICFHR(International Conference on Frontiers in Handwriting Recognition),DAS(IAPR International Workshop on Document Analysis Systems)等,在相关领域的期刊(IEEE Transaction on Pattern Analysis and Machine Intelligence、Pattern Analysis and Applications、International Journal of Computer Vision、International Journal on Document Analysis and Recognition等)上也有大量文档分析识别相关的论文出现,整个领域的研究工作处在一个快速发展的阶段。 二、文档识别流程
从文档识别工作的流程步骤上来说,可以分为图像预处理与版面分析、行字切分、特征提取与分类等模块[1]。 1. 预处理与版面分析
预处理阶段主要工作是去噪以及图像的增强和修复,之后进行版面分析,将图像分为文字区域以及非文字区域,获取结构以便于重编和出版。文字区域需要进一步确定该区域的文字是属于题目、正文、标注或者其他信息等;对于非文字区域,则要判别其是插图、背景或者是噪音,并按照判别结果分别加以处理。在版面分析过程中,需要考虑的是不同类型区域特征选择的问题和不同的分析方法及其效果评价。
龙源期刊网 http://www.qikan.com.cn
2. 文本行字切分
对于完成了预处理以及版面分析后抽取的文字区域,需要进一步的检测,将文本行以及单字进行分割。在古籍文档中,文本大多为约束文本和非约束文本混合出现,其文本行往往是不一致的倾斜和弯曲,如何动态调整切分距离,自适应处理倾斜和弯曲文本是这一步需要考虑的问题。对于切分好的文本行,需要选择合理的文字切分算法对单个字符进行分割。 3.特征提取与分类
基于统计的方法是模式识别的一种经典方法,目前在文档分析识别上使用较为广泛的方法有SVM方法、贝叶斯方法、隐马尔可夫模型等,其关键在于统计同一种字符所特有的共有性质或者相对稳定的分类特征作为识别向量。这种向量应当具有稳定的二维平面特征、水平或者垂直直方图特征等。在统计方法中,这个边界是基于每个类的模式的概率分布的,这点必须预先知道或通过学习获得。 三、文档识别的发展
从文档识别研究的文字类型上来说,由于文档识别技术最初源于西方国家,因此拉丁文字符文档识别发展最早,目前成果也最多。随着其他国家地区科研水平的提高,越来越多的非拉丁字符识别技术有了长足发展。例如中文、日文、阿拉伯文、斯拉夫文、蒙古文、孟加拉文、藏文等。
从文档识别研究的对象上来说,其源于OCR技术,最初的目标是识别特定字体的印刷字符,后来发展到多字体的混编的印刷文档,随后,手写体文档的识别成为一个研究的新内容。与此同时,研究对象的时间也不仅仅局限于现代文档的识别研究,大量的古籍、历史文档、古代手稿、艺术作品成为新的研究对象。 四、藏文古籍识别 1.藏文古籍识别的意义
藏族拥有悠久辉煌的文化历史,在我国,藏文古籍文档规模宏大,其数量仅次于汉语古籍文档。为了更好地保护和利用这些文档资料,对其进行全文数字化是一个亟待完成的工作。目前国内外已有一些藏文数据库建成使用,例如“尼泊尔-德国手稿文献保存计划”、藏文文献输入计划、藏传佛教资料信息中心等。然而现有的数据库,大都是将藏文古籍文献扫描成图加以保存,不便于对其进行检索以及深度开发利用,更好的手段是利用文档识别方法,对其内容进行识别并转换为内码形式进行保存。 2. 藏文古籍字体
龙源期刊网 http://www.qikan.com.cn
藏文自吞弥桑布札创制后经过千余年的实践创新,字体发展到几十种。从大的方面讲,可归纳为乌金体与乌梅体两大类。乌金体即有冠体,整体书写效果整齐划一。吐蕃时期王室发布的文告、执照以及碑文、钟铭,特别是佛经写卷几乎都是用乌金体书写的。依据后弘期刊印的藏文书籍“软字精校精刻”的要求,其大都采用乌金体[2]。 3. 藏文识别现状
目前,就国内外公开发表的文献来看,鲜见藏文古籍文档分析识别的相关研究工作。而脱机藏文字符识别工作已从最初的印刷体藏文识别开始向手写藏文识别研究发展。其基本思路都是先通过对藏文字符的基本特征的研究,然后根据这些特征选择设计相应的算法对字符进行切分,再做倾斜矫正、版面分析及归一化处理。经过上述的处理后,得到一个较为理想的二值图像,然后对这个处理后的二值图像利用适合的算法进行识别。最后是对识别的结果用识别算法或上下文的关系来纠正误识字和拒识字,提高识别率和适应性,降低系统的误识率。研究思路都是从藏文字符的自身特征出发,运用各种已有的识别技术来进行特征提取、分类,进而识别。
五、藏文古籍识别应用
总的来说,藏文古籍识别的研究尚处于起步阶段,其中大部分工作集中在现代藏文字符识别方面,而在藏文古籍文档识别中,字符识别只是其中的一个模块,且藏文古籍中梵音藏文字符占很大一部分;除了字符识别外,藏文古籍识别还在版面分析、文字切分等方面有大量工作等待完成。藏文古籍文档识别研究中,还存在多方面的困难。
第一,藏文古籍文档版面质量差,导致获取的图像中存在大量噪音,同时图像的前景中还存在字符内容缺失、线条断裂等其他质量退化问题。如何合理的去噪,且在去噪的同时修补损失区域是做好藏文古籍识别的前提条件。
第二,藏文古籍文档版面复杂,文字、背景有多种颜色,常常在文中嵌图,通常文字周围都有边框且横竖排文字混编。必须做好版面分析工作,正确高效的将文档中不同类型的元素一一区分。
第三,藏文古籍中使用的字符集异常庞大,包括基本藏文字符集中独立成字的169个字符、扩充集A中1536个垂直预组合字符、扩充集B中5669个垂直预组合字符,排除这三种字符集中重复的字符,字符总数共计7240类。如何获取这7240个类别的样本数据,合理的设计分类器对这种稀疏样本、高类别问题进行分类是必须要解决的问题。 参考文献:
[1]Kai Chen,Mathias Seuret,Hao Wei,etal.Ground truth model, tool, and dataset for layout analysis of historical documents[J].Document Recognition and Retrieval XXII,2015(9402).
龙源期刊网 http://www.qikan.com.cn
[2]先 巴.藏文古籍版本研究——以藏文古籍印本为中心[J].西藏研究,2016(3):99-110.
因篇幅问题不能全部显示,请点此查看更多更全内容