个重要的第三方中文分词功能库jieba库,对毕业论文的中文摘要以及正文部分进行了词频统计,根据输出的文章中最 常出现的10个单词及出现次数,与毕业论文中文摘要部分的关键词进行比对,依据制定的评价体系标准,评价毕业论文 的质量。【关键词】Python;jieba;词频统计;毕业论文;质量评价Quality Appraisal System of the Graduation Thesis Based
On the Chinese Key WordsXUN Xue-lian? WANG Xiao-ning(North China Institute of Aerospace Engineering, Langfang 065000, China)[Abstract] The frequency of the abstract key words in the paper shows the quality of the gradation thesis. In this article,
one third party library of Python, which is jieba library on Chinese words, is applied to calculate the word frequency statistics. Based on the top 10 words and their occurrence number, the quality of the graduate paper is appraised with the help of the ap
praisal standard.【Keywords】 Python; jieba; word frequency statistics; graduation thesis; quality appraisal〔中图分类号〕TP311 〔文献标识码〕A 〔文章编号]1674 - 3229(2019)04 - 0030 - 030引言大学生毕业设计环节是一个重要的教学内容,
毕业论文中文摘要部分的关键词进行比对,来评价 毕业论文的质量。是培养方案中的培养目标得以实现的一个重要依 据,也是教学水平的重要体现。摘要作为大学生毕
1 jieba库的使用Python编程语言的jieba库是一个第三方的中
业论文的重要组成部分,可以通过判别其中的关键 词是否为毕业论文中最常出现的单词,作为衡量毕 业论文质量的一个重要指标,并以此为把关口来监
文单词分割函数库。该库简单高效且非常重要,主
要提供分词功能,并且可以辅助完成自定义分词字
典,功能非常强大。jieba第三方汉语分词功能库的 分词原理就是利用一个中文词库,将待分词的内容
控和保证大学生毕业论文的质量。Python程序设计语言在汉语词汇分析中得到了
(可以是文本文件)与分词词库进行比对,通过图结
广泛应用,本文利用Python编程语言的简洁性和脚 本功能的特点,通过一个重要且高效易用的第三方
构和动态规划的方法,寻找出概率最大的词语。除 分词功能外,jieba函数库的功能还包括添加自定义
中文分词函数库jieba,对毕业论文的中文摘要以及 正文部分进行了词频统计,借助动态规划与图结构
词语(通过训练,产生出来的识别不正确的词语)的 功能,从而丰富中文词库,进而改善后期的计算处 理结果。jieba第三方汉语分词函数库包含的常用的分的方法,寻找出论文中出现概率最大的单词,根据 输出的文章中最常出现的10个单词及出现次数,与
[收稿日期]2019-10-11[基金项目]高教研究会项目(2018-AFCEC-166)[作者简介]荀雪莲(1982-),女,北华航天工业学院图书馆管理员,研究方向:图书馆学、信息学。• 30 •第19卷•第4期荀雪莲等:基于中文摘要关键词的毕业论文质量评价系统2019年12月词函数以及具体描述如表1所示,该库支持三种分 词模式:精确模式、全模式和搜索引擎模式。其中 精确模式是在进行文本分析的过程中,将句子以最
精确的方式切开,本文就是采用了该模式;而全模
式,是把句子中所有可以组成词的词语全都扫描出 来,虽然速度非常得快,但也有可能是不明确的、误
导性的;对于搜索引擎模式,就是在精确模式的基
础上,对长的字词再次进行切分,提高召回率,更适 合于搜索引擎单词分割。表4 jieba库常用分词函数列表函数具体描述Jieba.cut(txt)该函数以精确模式返回一个可迭代的数据类型Jieba.cut(txt,cut_all=该函数以全模式输出文本txt中所有可True)能的单词Jieba.该函数以搜索引擎模式返回适合搜索cut for search(txt)引擎建立索引的分词结果Jieba.lcut(txt)该函数以精确模式返回一个列表类型(本文采用该模式下的此函数)Jieba.lcut(txt,cut_all=True)该函数以全模式返回一个列表类型Jieba.该函数以搜索引擎模式返回一个列表lcut_fbi^_search(txt)类型根据此表中的切开函数在前期训练中所产生的没有成功识别的结果,将其定Jieba.add_word(w)为一个新词W,该函数向分词字典中添加一个新词W,丰富中分分词库,进而改善输出结果针对表1所列出的分词函数,可以在程序开发 中选择合适有效的函数加以应用,来实现与中文文 本相关的分词问题。2毕业论文质量评价2.1实施计划使用Python编程语言重要的第三方中文分词
库jieba,对毕业论文的中文摘要以及正文部分进行 了词频统计,根据输出的毕业论文中最常出现的10
个单词及出现次数,与毕业论文中文摘要部分的关 键词进行比对,依据评价标准细则,制定反馈修改 方案,来完成大学生毕业论文的质量把控。2.2程序设计首先安排毕业生将自己的毕业论文的中文摘 要部分(含关键词)以及正文部分保存为文本文件, 然后,用Python编程语言开发的程序进行词频统
计。词频统计的第一步是分解并提取中文文章的
字词,程序中用到了 jieba.lcut(txt),第二步是对每个
字词进行计数统计,程序中使用了_个字典数据类 型counts={},最后将单词的统计结果从高到低排序, 输出具有最高频率的前10个单词,并格式化打印输 出。因为字典数据类型没有顺序,所以程序中需要
将其转换为有顺序的列表数据类型dataltems =list
(counts.items()),然后再借用列表数据类型对象的
sort ()方法和列表数据类型对象的lambda ()函数,
配合实现根据字词出现的次数,对元素进行排序。calGraduatePaper.py程序的编写与运行在Python 编程语言开发环境IDLE下完成,代码(含相应
注释)如下:# calGTaduatePapeT.pyimport jieba #首先引入具有分词功能的Python
编程语言第三方库jieba库papertxt=open( \"20194051101_张三.txt”, HrH, en- coding=,utf-8,) .read()words=jieba.lcut ( papertxt) #第一步,分解并提
取中文文章的字词counts={} #字典数据类型 counts={}for word in words:if len(word)==l: #排除单个字符的分词结果
continueelse:counts [ word ] =counts.get( word ,0)+1
dataltems=list ( counts.items ( ) ) # 因为字典数据
类型没有顺序,所以将其转换为有顺序的列表数据 类型dataltems.sort (key二lambda x:x [1] , reverse=
True) #借用列表数据类型对象的sort()方法和
lambdaO函数配合实现根据字词出现的次数对元素
进行排序for i in range(10)word, count= dataltems [i]print (n {0:< 11} {1:>4}format(word, count))2.3评价体系按照毕业论文的结构组成(中文摘要除关键词 以外部分、中文摘要关键词部分和正文部分),结合
毕业生论文的撰写情况统计,制定评价标准细则以
及反馈修改方案,如表2所示。情况1反映了此类
学生仅在关键词部分放置了与论文相关的关键词, 但在论文正文以及中文摘要部分均未出现关键词, 以此类推,实验结果减去1代表着毕业论文作者阐・31・2019年12月廊坊师范学院学报(自然科学版)第19卷•第4期述关键词的数量程度。表2评价标准细则及反馈修改方案序号比对结果评价 等级反馈意见论文正文以及中文摘要部分均未出现 1关键词只出现1次极差关键词,意见:全面修改正文以及中文
摘要论文正文以及中文摘要部分出现关键 2关键词出现词次数仅有一两次,意见:修改正文以 次数小于4差及中文摘要论文正文以及中文摘要部分出现关键 3关键词出现基本 4~6次词次数3~5次,意见:等待其他指标检 合格测论文正文以及中文摘要部分出现关键 4关键词出现次数大于6合格词次数大于5,意见:等待其他指标检
测2.4系统测试以张三毕业论文为测试数据,首先准备好文本
文件(20194051901_张三.txt),该毕业论文的中文摘
要关键词为:数据机房网络;三层架构;路由技术; 数据安全。然后运行calGraduatePaper.py程序,程 序的运行结果如图1所示。和该毕业论文中文摘要
部分的关键词进行比对,得出结论是表2中的情况
1,应该按照情况1对该学生进行意见反馈。L4 Python 3.5.3 ShellFile Edit Shell Debug Options Window HelpI Python 3.5.3 (v3.5. 3:1880cb95a742, Jan 16 2017, 15:51:26) [MSC v. 1900 32 〔Win32”Type \"copyright\ \"credits\" or \"license()\" for more information.| =============== RESTART: D:\\荀雪莲\\科研\\毕业论文检测\\calGraduatePaper. py
实验室
42计算机 31网络数擢库 2919分析 18路由器 15« 15gt 13惨考 12搭建 10图1毕业论文词频统计结果• 32 •3结语本文以Python生态编程语言为切入点,利用
Python编程语言第三方中文分词函数库jieba库,对
毕业论文的中文摘要以及正文部分进行了词频统
计,根据输出的文章中最常出现的10个单词及出现 次数,与毕业论文中文摘要部分的关键词进行比
对,依据制定的评价标准细则,来对大学生毕业论
文的质量进行评价,并给出反馈修改意见,保障了
毕业论文质量。[参考文献][1 ]王鑫.应用型本科高校毕业设计(论文)控评机制研究[J].
轻工科技,2019,35(6):175-176.[2] 嵩天,礼欣,黄天羽.Python语言程序设计基础(第2版)[M],
北京:高等教育出版社,2017:263-270.[3] 李南.指导教师视域下的经济类本科毕业论文分环节控
制要点解析[J].廊坊师范学院学报(自然科学版),2014, 14(1):95-97,102.[4] 李刚.本科毕业论文质量评价及其提升路径[J].哈尔滨职
业技术学院学报,2019,(2):143-145.⑸宾幕容.应用型专业本科毕业论文质量保障体系的构建[J].
科教文汇,2018,(10):24-25,29.[6] 张鑫.浅析如何提高本科毕业设计质量[J].廊坊师范学院
学报(自然科学版),2013,13(4):127-128.[7] 曾志灵,高琴.农业院校日语专业本科毕业论文关键词的
共词聚类分析——基于Z农业大学的数据[J].广东农业 科学,2013,40(8):234-236.[8] 徐博龙.应用Jieba和Wordcloud库的词云设计与优化[J].
福建电脑,2019,35(6):25-2&[9] 祝永志,荆静.基于Python语言的中文分词技术的研究[J].
通信技术,2019,52(7):1612-1619.[10] 邢彪,根绒切机多吉.基于jieba分词搜索与SSM框架的
电子商城购物系统[J].信息与电脑(理论版),2018,(7):
104-105,108.
因篇幅问题不能全部显示,请点此查看更多更全内容