专利名称:一种网页正文及要素提取的方法和系统专利类型:发明专利
发明人:李兆钧,罗啟泽,雷小平申请号:CN201911252927.3申请日:20191209公开号:CN110990738A公开日:20200410
摘要:本发明公开了一种网页正文及要素提取的方法和系统,其方法包括以下步骤:从同一平台采集多个网页,分别对单个网页进行预处理;计算单个所述网页的正文、发布时间、来源的提取候选路径及其评分,得到所述网页的网页级提取候选路径及评分;对多个网页的所述网页级提取候选路径及评分进行综合计算,得到平台级提取候选路径及评分;S4:判断所述平台级提取候选路径是否达到置信水平,如达到则作为平台级提取路径,生成所述平台的要素提取器,如未达到则重新采集网页。本发明提供的网页正文及要素提取的方法和系统,能提取的网页元素较多,能提高网页提取的准确性和效率,能评估提取的可靠性程度。
申请人:名创优品(横琴)企业管理有限公司
地址:519000 广东省珠海市横琴南山嘴路156号二层办公室205室
国籍:CN
代理机构:北京集佳知识产权代理有限公司
代理人:郭帅
更多信息请下载全文后查看
因篇幅问题不能全部显示,请点此查看更多更全内容