(12)发明专利申请
(10)申请公布号 CN 112287272 A(43)申请公布日 2021.01.29
(21)申请号 202011161424.8(22)申请日 2020.10.27
(71)申请人 中国科学院计算技术研究所
地址 100080 北京市海淀区中关村科学院
南路6号(72)发明人 孟剑 郭岩 贺广福 史存会
陈银鹏 俞晓明 刘悦 程学旗 (74)专利代理机构 北京律诚同业知识产权代理
有限公司 11006
代理人 祁建国(51)Int.Cl.
G06F 16/958(2019.01)G06F 16/35(2019.01)G06F 16/957(2019.01)G06N 3/04(2006.01)
权利要求书2页 说明书7页 附图5页
G06N 3/08(2006.01)
CN 112287272 A(54)发明名称
一种网站列表页面的分类方法、系统及存储介质(57)摘要
本发明涉及一种网站列表页面的分类方法,所述分类方法基于超文本标记语言标签(HTML Tag),所述分类方法包括:步骤100、获取一组网站网页;步骤200、分别针对每一所述网站网页提取所述网站网页的统计特征和结构特征,得到每一所述网站网页对应的特征序列;步骤300、将所述特征序列输入神经网络进行所述神经网络的训练,得到网站列表页面分类器;步骤400、获取待分类的网站网页,根据所述步骤200得到所述待分类的网站网页的特征序列,将所述待分类的网站网页的特征序列输入所述步骤300得到的所述网站列表页面分类器,判断该待分类的网站网页是否为网站列表页面。
CN 112287272 A
权 利 要 求 书
1/2页
1.一种网站列表页面的分类方法,所述分类方法基于超文本标记语言标签(HTML Tag),其特征在于,所述分类方法包括:
步骤100、获取一组网站网页;步骤200、分别针对每一所述网站网页提取所述网站网页的统计特征和结构特征,得到每一所述网站网页对应的特征序列;
步骤300、将所述特征序列输入神经网络进行所述神经网络的训练,得到网站列表页面分类器;
步骤400、获取待分类的网站网页,根据所述步骤200得到所述待分类的网站网页的特征序列,将所述待分类的网站网页的特征序列输入所述步骤300得到的所述网站列表页面分类器,判断该待分类的网站网页是否为网站列表页面。
2.根据权利要求1所述的网站列表页面的分类方法,其特征在于,所述统计特征包括:各所述超文本标记语言标签(HTML Tag)的出现次数及该次数的倒数;各所述超文本标记语言标签(HTML Tag)有链接的次数及该次数的倒数;各所述超文本标记语言标签(HTML Tag)有文本的次数及该次数的倒数;所述网站页面的链接长度及该链接长度的倒数;所述网站页面的链接深度及该链接深度的倒数;纯文本的超文本标记语言标签(HTML Tag)中文本数量的极值及该极值的倒数;所述超文本标记语言标签(HTML Tag)中文本数量的方差及该方差的倒数;所述超文本标记语言标签(HTML Tag)中文本数量的均值及该均值的倒数;所述超文本标记语言标签(HTML Tag)中文本数量的均方差及该均方差的倒数。3.根据权利要求1所述的网站列表页面的分类方法,其特征在于,所述结构特征包括N元语法(N-gram)特征,其中所述N元语法特征包括一元语法(uni-gram)特征和二元语法(bi-gram)特征。
4.根据权利要求3所述的网站列表页面的发现方法,其特征在于,所述N元语法特征的提取步骤包括:
步骤210,将每一所述网站网页解析成文档对象模型(DOM)树,并将文档对象模型(DOM)树表达为一HTML标签序列;
步骤220,对所述HTML标签序列中的各标签元素进行分类;步骤230,针对所述HTML标签序列中的各不同类别的标签元素提取所述N元语法特征。5.根据权利要求4所述的网站列表页面的分类方法,其特征在于,于所述步骤220中,所述HTML标签序列中的所述标签元素划分为:含有外链接的标签、不含外链接的标签和文本标签;
其中,所述含有外链接的标签中包含有指向外部的链接地址(URL),所述不含外链接的标签中不包含指向外部的链接地址,所述文本标签由所述含有外链接的标签和所述不含外链接的标签之外的部分构成。
6.根据权利要求1-5任一项所述的网站列表页面的分类方法,其特征在于,所述神经网络为全连接神经网络,所述全连接神经网络包括输入层、隐藏层和输出层。
7.根据权利要求6所述的网站列表页面的分类方法,其特征在于,所述全连接神经网络的激活函数为Gelu函数,损失函数为交叉熵函数。
2
CN 112287272 A
权 利 要 求 书
2/2页
8.根据权利要求7所述的网站列表页面的分类方法,其特征在于,于所述全连接神经网络的训练步骤中,包括:
步骤310,将所述特征序列输入所述输入层;步骤320,所述隐藏层根据Gelu函数和交叉熵函数针对所述特征序列进行运算并训练所述全连接神经网络,得到所述全连接神经网络分类参数;
步骤330,所述输出层根据所述分类参数输出所述网站网页的分类结果;其中,当所述分类结果为[0,1],表示输入的网站网页为列表页面(Board页)。9.根据权利要求8所述的网站列表页面的分类方法,其特征在于,于所述步骤320中,使用标签平滑法(label smooth)、指数滑动平均法(exponential moving average,EMA)和/或批量归一化法(batch normalization)加速对所述全连接神经网络的训练。
10.根据权利要求8所述的网站列表页面的分类方法,其特征在于,于所述步骤320中,通过反向传播算法和梯度下降法得到全连接神经网络的分类参数。
11.一种网站列表页面的分类系统,所述分类系统基于超文本标记语言标签(HTML Tag),其特征在于,所述分类系统包括:
网页获取模块,用于获取一组待分类的网站网页;特征提取模块,用于分别针对每一所述网站网页提取所述网站网页的统计特征和结构特征,得到每一所述网站网页对应的特征序列;
网页分类模块,具有预先训练好的神经网络分类模型,所述神经网络分类模型用于根据所述特征序列判断所述待分类的网站网页是否为网站列表页面。
12.根据权利要求11所述的网站列表页面的分类系统,其特征在于,所述分类系统还包括:训练模块,用于对所述神经网络进行训练;
其中,所述神经网络为全连接神经网络,所述全连接神经网络的激活函数为Gelu函数,损失函数为交叉熵函数;所述全连接神经网络包括输入层、隐藏层和输出层;所述输入层获取所述特征序列;所述隐藏层根据Gelu函数和交叉熵函数针对所述特征序列进行运算并训练所述全连接神经网络,得到所述全连接神经网络分类参数。
13.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有信息传递的实现程序,所述程序被处理器执行时实现如权利要求1至10中任一项所述的网站列表页面的分类方法的步骤。
3
CN 112287272 A
说 明 书
一种网站列表页面的分类方法、系统及存储介质
1/7页
技术领域
[0001]本发明涉及网页分类的技术领域,特别涉及一种基于HTML Tag的N-gram特征的网站列表页面(Board页)的分类方法及系统。
背景技术
[0002]近年来随着互联网的逐步发展,网络已经成为了最大的数据来源。长久以来人们都在关注于互联网数据采集任务。一种常见的采集方式是定制化的采集,即针对某个或某种特定网站进行定制化开发,分析网站链接情况,然后根据其页面以及网络特征构建数据抽取方法。
[0003]互联网中的数据往往可以按照其发布和交互形式分为新闻,论坛,博客等不同的信息来源,每个信息来源都有其特定的格式,如新闻数据源,其数据包含了新闻正文,新闻作者,新闻题目,新闻评论等数据,每个新闻页都有着其所属分类。同样的论坛也划分为板块,论坛的数据包含了论坛主贴,论坛回帖等内容。针对每个信息来源,甚至每个网站的定制性开发采集器必然导致了采集器不能够被复用。这是对于开发的一种浪费。通过对于大量的、多信息来源网站的调研发现,虽然不同信息来源的网络数据结构具有着不同的形式,但是,却具有着一定的通用特征。比如,新闻信息来源中的网站,无论是按照内容分类,还是网站首页,都有着类似于列表的页面,该页面按照一定的规则,直接显式的列出相关的新闻文章链接,并且,取决于相关规则下所有文章的多少,页面上也会有相关的翻页链接,能够帮助获取更多的文章。类似的,对于博客信息来源中的网站,也会有类似的结构,往往会更明显的为个人首页,或者个人时间线。论坛信息来源中的网站同样的,也存在相似的结构。[0004]对于这种结构,可将其归纳为Board-Article结构,其中列表页面被称为Board页,真正的待采集的数据页面被称为Article页。Board页通常是主题相关的,即一个Board页上所有的Article页链接往往是围绕着一个统一的主题,或者具有统一的强特征的。这种Board页的特性保证了通过一个Board页能够捕获到需求主题下的数据,从而避免了冗余数据的采集。Board页作为入口页面,和Article页面具有着树形结构,而不是开放式的图结构,这就使得对于数据变化的感知能够通过扫描Board页实现。通过对于Board页的分析,便可轻易地获得数据的变化,从而更加高效的追踪数据。因此,如何从网站中发现Board页成为定制化采集必须解决的问题。
[0005]Board页的发现方法主要有以下几种:[0006](1)基于人工:即采用人工方式从网站中筛选出Board页。由于网页具有显著的多样性,使得面对大规模网站,尤其大型网站时,人工筛选Board页的代价是相当昂贵的。同时,网站的频繁改版也增大了Board页的不稳定性,需要进一步付出人工代价重新筛选Board页。[0007](2)基于规则:即把人工筛选Board页的经验转换成规则,基于规则模拟人从网站中发现Board页。同样的,网页具有显著的多样性,使得基于规则的方法存在泛化能力弱的固有缺陷,无法保证Board页的召回率和准确度。
4
CN 112287272 A[0008]
说 明 书
2/7页
因此,已有的Board页发现方法主要依赖人对Board页的直观认知,无法充分利用
Board页的各种特征,尤其是一些隐藏的规律特征,使得方法的泛化能力弱,进而无法保证Board页的召回率和准确度,这些都会在很大程度上影响定制化采集的数据质量。
发明内容
[0009]为了解决上述技术问题,本发明目的在于提供一种基于HTML Tag的网站列表页面(Board页)的分类方法及系统。本发明的Board页分类方法更好地利用了Board页的视觉特征,并利用神经网络模型更好地捕捉到Board页各种隐含特征,具有更好的泛化能力。[0010]具体地说,本发明公开了一种网站列表页面的分类方法,所述分类方法基于超文本标记语言标签(HTML Tag),所述分类方法包括:[0011]步骤100、获取一组网站网页;[0012]步骤200、分别针对每一所述网站网页提取所述网站网页的统计特征和结构特征,得到每一所述网站网页对应的特征序列;[0013]步骤300、将所述特征序列输入神经网络进行所述神经网络的训练,得到网站列表页面分类器;
[0014]步骤400、获取待分类的网站网页,根据所述步骤200得到所述待分类的网站网页的特征序列,将所述待分类的网站网页的特征序列输入所述步骤300得到的所述网站列表页面分类器,判断该待分类的网站网页是否为网站列表页面。[0015]根据所述的网站列表页面的分类方法,其中,所述统计特征包括:[0016]各所述超文本标记语言标签(HTML Tag)的出现次数及该次数的倒数;[0017]各所述超文本标记语言标签(HTML Tag)有链接的次数及该次数的倒数;[0018]各所述超文本标记语言标签(HTML Tag)有文本的次数及该次数的倒数;[0019]所述网站页面的链接长度及该链接长度的倒数;[0020]所述网站页面的链接深度及该链接深度的倒数;[0021]纯文本的超文本标记语言标签(HTML Tag)中文本数量的极值及该极值的倒数;[0022]所述超文本标记语言标签(HTML Tag)中文本数量的方差及该方差的倒数;[0023]所述超文本标记语言标签(HTML Tag)中文本数量的均值及该均值的倒数;[0024]所述超文本标记语言标签(HTML Tag)中文本数量的均方差及该均方差的倒数。[0025]根据所述的网站列表页面的分类方法,其中,所述结构特征包括N元语法(N-gram)特征,其中所述N元语法特征包括一元语法(uni-gram)特征和二元语法(bi-gram)特征。[0026]根据所述的网站列表页面的分类方法,其中,所述N元语法特征的提取步骤包括:[0027]步骤210,将每一所述网站网页解析成文档对象模型(DOM)树,并将文档对象模型(DOM)树表达为一HTML标签序列;[0028]步骤220,对所述HTML标签序列中的各标签元素进行分类;[0029]步骤230,针对所述HTML标签序列中的各不同类别的标签元素提取所述N元语法特征。
[0030]根据所述的网站列表页面的分类方法,其中,于所述步骤220中,所述HTML标签序列中的所述标签元素划分为:含有外链接的标签、不含外链接的标签和文本标签;[0031]其中,所述含有外链接的标签中包含有指向外部的链接地址(URL),所述不含外链
5
CN 112287272 A
说 明 书
3/7页
接的标签中不包含指向外部的链接地址,所述文本标签由所述含有外链接的标签和所述不含外链接的标签之外的部分构成。
[0032]根据所述的网站列表页面的分类方法,其中,所述神经网络为全连接神经网络,所述全连接神经网络包括输入层、隐藏层和输出层。[0033]根据所述的网站列表页面的分类方法,其中,所述全连接神经网络的激活函数为Gelu函数,损失函数为交叉熵函数。
[0034]根据所述的网站列表页面的分类方法,其中,于所述全连接神经网络的训练步骤中,包括:
[0035]步骤310,将所述特征序列输入所述输入层;[0036]步骤320,所述隐藏层根据Gelu函数和交叉熵函数针对所述特征序列进行运算并训练所述全连接神经网络,得到所述全连接神经网络分类参数;[0037]步骤330,所述输出层根据所述分类参数输出所述网站网页的分类结果;[0038]其中,当所述分类结果为[0,1],表示输入的网站网页为列表页面(Board页)。[0039]根据所述的网站列表页面的分类方法,其中,于所述步骤320中,使用标签平滑法(label smooth)、指数滑动平均法(exponential moving average,EMA)和/或批量归一化法(batch normalization)加速对所述全连接神经网络的训练。[0040]根据所述的网站列表页面的分类方法,其中,于所述步骤320中,通过反向传播算法和梯度下降法得到全连接神经网络的分类参数。[0041]为实现本发明的另一目的,本发明还提供一种网站列表页面的分类系统,所述分类系统基于超文本标记语言标签(HTML Tag),所述分类系统包括:[0042]网页获取模块,用于获取一组待分类的网站网页;[0043]特征提取模块,用于分别针对每一所述网站网页提取所述网站网页的统计特征和结构特征,得到每一所述网站网页对应的特征序列;[0044]网页分类模块,具有预先训练好的神经网络分类模型,所述神经网络分类模型用于根据所述特征序列判断所述待分类的网站网页是否为网站列表页面。[0045]根据上述的网站列表页面的分类系统,其中,所述分类系统还包括:训练模块,用于对所述神经网络进行训练;[0046]其中,所述神经网络为全连接神经网络,所述全连接神经网络的激活函数为Gelu函数,损失函数为交叉熵函数;所述全连接神经网络包括输入层、隐藏层和输出层;所述输入层获取所述特征序列;所述隐藏层根据Gelu函数和交叉熵函数针对所述特征序列进行运算并训练所述全连接神经网络,得到所述全连接神经网络分类参数。[0047]为实现本发明的另一目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有信息传递的实现程序,所述程序被处理器执行时实现上述任一项所述的网站列表页面的分类方法的步骤。[0048]本发明的分类方法使用了HTML Tag序列的N-gram特征,使得分类方法能够捕获到DOM树结构中所蕴含的HTML页面的视觉特征,视觉特征能够更好地刻画人对网页布局、内容的认知,是网页分析中最优质的特征之一。另外,本发明中的分类方法还使用了神经网络模型,神经网络模型具有天然的学习能力,能够挖掘隐藏的特征,泛化能力强。因此和已有的Board页发现方法相比较,本发明的Board页分类方法更好地利用了Board页的视觉特征,并
6
CN 112287272 A
说 明 书
4/7页
利用神经网络模型更好地捕捉到Board页各种隐含特征,具有更好的泛化能力。[0049]为让本发明的上述特征和效果能阐述的更明确易懂,下文特举实施例,并配合说明书附图作详细说明如下。
附图说明
[0050]图1为本发明的一实施例的网站列表页面的分类方法的流程图;
[0051]图2为本发明的一实施例的网站列表页面的分类方法的N元语法特征的提取流程图;
[0052]图3为本发明的一实施例的网站列表页面的分类方法中含有外链接的标签的示例图;
[0053]图4为本发明的一实施例的网站列表页面的分类方法中不含外链接的标签的示例图;
[0054]图5为本发明的一实施例的网站列表页面的分类方法中文本标签的示例图;
[0055]图6为本发明的一实施例的网站列表页面的分类方法中全连接神经网络的示意图。
[0056]图7示出了本发明一实施例的一种网站列表页面的分类系统的框架图。
具体实施方式
[0057]下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。显然,下文所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。[0058]另外,在本发明中涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
[0059]本发明用于解决现有技术中的无法充分利用Board页的各种特征,尤其是一些隐藏的规律特征,使得方法的泛化能力弱,进而无法保证Board页的召回率和准确度的问题,将Board页的发现问题抽象成一个二分类问题,即把网站的网页分成两类:Board页和非Board页,并使用页面DOM(Document Object Model,文档对象模型)树的结构特征,以及网页URL的特征,基于神经网络对网页进行分类,从而发现Board页。[0060]在本发明中,网站、页面及其相互之间的关系存在如下假设:[0061]1、网站由页面构成,页面有一或多个的标识即URL。每个URL都唯一对应一个页面;[0062]2、页面本身由HTML构成,HTML中包含了节点、节点属性、节点内容(文本)、节点样式的信息,其中节点属性中可能存在其他页面的URL;[0063]3、通过当前页面中的其他页面的URL,可以认为是一个页面指向一个页面。
7
CN 112287272 A[0064]
说 明 书
5/7页
基于以上假设,网站本身组成了一个有向网络,网络中的节点存在各自特征。在本
发明中,对Board页的特征进行了抽象,即Board页的定义:Board页是网站中天然拥有的,可以看作是网站组成的网络中的一个节点;Board页是其指向的Article页的聚合页,因此Board页对应的节点具有网络中特定的网络结构特征。[0065]在本发明中,主要利用了使用页面DOM(Document Object Model,文档对象模型)树的结构特征,以及网页URL的特征,基于神经网络对网页进行分类,具体来说,本发明提供了一种基于HTML Tag的n-gram特征的Board页分类方法。[0066]请参考图1,图1示出了本发明的一实施例的网站列表页面(Board页)的分类方法的流程图。如图1所示,该分类方法包括以下步骤:[0067]步骤100、获取一组网站网页。具体地,在本实施例中,获取网站页面的方法主要是根据网页链接,获取该网页的html源码。[0068]步骤200、分别针对每一所述网站网页提取所述网站网页的统计特征和结构特征,得到每一所述网站网页对应的特征序列。[0069]在本实施例中,网站网页的统计特征包括:各所述超文本标记语言标签(HTML Tag)的出现次数及该次数的倒数;各所述超文本标记语言标签(HTML Tag)有链接的次数及该次数的倒数;各所述超文本标记语言标签(HTML Tag)有文本的次数及该次数的倒数;所述网站页面的链接长度及该链接长度的倒数;所述网站页面的链接深度及该链接深度的倒数;纯文本的超文本标记语言标签(HTML Tag)中文本数量的极值及该极值的倒数;所述超文本标记语言标签(HTML Tag)中文本数量的方差及该方差的倒数;所述超文本标记语言标签(HTML Tag)中文本数量的均值及该均值的倒数;所述超文本标记语言标签(HTML Tag)中文本数量的均方差及该均方差的倒数。具体而言,本实施例的网站页面具有一些常用的统计特征,利用这些特征,能够帮助区分Board页和其他页面。常用的统计特征包括:常见的各个HTML Tag的出现次数;各个HTML Tag有链接的次数;各个HTML Tag有文本的次数;页面本身的链接长度,链接深度(url中“/”出现的次数);纯文本HTML Tag中文本数的极值;HTML Tag中文本数量的方差,均值,均方差;上述特征的倒数(模拟FM方法)。[0070]另外,针对每个页面,本实施例的网站网页除了具有上述常用的统计特征外,本还包含例如N-gram特征等结构特征,使得本发明能够捕获到DOM树结构中所蕴含的HTML页面的视觉特征。视觉特征能够更好地刻画人对网页布局、内容的认知,是网页分析中最优质的特征之一。因此和已有的Board页发现方法相比较,本发明的Board页发现方法更好地利用了Board页的视觉特征。HTML Tag基于其间的关系组成了一个树,即DOM树。树结构本身是一个显著的特征,并且DOM树结构在一定程度上是HTML页面所形成的视觉特征的基本组成元素。因此引入除统计量外的DOM特征是一个有意义的事情,引入的方式为使用DOM树中的HTML Tag序列。在本实施例中,DOM树结构特征例如包括N元语法(N-gram)特征,N元语法特征的提取步骤如图2所示,包括:[0071]步骤210,将每一所述网站网页解析成文档对象模型(DOM)树,并将文档对象模型(DOM)树表达为一HTML标签序列。具体如下所述:[0072]提取DOM树中的HTML Tag序列,即将DOM树表达成一个HTML Tag序列。例如,一个页面的DOM树如下所示:
8
CN 112287272 A
说 明 书
6/7页
[0073]
将上述DOM树可以压缩成“html div a外部链接a div div p您好!p div html”这
样的HTML Tag序列。[0075]步骤220,对所述HTML标签序列中的各标签元素进行分类。本发明中的上述HTML Tag序列中的元素称为token,并将token分为了以下三类:[0076](1)含有外链接的标签A,即由单个标签构成,且标签的属性中包含指向外部的链接URL,如图3所示。[0077](2)不含外链接的标签B,即由单个标签构成,且标签的属性中不包含指向外部的链接URL,如图4所示。[0078](3)文本标签C,由以上两种标签token之外的部分构成,即标签之间的部分,如图5所示。
[0079]步骤230,针对所述HTML标签序列中的各不同类别的标签元素提取所述N元语法特征,也就是从HTML Tag序列中提取N-gram特征,如uni-gram特征、bi-gram特征等。[0080]步骤300、将所述特征序列输入神经网络进行所述神经网络的训练,得到网站列表页面分类器。本发明中使用神经网络模型,神经网络模型具有天然的学习能力,能够挖掘隐藏的特征,泛化能力强。
[0081]人工神经网络(Artificial Neural Networks,简写为ANNs)也简称为神经网络(NNs)或称作连接模型(Connection Model),它是一种模仿动物神经网络行为特征,进行分布式并行信息处理的算法数学模型。这种网络依靠系统的复杂程度,通过调整内部大量节点之间相互连接的关系,从而达到处理信息的目的。神经网络具有强大的学习能力,已经在很多领域有出色的应用。因此本发明利用神经网络实现网站中网页的二分类,从而发现Board页。即从训练网页中提取常用的统计特征和N-gram特征,输入到神经网络中,学习出一个基于神经网络的网页分类器。
[0082]将上述提取获得的统计特征和结构特征作为每个训练网页的一个特征序列,输入到神经网络中,在本实施例中,以一个四层的全连接神经网络为例说明之。如图6所示,图6示出了一个四层全连接神经网络的示意图。该全连接神经网络包括输入层IL、隐藏层HL和输出层OL,本实施例中,全连接神经网络使用的输入层IL例如为1024个神经元;隐藏层HL例如包括三个神经单元,分别为2048,1024、512神经元,当然本发明并不以此为限。全连接神经网络使用Gelu作为激活函数,使用交叉熵作为损失函数。[0083]具体地,全连接神经网络的训练步骤,包括:步骤310,将所述特征序列输入所述输
9
[0074]
CN 112287272 A
说 明 书
7/7页
入层;步骤320,所述隐藏层根据Gelu函数和交叉熵函数针对所述特征序列进行运算并训练所述全连接神经网络,得到所述全连接神经网络分类参数;步骤330,所述输出层根据所述分类参数输出所述网站网页的分类结果;当输出层输出[0,1],其中,1表示输入的网站网页为列表页面(Board页)。
[0084]考虑到网站中非board页数量较多,因此,对Board页的损失进行加权,增加惩罚系数。同时,使用label smooth(标签平滑)和EMA(exponential moving average,指数滑动平均),以及batch normalization(批量归一化)方法加速网络训练,提高模型泛化性。最后使用反向传播算法和梯度下降法得到模型参数即得到Board页分类器。[0085]步骤400、获取待分类的网站网页,根据上述步骤得到每一所述待分类的网站网页的特征序列,将所述待分类的网站网页的特征序列输入上述网站列表页面分类器,判断该待分类的网站网页是否为网站列表页面。[0086]基于一个发明构思,本发明还提供一种网站列表页面的分类系统500,该分类系统基于超文本标记语言标签(HTML Tag),如图7所示,图7示出了本发明一实施例的一种网站列表页面的分类系统的框架图,该分类系统包括:[0087]网页获取模块510,用于获取一组待分类的网站网页;[0088]特征提取模块520,用于分别针对每一所述网站网页提取所述网站网页的统计特征和结构特征,得到每一所述网站网页对应的特征序列;[0089]网页分类模块530,具有预先训练好的神经网络分类模型,所述神经网络分类模型用于根据所述特征序列判断所述待分类的网站网页是否为网站列表页面。[0090]根据权利要求11所述的网站列表页面的分类系统,其特征在于,所述分类系统还包括:训练模块,用于对所述神经网络进行训练;[0091]其中,所述神经网络为全连接神经网络,所述全连接神经网络的激活函数为Gelu函数,损失函数为交叉熵函数;所述全连接神经网络包括输入层、隐藏层和输出层;所述输入层获取所述特征序列;所述隐藏层根据Gelu函数和交叉熵函数针对所述特征序列进行运算并训练所述全连接神经网络,得到所述全连接神经网络分类参数。[0092]基于同一发明构思,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有信息传递的实现程序,所述程序被处理器执行时实现上述的任意一种分类方法的步骤。[0093]当然,本发明还可有其它多种实施例,在不背离本发明精神及其实质的情况下,熟悉本领域的技术人员当可根据本发明作出各种相应的改变和变形,但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。
10
CN 112287272 A
说 明 书 附 图
1/5页
图1
图2
11
CN 112287272 A
说 明 书 附 图
2/5页
图3
12
CN 112287272 A
说 明 书 附 图
3/5页
图4
13
CN 112287272 A
说 明 书 附 图
4/5页
图5
14
CN 112287272 A
说 明 书 附 图
5/5页
图6
图7
15
因篇幅问题不能全部显示,请点此查看更多更全内容