(3) 阅读 (516)

网页分词技术 编辑词条词条保护

词条创建者 雅式

搜索引擎首先将网页进行分词,分词完成后可以得到词的数量N和文章长度L,从大量文章的统计中发现文章的长度L和词的数量N两个数字之间存在一定的分布关系,一般而言L/N界于4至8之间,均值大约在5-6之间。也就是说一篇长度为1000字节的文章中,应该有125-250个分词,由于中文和英文的词的组成不一致,因此在英文和中文中这个比值的范围会有所不同。

网页分词技术

如果搜索引擎发现L/N特别大,那么这篇文章就存在关键字堆砌现象了,如果L/N特别小,则可能是这篇文章是由一些词所组成的没有意义的文章。 进一步,通过大量正常文章统计发现,文章中密度最高的几个关键字出现的次数之和与N/L存在一定的分布关系,搜索引擎就可以通过网页中的分布与统计结果的分布图进行比较得出文章是否存在关键字堆砌的现象。

内容由雅式提供,本内容不代表vibaike.com立场,内容投诉举报请联系vibaike.com客服。如若转载,请注明出处:https://ispeak.vibaike.com/23624

发表评论

登录后才能评论
词条目录
  1. 网页分词技术

轻触这里

关闭目录

目录