[切换城市]
收藏千搜 网站地图
让全世界精准客户找到你

百度、360、搜狗、神马、谷歌排名优化

15206197711

您所在的位置: 首页 > 千搜学院 > 网站优化

无锡网站优化人员对于中文分词的介绍 日期:2019-01-11 10:47:26  作者:千搜网络  点击:3573  点赞:
0 +1

SEO内容中,通常叫预处理是索引,这是由于后者是前者的主要的一步。对于蜘蛛抓到的页面,不可以查询排序,搜索引擎的页面是在万亿页的页面中,当进行搜索的是偶,用程序不停地进行页面的分析是不现实的,因为工作量太大,不会很快的搜出来。所以对于里面的东西得经过一个预处理,给之后的查询铺垫。

与蜘蛛的寻找抓取一样,预处理也在后台,当用户使用的时候,觉不出来这一步。

 

提取

目前文字为主要的部分。蜘蛛抓到超文本标记代码,我们可以在浏览器上看到很多的文字,还有超文本标记语言的格式标签、Java描述语言不能作为排名的。搜索引擎需要的与预处理是从超文本标记语言中去掉上面的两种内容,提取可以作为排名效果的文字。

提取的内容不仅有字,还有包含这些字的代码,像Meta标签的字,图、Flash文件代替字,链接锚文本……

 

中文独有的分词

分词是中文自己的步骤。搜索引擎的工作是根据词来进行的。英文中单词是有空格区分,句子就是多个单词。中文词没有分开,都是字相连的。所以,搜索引擎需要知道哪些字组成的词,或者哪些字就是词。就像“学习方式”中,“学习”和“方式”就是两个词。


对于怎样分词,是这样的:根据词典,根据统计。


根据字典是这样的,把进行比较的文字和字典中的词条相互比较,将一个单独的词划出来。根据扫描的顺序,从字典进行比较可以分为正向、逆向。根据匹配长短的顺序,分为了极小、极大匹配。把这两种混合,成了正向极大匹配等不一样的方式。

词典比较很简单,准确度是根据其完整与否、增加内容的样子进行划分的。


根据统计进行处理是在使用了很多的文字已有样式,算出字之间相邻的统计出现情况,多个字靠在一起出现的多了,就更容易作为一个词。这种的好处是对新词的处理快,能够将不对的意思避免。


相关热搜词:

分享至: