[切换城市]
收藏千搜 网站地图
让全世界精准客户找到你

百度、360、搜狗、神马、谷歌排名优化

15206197711

您所在的位置: 首页 > 千搜学院 > 网站优化

中文分词算法二——怎样进行网站索引 日期:2019-01-15 11:58:38  作者:千搜网络  点击:3091  点赞:
0 +1

中文分词的准确与否决定着排名是否相关。就像是查询搜索引擎优化这个词,就像是下图这样,从快照图片可以看出这个词被当成了一个词。

图片1.png 

而谷歌浏览器会认为搜索、引擎、优化这是三个词。这时候,我们需要知道的是,百度的是合理的,因为这是一个完整的意思,可是谷歌在分词的时候更会偏向于细碎。

就像是好比动名网络,谷歌上面会将动、名、网络这三个词分开,这是由于谷歌的词典没有收录这个词。

这样子的不同让关键词在不一样的浏览器上面展现的不一样,是其中的一个因素。在百度上面,这些词能够一起出现排名会好一点,谷歌就不太看重整体,不太要求这个。而将这三个词分开在内容中,在谷歌浏览器上面还是会有一个好的排名。

所以分词是根据词库的多少、分词的准确程度与根据这种算法的利弊,并不是分局页面的,因此作为seoer的工作是极少的。能做的唯一一步是在页面中通过某种方式对搜索引擎进行一些提示,哪些字需要成为一个词汇对待,在会有多种意思的时候,就像是标题、h1标签或者是加黑的词。

要是文章中讲的是和服,那么就可以把这两个字单独的加黑。要是是写的大豆和小麦,那么可以将小麦两个字加黑。这样子,搜索引擎在进行分析的时候,可以将加黑的字理解成一个词。

 

将停止词删除

不管是中国还是外国的语言,在页面的内容中都会有很多经常出现,可是没有内容和实际意义的字。就像是助词:的等,或者是感叹:那,介词:然而。这种词就是停止词。这是由于这种词没有实际的意义。像:aof等英文词也是。

在进行索引的时候,会将它们删除,这样让主体的内容更加的明了,让计算减少。

 

减少噪声

在大部分的页面中,很多的东西都是对总体的主体没有作用的,就像是字体的版权维护、导航条和广告。就像是博客中的导航条,每一篇中都会出现分类、浏览历史等等,可是这个文章的主要内容是和这些没有联系的。所以这些的内容都是噪声,会将网站的主要内容冲淡。

必须将他们进行减除,在进行排名的时候忽略掉这些内容。这需要将超文本标记语言标签对网页进行分区,找到页头、导航、主题、页尾等。在很多的网站页面中,经常出现的内容一般是噪声。消噪后,留下了网页的主要内容。


相关热搜词:

分享至: