SEO优化实战经验总结 中文分词

所属分类: 网站运营 / 网站优化 阅读数: 1160
收藏 0 赞 0 分享
最早的中文分词办法是由北京航天航空大学的梁南元教授提出的一种基于“查字典”的分词办法。该方法是把整个句子读一遍,然后把字典里有的词都单独标示出来,当遇到复合词的时候(例如北京大学),就找到最长的词匹配。遇到不认识的字符串就分割成单个文字。
例如:“著名导演张艺谋说国庆节晚上将安排十万人到天安门联欢。”
根据该办法,可以切分为:
“著名 | 导演 | 张艺谋 | 说 | 国庆节 | 晚上 | 将 | 安排 | 十万人 | 到 | 天安门 | 联欢”
这样的分词办法虽然说可以应付很多的句子,但是由于细分的太多,在真正搜索引擎使用的过程中,到底哪一个词才是重点就无法表述,从而搜索引擎搜索出的结果也不能达到最大的相关度。

在80年代,哈尔滨工业大学计算机博士生导师王晓龙博士提出了“最少词数”的分词理论,即为,一句话应该是分词最少的字符串,这样会更多的让搜索引擎更明白这句话到底是什么意思。但是它对于例如“二义性”的关键词组,就不能说最长的分割就是最好的结果。
例如:“吉利大学城书店”
这个关键词正确的分词应该是“吉利 | 大学城 | 书店”而不是词典中的“吉利大学 | 城 | 书店 ”



目前,主流的分词办法有两种,一种是基于统计模型的文字处理,另外一种是基于字符串匹配的逆向最大匹配法。

基于统计模型的文字处理
从形式上看,词是稳定的字的组合,因此在上下文中,相邻的字同时出现的次数越多,就越有可能构成一个词。因此字与字相邻共现的频率或概率能够较好的反映成词的可信度。可以对语料中相邻共现的各个字的组合的频度进行统计,计算它们的互现信息。定义两个字的互现信息,计算两个汉字X、Y的相邻共现概率。互现信息体现了汉字之间结合关系的紧密程度。当紧密程度高于某一个阈值时,便可认为此字组可能构成了一个词。这种方法只需对语料中的字组频度进行统计,不需要切分词典,因而又叫做无词典分词法或统计取词方法。但这种方法也有一定的局限性,会经常抽出一些共现频度高、但并不是词的常用字组,例如“这一”、“之一”、“有的”、“我的”、“许多的”等,并且对常用词的识别精度差,时空开销大。实际应用的统计分词系统都要使用一部基本的分词词典(常用词词典)进行串匹配分词,同时使用统计方法识别一些新的词,即将串频统计和串匹配结合起来,既发挥匹配分词切分速度快、效率高的特点,又利用了无词典分词结合上下文识别生词、自动消除歧义的优点。

基于字符串匹配的逆向最大匹配法
一般来说,在SEO中使用最多的分词办法就是基于字符串匹配的逆向最大匹配法。这种方法就是从句子的后面往前(从右向左)进行分词。



在搜索引擎运行的机制中,有很多种中文分词的办法,例如正向最大匹配分词、逆向最大分析、基于统计的分词等。但是在实际的搜索引擎运行过程中,分词的办法却没有这么简单了。因为搜索引擎不仅仅要去考虑到分词结果的正确性,还需要考虑到对于分不出来的词的处理。

首先我们来讨论分词结果的准确度,一般来说,搜索引擎是使用多种分词的方式构成一个混合分词方式来进行分词的,因为这样可以让词汇最大化的、更准确的分开。混合分词的原理是:先使用专业词典进行分词,之后再使用普通词库进行一次分词。

那么对于分不出来的词,搜索引擎又是如何操作的呢?
一般来说,搜索引擎遇到这样的关键词时,会采取一元分词+二元分词+混合分词+不分词的方式来解决这样的问题。
例如:“草泥马是一种食草动物”
一元分词结果:“草\泥\马\是\一种\食草\动物\”或者“草\泥\马\是\一种\食草动物\”或者“草\泥\马\是\一种\食\草\动物\”
二元分词结果:“草泥\泥马\是\一种\食草\动物”。
第三种方式——干脆不分,以保持新词的完整性。
在经过了这一系列的分词程序后,实际分词的结果是:草泥\泥马\草泥马\是\一种\食草\食\草\动物\食草动物



掌握了中文分词技术,就可以为网页构建更多的长尾关键词。
更多精彩内容其他人还在看

Google发布网页统计报告 网站优化4点建议

Google发布了网页统计报告,此举是为了提高大家对网页读取速度优化的重视程度,他们为网页开发者提供了很多帮助指南,来提高效率。
收藏 0 赞 0 分享

SEO报价单参考 关键词的热度评定和报价方案

seo网站优化方案的价格视网站经营目标、网站的规模、功能、结构、内容、行业网络竞争状况等具体状况而定,一般为2000元-10万元之间。
收藏 0 赞 0 分享

seo报价方案关键字的五个参考

seo报价方案关键字五个参考,对于做seo优化的朋友会有些帮助。了解行情。避免恶意竞争。
收藏 0 赞 0 分享

百度降权的几种情况分析

百度降权对大多站长来说,是很恐怖的事情,产品排名消失,收录大量减少,快照停止更新,更严重被把毛,这些都是朋友们不想看到的结果
收藏 0 赞 0 分享

SEO 最简单的方法往往是最有效的

在SEO行业呆的越久,就越能明白一个道理,那就是:“SEO的真谛是简单的方法不断的加强”
收藏 0 赞 0 分享

网站优化之避免冗余代码 记事本在网站优化中的作用

当我们接手一个客户网站后,首先会对网站进行全面的体检,你就会发现网站产品页的垃圾代码相当多,大约占了有用代码的一半,这无疑不利于SEO(不利于搜索引擎抓取),几乎每一个网页都一样。这种网页是怎么产生的呢?
收藏 0 赞 0 分享

百度删除网站收录内容解决方法小结

为什么百度收录了我的内容页,过后又删除?
收藏 0 赞 0 分享

SEO的真正的命脉所在网站的整体质量

网站的整体质量才是SEO的真正的命脉所在
收藏 0 赞 0 分享

SEO 常见的作弊手法总结

常见的几种SEO作弊技术.尽量避免作弊,做好内容才是最重要的。
收藏 0 赞 0 分享

网络推广2条腿走路(技术+创意)

以前在刚刚接触网络营销的时候,总以为技术很重要。
收藏 0 赞 0 分享
查看更多