SEO优化实战经验总结 中文分词

所属分类: 网站运营 / 网站优化 阅读数: 1253
收藏 0 赞 0 分享
最早的中文分词办法是由北京航天航空大学的梁南元教授提出的一种基于“查字典”的分词办法。该方法是把整个句子读一遍,然后把字典里有的词都单独标示出来,当遇到复合词的时候(例如北京大学),就找到最长的词匹配。遇到不认识的字符串就分割成单个文字。
例如:“著名导演张艺谋说国庆节晚上将安排十万人到天安门联欢。”
根据该办法,可以切分为:
“著名 | 导演 | 张艺谋 | 说 | 国庆节 | 晚上 | 将 | 安排 | 十万人 | 到 | 天安门 | 联欢”
这样的分词办法虽然说可以应付很多的句子,但是由于细分的太多,在真正搜索引擎使用的过程中,到底哪一个词才是重点就无法表述,从而搜索引擎搜索出的结果也不能达到最大的相关度。

在80年代,哈尔滨工业大学计算机博士生导师王晓龙博士提出了“最少词数”的分词理论,即为,一句话应该是分词最少的字符串,这样会更多的让搜索引擎更明白这句话到底是什么意思。但是它对于例如“二义性”的关键词组,就不能说最长的分割就是最好的结果。
例如:“吉利大学城书店”
这个关键词正确的分词应该是“吉利 | 大学城 | 书店”而不是词典中的“吉利大学 | 城 | 书店 ”



目前,主流的分词办法有两种,一种是基于统计模型的文字处理,另外一种是基于字符串匹配的逆向最大匹配法。

基于统计模型的文字处理
从形式上看,词是稳定的字的组合,因此在上下文中,相邻的字同时出现的次数越多,就越有可能构成一个词。因此字与字相邻共现的频率或概率能够较好的反映成词的可信度。可以对语料中相邻共现的各个字的组合的频度进行统计,计算它们的互现信息。定义两个字的互现信息,计算两个汉字X、Y的相邻共现概率。互现信息体现了汉字之间结合关系的紧密程度。当紧密程度高于某一个阈值时,便可认为此字组可能构成了一个词。这种方法只需对语料中的字组频度进行统计,不需要切分词典,因而又叫做无词典分词法或统计取词方法。但这种方法也有一定的局限性,会经常抽出一些共现频度高、但并不是词的常用字组,例如“这一”、“之一”、“有的”、“我的”、“许多的”等,并且对常用词的识别精度差,时空开销大。实际应用的统计分词系统都要使用一部基本的分词词典(常用词词典)进行串匹配分词,同时使用统计方法识别一些新的词,即将串频统计和串匹配结合起来,既发挥匹配分词切分速度快、效率高的特点,又利用了无词典分词结合上下文识别生词、自动消除歧义的优点。

基于字符串匹配的逆向最大匹配法
一般来说,在SEO中使用最多的分词办法就是基于字符串匹配的逆向最大匹配法。这种方法就是从句子的后面往前(从右向左)进行分词。



在搜索引擎运行的机制中,有很多种中文分词的办法,例如正向最大匹配分词、逆向最大分析、基于统计的分词等。但是在实际的搜索引擎运行过程中,分词的办法却没有这么简单了。因为搜索引擎不仅仅要去考虑到分词结果的正确性,还需要考虑到对于分不出来的词的处理。

首先我们来讨论分词结果的准确度,一般来说,搜索引擎是使用多种分词的方式构成一个混合分词方式来进行分词的,因为这样可以让词汇最大化的、更准确的分开。混合分词的原理是:先使用专业词典进行分词,之后再使用普通词库进行一次分词。

那么对于分不出来的词,搜索引擎又是如何操作的呢?
一般来说,搜索引擎遇到这样的关键词时,会采取一元分词+二元分词+混合分词+不分词的方式来解决这样的问题。
例如:“草泥马是一种食草动物”
一元分词结果:“草\泥\马\是\一种\食草\动物\”或者“草\泥\马\是\一种\食草动物\”或者“草\泥\马\是\一种\食\草\动物\”
二元分词结果:“草泥\泥马\是\一种\食草\动物”。
第三种方式——干脆不分,以保持新词的完整性。
在经过了这一系列的分词程序后,实际分词的结果是:草泥\泥马\草泥马\是\一种\食草\食\草\动物\食草动物



掌握了中文分词技术,就可以为网页构建更多的长尾关键词。
更多精彩内容其他人还在看

SEO需要了解哪些技术

做SEO并不是一件简单的情况,那么,SEO需要了解哪些技术?需要了解技术吗?针对这些问题,本文就为大家进行简单接单
收藏 0 赞 0 分享

网页标题是一成不变的吗 如果修改了会影响到网站排名吗

谈到网站的优化,很少人会对网页标题动心思,究其原因,还是因为担心如果修改了网页标题会影响到网站排名,那么,网页标题是一成不变的吗?如果修改了会影响到网站排名吗?对此,本文就为大家进行解答
收藏 0 赞 0 分享

网站跳出率怎么减少?降低网站跳出率高的9种技巧介绍

网站访问量及跳出率可以直观的看出网站优化的效果,那么,网站跳出率过高怎么办?是什么原因造成的呢?对此,本文就为大家进行简单解答
收藏 0 赞 0 分享

手机网站优化技巧有哪些

作为互联网新生代的一个新启之星手机网站,它的存在大大的便利了人们的生活,那么,手机网站怎么优化呢?针对这一问题,本文就为大家简单介绍下手机网站优化技巧
收藏 0 赞 0 分享

新站如何被百度快速收录

新网站如何快速收录对于网站的收录来说不在乎网站的时间长短,新站难免会出现一些迟迟不会被搜索引擎收录的现象,那么,新站如何被百度快速收录呢?本文就为大家进行简单解答
收藏 0 赞 0 分享

SEO中哪些手段是最高效的?

网站运营时SEO是比可少的技术之一,那么,SEO中哪些手段是最高效的?针对这类问题,本文就为大家进行简单解答
收藏 0 赞 0 分享

SEO新手们经常会碰到的6个问题

随着近几年互联网的迅猛发展,SEO这项技能被越来越多的企业认可,刚接触SEO的站长们总是会碰到各种各样的问题,本文主要为大家简单介绍下SEO新手们经常会碰到的6个问题
收藏 0 赞 0 分享

网站关键词怎么查询百度排名及历史排名?

网站关键词怎么查询百度排名及历史排名?想要做好优化就要了解关键词的排名情况,该怎么查看关几次在百度的现有排名以及历史排名?下面我们就来看看详细的教程,需要的朋友可以参考下
收藏 0 赞 0 分享

新浪博客如何SEO优化排名?

如何利用新浪博客做好SEO优化?新浪博客作为多数站长发外链时的首选平台具备以下特点,易收录,权重高,流量大等等,但是如何利用好这几个优势把网站关键词排名做的更好呢?下面,曾庆平SEO就为大家讲一下如何利用新浪博客做好SEO优化的问题
收藏 0 赞 0 分享

为什么网站关键词排名上去了却没有流量?

为什么网站关键词有排名却没有流量?相信这是绝大部分站长都会碰到的问题,辛辛苦苦把关键词排名做上来,但却没有流量,更别谈什么转化率。出现这种情况我们应该如何处理,针对这类问题,本文小编就为大家进行简单解答
收藏 0 赞 0 分享
查看更多