设为首页 | 设为首页  
  栏目分类
  热点关注
Google排名,Google优化推广研究中心
电话:0577-25655858 25655859
手 机:
Q Q:372248606
 
 
百度分词技术
作者:佚名 日期:2010年12月17日 来源:本站原创 浏览:

当然还可以继续追问:如果切分后单字也一样多,那怎么办?最后看一个例子,查询“王强大小:”,百度将其切分为“王强大小”,是正向切分的结果,如果是反向的会被切分为“王强大小”,这说明有歧义而且单字也相同则选择正向切分结果。
  OK,看到这里可能头已经有些晕了,最后总结一下百度的分词算法,当然里面还是有猜测的成分,算法如下:
  首先查询专用词典(人名,部分地名等),将专有名称切出,剩下的部分采取双向分词策略,如果两者切分结果相同,说明没有歧义,直接输出分词结果。如果不一致,则输出最短路径的那个结果,如果长度相同,则选择单字词少的那一组切分结果。如果单字也相同,则选择正向分词结果。
  百度一直宣传自己在中文处理方面的优势,从上面看,分词算法并无特殊之处,消歧效果并不理想,即使百度采取比上述分词算法复杂些的算法也难以说成是优势,如果说百度有优势的话,唯一的优势就是那个很大的专用词典,这个专用词典登录了人名(比如大长今),称谓(比如老太太),部分地名(比如阿联酋等),估计百度采用学术界公布的比较新的命名实体识别算法从语料库里面不断识别出词典未登录词,逐渐扩充这个专门词典。如果这就是优势的话,那么这个优势能够保持多久就是个很明显的问题。
  SpellingChecker拼写检查错误提示(以及拼音提示功能)
  拼写检查错误提示是搜索引擎都具备的一个功能,也就是说用户提交查询给搜索引擎,搜索引擎检查看是否用户输入的拼写有错误,对于中文用户来说一般造成的错误是输入法造成的错误.那么我们就来分析看看百度是怎么实现这一功能的.
  我们分析拼写检查系统关注以下几个问题
  (1)系统如何判断用户的输入是有可能发生错误的查询呢
  (2)如果判断是可能错误的查询输入,如何提示正确的词汇呢
  那么百度是如何做的呢百度判断用户输入是否错误的标准,我觉得应该是查字典,如果发现字典里面不包含这个词汇,那么很有可能是个错误的输入,此时启动错误提示功能,这个很好判断,因为如果是一个正常词汇的话,百度一般不会有错误提示,而你故意输入一个词典不可能包含的所谓词汇,此时百度一般会提示你正确的检索词汇.
  那么百度是怎么提示正确词汇的呢很明显是通过拼音的方式,比如我输入查询
  "制才",百度提供的提示词汇为:“:制裁质材纸材",都是同音字.所以百度必然维持着一个同音词词典,里面保留着同音词信息,比如可能包含着下面这条词条:“zhicaià制裁,质材,纸材",另外还有一个标注拼音程序,现在能够看到的基本流程是:用户输入"制才",查词典,发现没有这个词汇,OK,启动标注拼音程序,将"制才"标注为拼音"zhicai",然后查找同音词词典,发现同音词"制裁,质材,纸材",那么提示用户可能的正确拼写.
  整体流程看起来很简单,但是还有一些遗留的小问题,比如是否将词表里面所有同音词都作为用户的提示信息呢?比如某个拼音有10个同音词,是否都输出呢?百度并没有将所有同音词都输出而是选择一定筛选标准,选择其中几个输出.怎么证明这一点?我们看看拼音"liuli"的同音词,紫光输入法提示同音词汇有"流丽流离琉璃流利"4个,我们看看百度返回几个,输入"流厉"作为查询,这里是故意输入一个词典不包含的词汇,这样百度的拼写检查才开始工作,百度提示:"琉璃刘丽刘莉",这说明什么?说明不是所有同音词都输出,而是选择输出,那么选择的标准是什么?
  我能够猜测到的方法是对于用户查询LOG进行统计,提取用户查询次数多的那些同音词输出,如果是这样的话,上面的例子说明用户搜索"琉璃"次数比其它的都要高些,次之是"刘丽",再次是"刘莉",看来大家都喜欢查询自己或者认识的人的名字.
  另外一个小问题:同音词词典包含2字词,3字词,那么是否包含4字词以及更长的词条?是否包含一字词?这里一字词好回答,不用测试也能知道肯定不包含,因为你输入一个字,谁知道是否是错误的呢?
  反正只要是汉字就能在词表里面找到,所以没有判断依据.二字词是包含的,上面有例子,三字词也包含,比如查询"中城药"百度错误提示:"中成药",修改查询为"重城药",还是提示"中成药",再次修改查询"重城要",百度依然提示"中成药".那么4字词汇呢?
  百度还是会给你提示的,下面是个例子:
  输入:静华烟云提示京华烟云
  输入:静话烟云提示京华烟云
  输入:静话阎晕提示京华烟云
  那么更长的词汇是否提示呢?也提示,比如我输入:"落花世界有风军",这个查询是什么意思,估计读过古诗的都知道,看看百度的提示"落花时节又逢君",这说明什么?说明同音词词典包含不同长度的同音词信息,另外也说明了百度的核心中文处理技术,也就是那个词典,还真挺大的.
  但是,如果用户输入的查询由两个或者两个以上子字符串构成,那么百度的错误提示功能就罢工了,比如输入查询"哀体",百度提示"艾提挨踢",但是.输入为"我哀体",则没有任何错误提示.
  还有一个比较重要的问题:如果汉字是多音字那么怎么处理?百度呢比较偷懒,它根本就没有对多音字做处理.我们来看看百度的一个标注拼音的错误,在看这个错误前先看看对于多音字百度是怎么提示错误的,我们输入查询"俱长",百度提示"剧场局长",“俱长"的拼音有两个:"juzhang/juchang",可见如果是多音字则几种情况都提示..现在我们来看看错误的情况,我们输入查询"剧常",百度提示":剧场局长",提示为"剧场"当然好解释,因为是同音字,但是为什么"局长"也会被提示呢?这说明百度的同音字词典有错误,说明在"juchang"这个词条里面包含"局长"这个错误的同音词.让我们顺藤摸瓜,这个错误又说明什么问题呢?
 

上一篇文章:百度分词技术解析
下一篇文章:网站优化的方法