2.2 深入分析中文分词
当蜘蛛将网站内容进行索引后就会通过中文分词技术进行入库,这是一个庞大的工程,百度搜索引擎对中文分词技术掌握得非常熟练,这也正是百度搜索引擎在中文搜索领域中一直独占鳌头的原因。下面我们来看看百度中文分词的基本原理。
(1)字符串匹配分词法。该分词法又分为正向最大匹配法、反向最大匹配法和最短路径分词法。首先来看正向最大匹配法。所谓正向最大匹配法,就是从左至右来分词。举个例子,“不知道你在说什么”这句话采用正向最大匹配法是如何分词的呢?其结果是“不知道,你,在,说什么”。其次是反向最大匹配法,用它来对上面这句话进行分词的结果是“不,知道,你在,说,什么”。最后是最短路径分词法。这个怎么理解呢?意思就是说使一段话切出的词数是最少的。用最短路径分词法把上面那句话分词的话,结果是“不知道,你在,说什么”。当然还可以将上面三种方法相互结合组成一些分词方法。例如,将正向最大匹配法和反向最大匹配法组合起来就可以叫作双向最大匹配法。
(2)词义分词法。这种分词法其实就是一种机器判断分词方法。原理很简单,就是先进行句法、语义分析,然后利用句法信息和语义信息来处理歧义现象从而达到分词的目的。这种分词方法现在还不成熟,仍处于测试阶段。
(3)统计分词法。这种分词法很简单,就是根据词组的统计,根据两个相邻的字出现的频率的多少来确定这个词的重要性以达到分词的目的。如“我的”“你的”“许多的”“这里”“这一”“那里”等这些词出现得比较多,把它们都作为站点的主题页,导入链接权重就上来了,竞争力就大了,因为这些页面相互内链。这就是分词的好处,它不但能够提升目标关键词的排名,同时也给站点带来一定流量。
中文分词问题是绝大多数中文信息处理的基本问题,在搜索引擎、推荐系统(尤其是相关主题推荐和基于内容的过滤推荐)、大量文本自动分类等方面是一个关键技术。