- 目前的中文分词技术主要有:n元切分、最大匹配、最大压缩、统计语言模型等方法,分词的好坏关系到查询的准确程度和生成的索引的大小。
分词法 |
说明 |
二元分词法 |
将相邻的两个字当成一个词,它把所有有可能的每两两汉字的组合看为一个词组,这样就没有维护词库的开销。
在中文分词发展中,早期经常使用分词方式是二元分词法,该方法的基本原理是将包含中文的句子进行二元分割,不考虑单词含义,只对二元单词进行索引。因此该方法所分出的单词数量较多,从而产生的索引数量巨大,查询中会将无用的数据检索出来,好处是算法简单不会漏掉检索的数据。 |
词库(最大匹配)分词法 |
最大匹配分词法是一种基于词典的分词方法,它的主要思想是从待分词文本的右侧开始,找出最长的一个词,与词典中的词进行匹配,若不匹配,将这个词从待分词文本中删除,再从剩余的文本中继续寻找最长的词,直到待分词文本被分完为止。
最大匹配分词方法是在n元分词法之后的分词方法,该方法又分为正向最大分词和逆向最大分词
最长匹配法又分正向最长匹配和反向最长匹配,即从句子的正方向或方向匹配单词。通常最大匹配法中正向分词方法对偏正式词语的分辨容易产生错误,反向最长匹配的效果要好于正向最长匹配。也可以把两者结合起来,即双向最长匹配
这种方法的优点是速度较快,而且对于一些常见的词汇能够得到比较准确的分词结果。不过,由于它是基于词典的,需要经常维护词典,所以对于一些新词或者专业术语等无法覆盖到的词汇可能会产生误分。 |
最大(长)压缩分词法 |
最大压缩分词法是一种中文分词算法,它的主要思想是将一段文本中的所有可能的词语组合起来,然后找出最优的分词方案。这个算法的优点是可以同时处理未记录词和歧义词,但是它的缺点是时间复杂度比较高,因此在实际应用中可能需要做一些优化 |
统计分词法 |
统计分词法是一种基于统计语言模型的中文分词方法。该方法利用大量的中文文本语料库,统计每个词在不同上下文环境中出现的概率,然后根据概率来确定每个词的边界位置。
即用词、语句乃至于整个文档这些不同的语法单元的概率分布的模型,衡量某句话或者词序列是否符合所处语言环境下人们日常的行文说话方式。
该方法采用隐式马尔科夫链,也就是后一个单词出现的概率依靠于前一个单词出现的概率,最后统计所有单词出现的概率的最大为分词的依据。这个方法对新名词和地名的识别要远远高于最大匹配法,准确度随着取样文本的数量的增大而提高。 |
来自 <https://www.cnblogs.com/luluping/archive/2009/06/09/1499518.html>