营销型网站怎么设置关键词布局是最合理的呢
作者:访问量:1249更新时间:2016-05-29
常用的机械分词方法:正向最大匹配,逆向最大匹配,最小切分(就是在每一句中切除的词量最少,而不是单个词字节最少)
同时,在机械分词法中,存在这样一个模型:ASM(d,a,m);
d:匹配方向,+表示正向,-表示逆向;
a:每次匹配失败后增加或减少字串长度(字符串),“+”就是增加一个,“-”就是减少一个;
m:最大或最小匹配标志,+为最大匹配,-为最小匹配。
对于,中文汉字来说,ASM(+,=,+)是最为实用的方法。
3-2)基于统计的分词方法介绍:
在表现形式上,词是多个字的稳定组合,所以说,在文章中,相邻的字同时出现的次数越多,那么越有可能是一个词,因此,字和字相邻出现的的频率可以大概的反应出词的可信率。
通过公式:M(x,y)=log( P(x,y) / p(x)p(y) )来计算他们的互现信息,该互现信息体现了汉字之间结合的紧密程度,当M(x,y)的值大于某一阈值时,便可以确定这是一个词。
因为,只需要对字组频率进行计算,不需要使用词典,所以叫做无词典分词方法,或者说统计分词方法。
缺点:经常会抽出一些高频,但不是词的常用词组,如:“我们”“共同”“有的”等。