Yunxunmi Chinese Word Segmentation
开源:云寻觅中文分词 (Yunxunmi Chinese Word Segmentation) ,词汇440万,10万字文章分词并计算频率不超过1秒
开源:云寻觅中文分词 (Yunxunmi Chinese Word Segmentation) ,词汇440万,10万字文章分词并计算频率不超过1秒
云寻觅中文分词 (Yunxunmi Chinese Word Segmentation) 指的是将一个汉字序列切成一个一个单独的词。云寻觅中文分词就是将连续的字序列按照一定的规范重新组合成词序列的 过程。中文分词也是搜索引擎最核心的技术包括(全文索引,检索,排序权重计算,文本分类,聚类),因此,中文分词的准确性和高效性将直接决定一个搜索引擎的好坏,目前很多搜索引擎包括谷歌对中国各地的方言几乎无法识别,直接导致搜索结果漏洞百出,正是基于上述原因,本人不辞辛苦开发出云寻觅中文分词并开源,希望更多的有识之士从中受益。
云寻觅中文分词词库共有 5个,分别是
ciku860000.dat 共有86万左右的常用中文词汇
ciku1248500.dat 共有120万左右的常用中文词汇,包括互联网热门词汇
ciku1408964.dat 共有140万左右的常用中文词汇,包括互联网热门词汇,古今中外名人,常用地区
ciku2786019.dat 共有270万左右的常用中文词汇,包括互联网热门词汇,古今中外名人,全国各地及方言
ciku4000000.dat 共有400万左右的常用中文词汇,包括互联网热门词汇,古今中外名人,全国各地及方言,音乐,电影,各行业专有词,唐诗,宋词,元曲,四书,三字经,天文,地理, 军事,女优,文言文 等中文词汇
程序在启动时会进行词库的加载,大约需要等待十几秒,之后就可以进行中文分词,程序默认采用的词库是 ciku2786019.dat,与云寻觅中文分词可执行程序在同一目录中,如果需要体验其它词库的中文分词效果,可替换云寻觅中文分词执行程序目录中的ciku.dat文件,重新启动程序即可!
云寻觅中文分词开发者小白救星 2013年于杭州 有任何疑问或建议请联系QQGroup:204725117
云寻觅中文分词完全开源,可以任意使用无任何限制!
云寻觅中文分词运行效果图如下:
下载地址:
云寻觅中文分词词库.rar
云寻觅中文分词代码.rar
云寻觅中文分词执行程序.rar
标签: 云寻觅 , 中文分词
作者: Leo_wl
出处: http://www.cnblogs.com/Leo_wl/
本文版权归作者和博客园共有,欢迎转载,但未经作者同意必须保留此段声明,且在文章页面明显位置给出原文连接,否则保留追究法律责任的权利。
版权信息查看更多关于Yunxunmi Chinese Word Segmentation的详细内容...