从这里知道mmseg的,然后就去折腾试试。
1.找到了主页:
http://pypi.python.org/pypi/mmseg
然后先去看最新的1.3.0版本的:
http://pypi.python.org/pypi/mmseg/1.3.0
mmseg简介
用来将一段文字,分成对应的(多个)词语。
比如,将:
张无忌在光明顶 |
分为:
无忌 |
下载mmseg
点击下载:
得到mmseg-1.3.0.tar.gz。
安装mmseg
解压mmseg-1.3.0.tar.gz得到文件夹mmseg-1.3.0
打开cmd,切换到目录mmseg-1.3.0
运行setup.py去安装,结果出现
error: Unable to find vcvarsall.bat
的错误,详细折腾过程参见:
【已解决】安装Python模块mmseg出错:error: Unable to find vcvarsall.bat
但是却又出现其他错误:
【未解决】Python中安装mmseg时编译出错:LINK : error LNK2001: 无法解析的外部符号 initmmseg
使用mmseg
#!/usr/bin/python # -*- coding: utf-8 -*- """ Function: 【记录】折腾Python中的mmseg中文分词模块 https://www.crifan.com/try_python_mmseg_chinese_segment_on_mmseg_algorithm Author: Crifan Li Version: 2013-01-02 Contact: admin at crifan dot com """ from mmseg import seg_txt; def tryMmseg(): for i in seg_txt("最主要的更动是:张无忌最后没有选定自己的配偶。"): print i; if __name__ == "__main__": tryMmseg();
但是由于之前链接出错:
【未解决】Python中安装mmseg时编译出错:LINK : error LNK2001: 无法解析的外部符号 initmmseg
导致使用代码时出错:
【未解决】Python中去运行mmseg代码结果出错:WindowsError: [Error 126]
暂未解决。
总结
mmseg,还是很折腾的。
转载请注明:在路上 » 【记录】折腾Python中的mmseg中文分词模块