最新消息:20210816 当前crifan.com域名已被污染,为防止失联,请关注(页面右下角的)公众号

【记录】折腾Python中的mmseg中文分词模块

Python crifan 5998浏览 0评论

这里知道mmseg的,然后就去折腾试试。

1.找到了主页:

http://pypi.python.org/pypi/mmseg

然后先去看最新的1.3.0版本的:

http://pypi.python.org/pypi/mmseg/1.3.0


mmseg简介

用来将一段文字,分成对应的(多个)词语。

比如,将:

张无忌在光明顶

分为:

无忌
张无忌
光明
光明顶

 

下载mmseg

点击下载:

mmseg-1.3.0.tar.gz

得到mmseg-1.3.0.tar.gz。

 

安装mmseg

解压mmseg-1.3.0.tar.gz得到文件夹mmseg-1.3.0

打开cmd,切换到目录mmseg-1.3.0

运行setup.py去安装,结果出现

error: Unable to find vcvarsall.bat

的错误,详细折腾过程参见:

【已解决】安装Python模块mmseg出错:error: Unable to find vcvarsall.bat

但是却又出现其他错误:

【未解决】Python中安装mmseg时编译出错:LINK : error LNK2001: 无法解析的外部符号 initmmseg

 

使用mmseg

#!/usr/bin/python
# -*- coding: utf-8 -*-
"""
Function:
【记录】折腾Python中的mmseg中文分词模块
https://www.crifan.com/try_python_mmseg_chinese_segment_on_mmseg_algorithm

Author:     Crifan Li
Version:    2013-01-02
Contact:    admin at crifan dot com
"""

from mmseg import seg_txt;

def tryMmseg():
    for i in seg_txt("最主要的更动是:张无忌最后没有选定自己的配偶。"):
        print i;

if __name__ == "__main__":
    tryMmseg();

 

但是由于之前链接出错:

【未解决】Python中安装mmseg时编译出错:LINK : error LNK2001: 无法解析的外部符号 initmmseg

导致使用代码时出错:

【未解决】Python中去运行mmseg代码结果出错:WindowsError: [Error 126]

暂未解决。

 

总结

mmseg,还是很折腾的。

转载请注明:在路上 » 【记录】折腾Python中的mmseg中文分词模块

发表我的评论
取消评论

表情

Hi,您需要填写昵称和邮箱!

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址

网友最新评论 (1)

    93 queries in 0.167 seconds, using 22.12MB memory