最新消息:20210816 当前crifan.com域名已被污染,为防止失联,请关注(页面右下角的)公众号

【整理】Lemmatization和Steaming的含义和区别

含义 crifan 2114浏览 0评论
折腾:
【整理】python nlp 基础知识
期间,看到有提到:
Lemmatization
Steaming
去整理看看什么意思和具体区别
Text preprocessing steps and universal reusable pipeline
Text preprocessing steps and universal pipeline | Kaggle
【译文】基于Python的自然语言处理指南 – 知乎
NLP Lemmatisation(词性还原) 和 Stemming(词干提取) NLTK pos_tag word_tokenize – 心之所向 – CSDN博客
词干提取(stemming)和词形还原(lemmatization) – march_on的专栏 – CSDN博客
【总结】
Lemmatization词形还原 vs Stemming词干提取:
Lemmatization
Stemming
英文原意
lemmatize:vt. 把(文中的词)按屈折变化形式(或异体形式)进行归类
stem:
  • 本意:植物的干或茎
  • 引申:英文单词的词根
中文翻译
词形还原
词形归并
词干提取
含义
去掉词的各种时态、形态得到词的原型
去掉词缀得到词干
核心逻辑
转变 -》成原型=有效词
缩减 -》成词干-》往往非 有效词
一句话总结
相对复杂,获得结果为词的原形,能够承载一定意义,与词干提取相比,更具有研究和应用价值
简单的轻量级的词形归并方式,最后获得的结果为词干,并不一定具有实际意义
处理复杂度
更复杂
相对简单
涉及到
  • 分析词形
  • 词缀转化
  • 词性识别
    • 区分相同词形但原形不同的词的差别
      • -》词性标注的准确率:直接影响词形还原的准确率
  • 去除和缩减词缀
更依赖于
词典
词的规则变化
处理结果
  • 有效词
    • 词典中的一个有效词
  • 往往是词的一部分
    • 并不是完整的、具有意义的词
    • =不是词典中的有效词
举例
  • 过去式:
    • got -> get
    • drove -> drive
  • 进行时
    • driving -> drive
  • revival -> reviv
  • ailiner -> airlin
  • cats  -> cat
  • effective -> effect
  • fishing -> fish
代码举例
nltk:
from nltk.stem import WordNetLemmatizer  
lemmatizer = WordNetLemmatizer()  
lemmatizer.lemmatize(‘leaves’)
nltk:
# 基于Porter词干提取算法
from nltk.stem.porter import PorterStemmer  
porter_stemmer = PorterStemmer()  
porter_stemmer.stem(“maximum”)
# 基于Lancaster 词干提取算法
from nltk.stem.lancaster import LancasterStemmer  
lancaster_stemmer = LancasterStemmer()  
lancaster_stemmer.stem(“maximum”)
# 基于Snowball 词干提取算法
from nltk.stem import SnowballStemmer  
snowball_stemmer = SnowballStemmer(“english”)  
snowball_stemmer.stem(“maximum”)

转载请注明:在路上 » 【整理】Lemmatization和Steaming的含义和区别

发表我的评论
取消评论

表情

Hi,您需要填写昵称和邮箱!

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址
82 queries in 0.197 seconds, using 21.88MB memory