你的位置：在路上 > nlp > 【整理】NLP对话中命名实体识别

【整理】NLP对话中命名实体识别

nlp crifan 6年前 (2019-09-03) 1167浏览 0评论

已有：音视频

名字，tag关键词等

需求：用户说了话，比如

I want play some peppa pig video
I want look some peppa pig video

完整流程

意图识别

分类：看视频

看什么视频

找 NER=named entity recognition=命名实体分析

小猪佩奇

传给播放模块

播放视频

此处要做的：第二步命名实体识别

识别出 peppa pig

背景

之前张蹲已实现主体功能

基于词典

命名实体识别

处理方式

最简单：基于词典

常见处理方式

TrieTree：数据结构

之后

可能会涉及到优先级排序

比如

看（假定也是一个视频名）
小猪佩奇

高级点的：基于数据或模型

前提

有很多已标注的数据

供训练

最流行：词向量
序列标注：

特点

特殊的一类
依赖于输入数据顺序

典型场景

分词
词性标注 POS tagging
NER命名实体识别

常见算法

HMM
CRF

NER有很多方法模型

最常用：序列标注

基于训练的
已有数据集

现有一个中文：北大人民日报预料

人名，地名，机构名

我们要的

视频名，关键词名

【关于序列标注】

序列标注的逻辑：

A A B B C C C D D

标注

B E B E B I E B E

B=Begin
E=End
I=Inside

未登录=词典中没有的词

字符 A -》函数function 映射为算法 -》一个标签

所有分类方法：x ->f(x) -> L=label=标签

特征表示

TrieTree的步骤：

已有

词典

要识别东西的词典

搜mongodb中storybook的title
后续预处理

词典构建成Tire树

TODO：

预先学习：

搞懂TrieTree

已有

词典

暂时：

keyword表type=topic

目前几十个

输入

10句话

比如：

I want play some Peppa pig video
…
10多句话

以后

网上找更多数据

视频播放网站，问答类用户的query

输出

json

type：topic
entity：peppa pig
weight：0.9

范围：0~1

转载请注明：在路上 » 【整理】NLP对话中命名实体识别

Post Views: 1,167

与本文相关的文章

分类目录

80 queries in 0.200 seconds, using 22.15MB memory