- 已有:音视频
- 名字,tag关键词等
- 需求:用户说了话,比如
- I want play some peppa pig video
- I want look some peppa pig video
- 完整流程
- 意图识别
- 分类:看视频
- 看什么视频
- 找 NER=named entity recognition=命名实体分析
- 小猪佩奇
- 传给 播放模块
- 播放视频
- 此处要做的:第二步 命名实体识别
- 识别出 peppa pig
- 背景
- 之前张蹲已实现主体功能
- 基于词典
- 命名实体识别
- 处理方式
- 最简单:基于词典
- 常见处理方式
- TrieTree:数据结构
- 之后
- 可能会涉及到优先级排序
- 比如
- 看(假定也是一个视频名)
- 小猪佩奇
- 高级点的:基于数据或模型
- 前提
- 有很多已标注的数据
- 供训练
- 最流行:词向量
- 序列标注:
- 特点
- 特殊的一类
- 依赖于输入数据顺序
- 典型场景
- 分词
- 词性标注 POS tagging
- NER命名实体识别
- 常见算法
- HMM
- CRF
- NER有很多方法模型
- 最常用:序列标注
- 基于训练的
- 已有数据集
- 现有一个 中文:北大 人民日报 预料
- 人名,地名,机构名
- 我们要的
- 视频名,关键词名
【关于序列标注】
序列标注的逻辑:
A A B B C C C D D
标注
B E B E B I E B E
- B=Begin
- E=End
- I=Inside
未登录=词典中没有的词
字符 A -》 函数function 映射为 算法 -》 一个标签
所有分类方法:x ->f(x) -> L=label=标签
特征表示
TrieTree的步骤:
- 已有
- 词典
- 要识别东西的词典
- 搜mongodb中storybook的title
- 后续预处理
- 词典构建成Tire树
TODO:
- 预先学习:
- 搞懂TrieTree
- 已有
- 词典
- 暂时:
- keyword表type=topic
- 目前几十个
- 输入
- 10句话
- 比如:
- I want play some Peppa pig video
- …
- 10多句话
- 以后
- 网上找更多数据
- 视频播放网站,问答类 用户的query
- 输出
- json
- type:topic
- entity:peppa pig
- weight:0.9
- 范围:0~1
转载请注明:在路上 » 【整理】NLP对话中命名实体识别