-》
Word Embedding
词嵌入 – 维基百科,自由的百科全书
【总结】
- Word Embedding
- 中文翻译:单词嵌入
- 常出现:AI的NLP领域
- 一句话总结:把词word转换成向量vector
- 背景介绍
- Embedding=嵌入
- 数学上:一个maping映射
- 一个function函数:f: X -> Y
- 特点:
- injective=单射函数=互相唯一映射
- 每个X对应一个唯一的Y,反之亦然
- structure-preserving=结构保存
- 比如
- X所属的空间中:X1 < X2
- 映射后
- Y所属空间上同理:Y1 < Y2
- 含义详解
- 将单词word映射到另外一个空间
- 同时保持对应特点-》特性不丢失
- injective
- structure-preserving
- 即:
- 单词嵌入
- 把
- X所属空间的单词
- X所属空间:所有单词的合集=词典
- 单个X:单个的单词
- 映射为
- Y空间的多维向量
- Y空间:多维空间
- 单个Y:一个多维的向量值
- 相当于
- 找到一个映射mapping或者函数function
- 生成在一个新的空间上的表达
- 该表达:word representation
- 推广,其他领域
- 逻辑:将一种数据映射到另外一个空间(中的数据)
- 举例
- 图像:image embedding
- 视频:video embedding
- 转换方式
- one-hot编码
- 优点:简单
- 缺点:
- 学不到单词之间的关系
- 维度太多
- 特征空间太大
- 计算量太大
- 特点
- 可以将语义相似的词用相似的向量表示 ( 向量夹角小 )
- 缺点
- 训练好之后每个单词的表达就固定住了
- 单词的 Word Embedding 不会跟着上下文场景的变化而改变
- 举例
- “ 我喜欢吃苹果 ”,“ 很多人觉得苹果手机很好用 ”
- 这两个句子中的苹果是不同的语义,表示不同的对象,没有办法表示出来
- 常见库
- Word2Vec
- 训练的目的就是为了产生词向量
- 为每一个词生成一个向量
- Glove
- Fasttext
- 主要是为了做文本分类,词向量只是其副产物,中间会产生词向量
转载请注明:在路上 » 【整理】Word Embedding