你的位置：在路上 > 生活 > 电脑+数码+软件 > 软件使用 > Word > 【整理】Word Embedding

【整理】Word Embedding

Word crifan 5年前 (2019-09-02) 1303浏览 0评论

How to Clean Text for Machine Learning with Python

-》

Word Embedding

Word Embedding与Word2Vec – 白马负金羁 – CSDN博客

什么是 word embedding? – 知乎

word2vec 相比之前的 Word Embedding 方法好在什么地方？ – 知乎

word2vec和word embedding有什么区别? – 知乎

词嵌入 – 维基百科，自由的百科全书

https://zh.wikipedia.org/wiki/词嵌入

Word embedding – Wikipedia

Introduction to Word Embedding and Word2Vec – Towards Data Science

What the heck is Word Embedding – Towards Data Science

理解Word Embedding，全面拥抱ELMO-InfoQ

从Word Embedding到Bert模型——自然语言处理预训练技术发展史 | 机器之心

【总结】

Word Embedding

中文翻译：单词嵌入
常出现：AI的NLP领域
一句话总结：把词word转换成向量vector
背景介绍

Embedding=嵌入

数学上：一个maping映射

一个function函数：f: X -> Y

特点：

injective=单射函数=互相唯一映射

每个X对应一个唯一的Y，反之亦然

structure-preserving=结构保存

比如

X所属的空间中：X1 < X2
映射后
Y所属空间上同理：Y1 < Y2

含义详解

将单词word映射到另外一个空间

同时保持对应特点-》特性不丢失

injective
structure-preserving

即：

单词嵌入

把

X所属空间的单词

X所属空间：所有单词的合集=词典
单个X：单个的单词

映射为

Y空间的多维向量

Y空间：多维空间
单个Y：一个多维的向量值

相当于

找到一个映射mapping或者函数function

生成在一个新的空间上的表达

该表达：word representation

推广，其他领域

逻辑：将一种数据映射到另外一个空间（中的数据）
举例

图像：image embedding
视频：video embedding

转换方式

one-hot编码

优点：简单
缺点：

学不到单词之间的关系
维度太多

特征空间太大
计算量太大

特点

可以将语义相似的词用相似的向量表示 ( 向量夹角小 )

缺点

训练好之后每个单词的表达就固定住了

单词的 Word Embedding 不会跟着上下文场景的变化而改变

举例

“ 我喜欢吃苹果 ”，“ 很多人觉得苹果手机很好用 ”

这两个句子中的苹果是不同的语义，表示不同的对象，没有办法表示出来

常见库

Word2Vec

训练的目的就是为了产生词向量
为每一个词生成一个向量

Glove
Fasttext

主要是为了做文本分类，词向量只是其副产物，中间会产生词向量

转载请注明：在路上 » 【整理】Word Embedding

Post Views: 1,069

与本文相关的文章

分类目录

90 queries in 0.169 seconds, using 22.14MB memory