最新消息:20210816 当前crifan.com域名已被污染,为防止失联,请关注(页面右下角的)公众号

【整理】Word Embedding

Word crifan 1317浏览 0评论
How to Clean Text for Machine Learning with Python
-》
Word Embedding
Word Embedding与Word2Vec – 白马负金羁 – CSDN博客
什么是 word embedding? – 知乎
word2vec 相比之前的 Word Embedding 方法好在什么地方? – 知乎
word2vec和word embedding有什么区别? – 知乎
词嵌入 – 维基百科,自由的百科全书
https://zh.wikipedia.org/wiki/词嵌入
Word embedding – Wikipedia
Introduction to Word Embedding and Word2Vec – Towards Data Science
What the heck is Word Embedding – Towards Data Science
理解Word Embedding,全面拥抱ELMO-InfoQ
从Word Embedding到Bert模型——自然语言处理预训练技术发展史 | 机器之心
【总结】
  • Word Embedding
    • 中文翻译:单词嵌入
    • 常出现:AI的NLP领域
    • 一句话总结:把词word转换成向量vector
    • 背景介绍
      • Embedding=嵌入
        • 数学上:一个maping映射
          • 一个function函数:f: X -> Y
            • 特点:
              • injective=单射函数=互相唯一映射
                • 每个X对应一个唯一的Y,反之亦然
              • structure-preserving=结构保存
                • 比如
                  • X所属的空间中:X1 < X2
                  • 映射后
                  • Y所属空间上同理:Y1 < Y2
    • 含义详解
      • 将单词word映射到另外一个空间
        • 同时保持对应特点-》特性不丢失
          • injective
          • structure-preserving
      • 即:
        • 单词嵌入
            • X所属空间的单词
              • X所属空间:所有单词的合集=词典
              • 单个X:单个的单词
          • 映射为
            • Y空间的多维向量
              • Y空间:多维空间
              • 单个Y:一个多维的向量值
      • 相当于
        • 找到一个映射mapping或者函数function
          • 生成在一个新的空间上的表达
            • 该表达:word representation
      • 推广,其他领域
        • 逻辑:将一种数据映射到另外一个空间(中的数据)
        • 举例
          • 图像:image embedding
          • 视频:video embedding
    • 转换方式
      • one-hot编码
        • 优点:简单
        • 缺点:
          • 学不到单词之间的关系
          • 维度太多
            • 特征空间太大
            • 计算量太大
    • 特点
      • 可以将语义相似的词用相似的向量表示 ( 向量夹角小 )
        • 缺点
          • 训练好之后每个单词的表达就固定住了
            • 单词的 Word Embedding 不会跟着上下文场景的变化而改变
              • 举例
                • “ 我喜欢吃苹果 ”,“ 很多人觉得苹果手机很好用 ”
                  • 这两个句子中的苹果是不同的语义,表示不同的对象,没有办法表示出来
    • 常见库
      • Word2Vec
        • 训练的目的就是为了产生词向量
        • 为每一个词生成一个向量
      • Glove
      • Fasttext
        • 主要是为了做文本分类,词向量只是其副产物,中间会产生词向量

转载请注明:在路上 » 【整理】Word Embedding

发表我的评论
取消评论

表情

Hi,您需要填写昵称和邮箱!

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址
90 queries in 0.202 seconds, using 22.16MB memory