TODO:
- fxsjy/jieba: 结巴中文分词
- https://github.com/fxsjy/jieba
- 召回率
- 最大概率路径
- 最大切分组合
- 未登录词
- 汉字成词能力的 HMM 模型
- Viterbi 算法
【聚类】
- 属于:统计数据分析的一门技术
- 含义:
- 相似的对象通过静态分类的方法分成不同的组别或者更多的子集(subset)
- 让在同一个子集中的成员对象都有相似的一些属性
- 常见的包括在坐标系中更加短的空间距离等
- 应用领域
- 机器学习
- 数据挖掘
- 模式识别
- 图像分析
- 生物信息
- 应用举例
- 商务上,帮助市场分析人员从客户基本库中发现不同的客户群,用购买模式来刻画不同的客户群的特征
- 生物学上,推导植物和动物的分类,对基因进行分类,获得对种群中固有结构的认识
- 地球观测数据库中相似地区的确定
- 汽车保险单持有者的分组
- 根据房子的类型、价值和地理位置对一个城市中房屋的分组
- 对Web上的文档进行分类,以发现信息
- 常见算法
- K-means聚类算法
【NLP vs NLU vs ASR】
NLP=Natural Language Processing
NLU=Natural Language Understanding
NLU相关任务:
【神经网络】
- 别名:人工神经网络
- 起源:20 世纪 50 年代的监督式机器学习模型
- 核心思路:
- 模拟人脑结构,构思了感知器(perceptron)的想法
- 该领域的研究者通常称为:联结主义者(Connectionist)
- 训练方式
- 通过反向传播算法应用梯度下降训练的
- 类型
- 监督学习
- 前馈神经网络
- 卷积神经网络 CNN
- 循环神经网络 RNN
- 长短期记忆 LSTM
- 门控循环单元 GRU
- 无监督学习
- 自动编码器
- 生成对抗网络 GAN
- 相关
- 深度学习是一种主要应用于神经网络帮助其取得更好结果的技术
【动态规划】
- 别称:动态优化
- 含义:把原复杂问题分解为相对简单的子问题
- 的方式求解复杂问题的方法
- 只解决一次子问题并存储它的解决方案(solution)
- 下一次遇到同样的子问题时,无需重新计算它的解决方案,而是简单地查找先前计算的解决方案,从而节省计算时间
- 应用领域
- 数学
- 管理科学
- 计算机科学
- 经济学
- 生物信息学
- 适用于问题类型
- 有最优子结构(Optimal Substructure)
- 重叠子问题(Overlapping Subproblems)
【词法分析】
- 含义:
- 一个过程
- 字符序列 -》 标记序列
- 相关
- 词法分析器:进行词法分析的程序或者函数
- 别名:扫描器
- 存在形式:函数
- 用途:供(后续的)语法分析器调用
【过拟合】
- 含义:是指为了得到一致假设而使假设变得过度严格
- 相关
- 避免过拟合是分类器设计中的一个核心任务
- 常见做法
- 增大数据量和测试样本集的方法对分类器性能进行评价
【知识图谱】
- 本质
- 语义网络
- 一种基于图的数据结构
- 组成
- 节点=Point
- 现实世界中存在的“实体”
- 边=Edge
- 实体与实体之间的“关系”
- 通俗地讲
- 把所有不同种类的信息(Heterogeneous Information)连接在一起而得到的一个关系网络
- 思路
- 从“关系”的角度去分析问题
- 历史
- 提出概念:Google
- 目的
- 优化搜索引擎
- 之前:传统搜索引擎:基于关键词搜索
- 优化后:基于知识图谱
- 从语义层面理解用户意图,改进搜索质量
- 更好地查询复杂的关联信息
- 举例
- 输入:Google搜 Bill Gates
- 输出:
- 搜索结果页面的右侧显示相关的信息
- 比如
- 出生年月,家庭情况
- 应用
- 是关系的最有效的表示方式
【MT=机器翻译】
- 利用机器的力量
- 自动将一种自然语言(源语言)的文本翻译成另一种语言(目标语言)
- 方法
- 三大类
- RBMT=基于规则的机器翻译
- SMT=统计机器翻译
- NMT=神经机器翻译
【IR=信息检索】
- 基于用于查询检索信息的任务。
- 流行的信息检索模型
- 布尔模型
- 向量空间模型
- 概率模型
- 语言模型
- 典型应用
- 搜索引擎
【ASR=Automatic Speech Recognition=语言识别=自动语言识别】
- 又称
- 语音识别=Speech Recognition
- 计算机语音识别=Computer Speech Recognition
- 一句话描述:将口头语音转换为实时可读文本的技术
- 特点
- 多学科交叉的领域
- 声学
- 语音学
- 语言学
- 数字信号处理理论
- 信息论
- 计算机科学
- 语音信号
- 多样性
- 复杂性
- 现状
- 只能在一定的限制条件下获得满意的性能
- 只能应用于某些特定的场合
- 地位
- 在人工智能领域占据着极其重要的位置
【CV=Computer Vision=计算机视觉】
- -》cv领域=计算机视觉领域
- 一句话总结:机器感知环境的能力
- 经典任务
- 图像形成
- 图像处理
- 图像提取
- 图像三维推理
- 典型研究领域
- 目标识别
- 面部识别
【corpus 语料库】
【CWS】
【pos=POS=Part-Of-Speech=词性】
举例:
- 词性标注=POS tagging
- 词性还原
【EOS=End Of Sentence=句尾=句末】
【BOW=bag-of-word=词袋】
【One Hot Encoding=独热编码】
【FM算法=Factorization Machine算法=因子分解机算法】
【未登录词】
jieba中文分词中说的:OOV
【分词期间的位置状态标记】
- BEMS
- B是开始begin位置
- E是end, 是结束位置
- M是middle, 是中间位置
- S是single, 单独成词的位置
【长距离依赖】
- 又称
- 长距离调序
- 含义
- 在机器翻译中,比如中英文翻译,其语言结构差异比较大,词语顺序存在全局变化,不容易被捕捉
【正则化】
- 当模型的复杂度增大时,训练误差会逐渐减小并趋向于0;
- 而测试误差会先减小,达到最小值后又增大。
- 当选择的模型复杂度过大时,过拟合现象就会发生。
- 这样,在学习时就要防止过拟合。进行最优模型的选择
- 即选择复杂度适当的模型,以达到使测试误差最小的学习目的
参考资料:
转载请注明:在路上 » 【整理】ML NLP DL 常见词汇 术语 概念 逻辑