-》
FM算法
【总结】
FM=Factorization Machine
- 应用场景:
- 广告领域=推荐系统
- 点击预估
- 背景
- 准确的估计CTR(Click-Through Rate)、CVR 对于提高流量的价值,增加广告收入有重要的指导作用
- CTR
- 点击率是广告点击次数除以总展示次数(广告投放次数)
- 具体数值
- 常见:0.2 ~0.3%
- 非常成功:>2%
- 广告领域
- 相关名词
- DSP=Demand-Side Platform=需求方平台:买家端
- =程序化购需求方平台
- -》互联网广告
- SSP=Sell-Side Platform=销售方平台:卖家端
- RTB=Real-Time Bidding=实时竞价
- DMP=Data Management Platform
- 手中握有受众数据,并能让 DSP 驳接到他们
- 利用它们所有的数据。使投放更为精准
- -》对比:
- DSP vs DMP
- 图解
- 类别
- 本草纲目=DMP
- 专业药材买手=DSP
- 特殊:混合型
- 相关玩家
- 生态
- 关系
- 流程
- 具体方法
- 业界常用方法
- 人工特征工程 + LR(Logistic Regression)
- GBDT(Gradient Boosting Decision Tree)+ LR
- FM(Factorization Machine)
- FFM(Field-aware Factorization Machine)
- Deep FM
- 近年来表现突出的
- FM和FFM
- 对于CTR预估
- 除了:单特征
- 往往要:对(相关)特征进行组合
- 背景
- 举例
- 相关性高
- “USA”与“Thanksgiving”
- “China”与“Chinese New Year”
- <“化妆品”类商品,“女”性>
- <“球类运动配件”的商品,“男”性>
- <“电影票”的商品,“电影”
- 通用做法有两大类:
- FM系列
- Tree系列
- FM(Factorization Machine)
- 目的:
- 解决稀疏数据下的特征组合问题
- 用途
- 广泛应用于广告推荐等CTR预估场景
- 优点
- 高度稀疏数据场景
- SVM:不能
- 具有线性的计算复杂度
- SVM依赖于support vector
- 可对任意的实值向量进行预测
- 缺点
- 特征之间两两组合容易导致维度灾难
- 组合后的特征未必有效,可能存在特征冗余现象
- 组合后特征样本非常稀疏
- 如果原始样本中不存在对应的组合,则无法学习参数,那么该组合就显得无效
- 数据结构
- 学习算法种类
- 随机梯度下降法=SGD=Stochastic Gradient Descent
- 交替最小二乘法=ALS=Alternating Least-Squares
- 马尔可夫链蒙特克罗法=MCMC=Markov Chain Monte Carlo