用 FTRL 训练 FM 模型

发表于 2019-07-03 | 分类于推荐系统 |

字数统计: 1.6k | 阅读时长 ≈ 7

近期尝试了基于 FTRL 来训练 FM 模型，用于短视频的排序。这篇博客主要总结一下算法的理论推导和工程化的一些心得。

阅读全文 »

二项 Logistic Regression 模型

发表于 2019-05-15 | 分类于数学 |

字数统计: 729 | 阅读时长 ≈ 3

本文主要介绍一下二项 Logistic Regression 模型推导。

阅读全文 »

符号约定与常用公式

发表于 2019-05-11 | 分类于数学 |

字数统计: 780 | 阅读时长 ≈ 3

一、推荐系统常用符号含义

符号表示	含义
$\boldsymbol{x}$	输入变量，一般为特征向量
$\boldsymbol{x}_i=(x_i^{(1)}, \cdots, x_i^{(n)})^{\top}$	第 $i$ 个输入变量的取值，在推导损失函数等场景下，由于每次只考虑一条样本，记样本为 $\boldsymbol{x}=(x_1,\cdots,x_n)$，此时 $x_i$ 表示样本的第 $i$ 维特征
$\mathcal{X}=\{\boldsymbol{x}_1,\cdots,\boldsymbol{x}_N\}$	输入实例集合
$(x_j^{(i)})^k$	第 $j$ 个输入变量的第 $i$ 维特征取值的 $k$ 次方
$y$	输出变量，一般为样本标签
$y_i$	第 $i$ 个输出变量的取值
$\mathcal{Y}={y_1,\cdots,y_N}$	输出实例集合
$(\boldsymbol{x}_i,y_i)$	第 $i$ 个样本点
$\mathcal{T}={(\boldsymbol{x}_1,y_1),\cdots,(\boldsymbol{x}_N,y_N)}$	训练数据集
$\boldsymbol{w}=(w_1,\cdots,w_n)$	权重向量
$w_i^t$	第 $i$ 维特征的权重在第 $t$ 轮迭代的取值
$\parallel \boldsymbol{w} \parallel_i^j$	权重向量 $\boldsymbol{w}$ 的 Li 范数的 $j$ 次方，例如 L1 范数：$\parallel \boldsymbol{w} \parallel_1$，L2 范数： $\parallel \boldsymbol{w} \parallel_2^2$
$\boldsymbol{g}=(g_1,\cdots,g_n)$	梯度向量
$\psi(\boldsymbol{w})$	正则化函数

阅读全文 »

从 SimRank 到 SimRank++

发表于 2019-05-10 | 分类于推荐系统 |

字数统计: 1.9k | 阅读时长 ≈ 7

从 SimRank 到 SimRank++

上一篇博客《SimRank与视频相似度计算》介绍了 SimRank$^{[1]}$ 及其在视频推荐中的应用，这一篇再谈谈 SimRank++。顾名思义，SimRank++ 是在 SimRank 的基础上做了一些优化，在文献 [2] 中提出时是为了解决搜索词改写的问题，本质上也就是计算搜索词的相似度。作者发现，当需要考虑二部图的边权信息时，原始的 SimRank 模型难以评估物品间相似度的可信度，这篇博客从视频推荐的角度来阐释作者的优化点。

阅读全文 »

SimRank与视频相似度计算

发表于 2019-04-29 | 分类于推荐系统 |

字数统计: 2.8k | 阅读时长 ≈ 10

一、应用背景

最近需要对视频的相关推荐进行一些优化。之前尝试过 TagSim、AutoEncoder 和 Word2Vec 等方法，无非是基于元数据相似或基于协同相似的思路。但是在实际应用的时候，由于媒资传过来的信息未必是非常准确的，因此基于元数据相似的方法在数据基础上可能就存在一定的不确定性，因此常常会推出来一些虽然实际上很符合算法预期，但是看起来很奇怪的结果。而基于协同相似的推荐，由于需要比较多的行为数据来估计视频之间的相似度，又往往只能覆盖少量的视频。在应用中，我们往往使用的是两者的混合，但是由于混合比较简单粗暴，仍然有很多 VOC 问题。

因此，团队迫切的需要一种能够提升相关推荐效果的模型。而这种相关又是有强业务语义的，需要能够支持灵活的定制，因此在短时间内先不考虑深度网络（可解释性太差）。在调研中，发现有基于热传导的算法，感觉好像挺符合直观感觉，用了协同数据，同时也支持元数据。但是再顺着这个思路往下找的时候，发现 SimRank 是一种十分成熟且常用于相关推荐的模型，粗看了一下，感觉很符合我们的业务诉求，就迫不及待尝试了一下。

阅读全文 »

Hexo+NexT+github 配置指南

发表于 2019-04-14 | 分类于安装部署 |

字数统计: 891 | 阅读时长 ≈ 3

这两天在网络各位大神的帖子指导下完成了 Hexo+Next 在 github 上的部署，记录一下全过程，以供后来者参考。

阅读全文 »

可能是最好懂的ItemCF解释了

发表于 2019-04-12 | 分类于推荐系统 |

字数统计: 1.3k | 阅读时长 ≈ 4

说到推荐系统，可能最为人熟知的算法就是协同过滤，特别是其中的 ItemCF，自亚马逊文章发表以后，得到了广泛而成功的应用。这篇文章主要谈谈我的理解。

阅读全文 »

置信区间在推荐中的应用

发表于 2019-02-10 | 分类于推荐系统 |

字数统计: 1.6k | 阅读时长 ≈ 5

学过统计的同学都对置信区间的概念非常熟悉，实际上，离开置信区间谈统计值没啥意义，或者说经常会造成很大的误导。简单来讲，置信区间是指基于观测样本来估计一个未知参数（如均值）时，我们相当确定（用置信度来度量）参数可能的取值范围。如果不考虑置信区间的概念，在我们观察到有 2 个用户喜欢一个视频、1 个用户不喜欢一个视频时，会估计该视频的推荐度为 66%，而认为它是一个高质量的视频，如果一旦将它进行大规模推荐时，很可能发现这个视频的实际转化率低的可怜。

因此在推荐里，置信区间是需要密切关注的概念。在推荐领域实践中，我从 3 个简单的算法来分别介绍置信区间的应用。

阅读全文 »

特征组合之FFM

发表于 2018-10-04 | 分类于推荐系统 |

字数统计: 2k | 阅读时长 ≈ 8

前段时间搞 LR 的特征优化，切身体会到人工特征工程实在太费劲了，一方面发掘高价值的特征十分困难，另一方面某些特征之间需要组合才能有效，比如用户对视频的某个特征的偏好，就必须将视频的特征和用户的特征进行组合。LR 是线性模型，没法自动做特征组合，只能人工搞，但人工来干这事就相当麻烦了。自然而然的，就会想到用可以自动组合特征的模型。现在了解的包括 FM、FFM 等基于矩阵分解的模型、基于 GBDT 之类的树模型和基于 DNN 的网络模型。这篇文章先介绍下 FFM 模型。

阅读全文 »

Submodular函数

发表于 2018-08-16 | 分类于数学 |

字数统计: 773 | 阅读时长 ≈ 3

Submodular 函数的定义与性质

最近在看一些计算学习理论的时候，发现很多文章是基于 Submodular 函数做的，就去了解了一下。
所谓 Submodular 函数，是指满足如下定义的集合函数$^{[1]}$：

记 $[n]={1,2,\cdots,n}$ 为 Ground Set，记 $f:2^{[n]}\to\mathbb{R}$ 为一个集合函数，该函数是 submudular当：
$f(A)+f(B)\ge f(A\cup B)+f(A\cap B), \quad \forall A,B\subseteq[n] \qquad(1)$

阅读全文 »

古月残辉

总结心得

RSS

E-Mail