一、推荐系统常用符号含义
符号表示 | 含义 |
---|---|
$\boldsymbol{x}$ | 输入变量,一般为特征向量 |
$\boldsymbol{x}_i=(x_i^{(1)}, \cdots, x_i^{(n)})^{\top}$ | 第 $i$ 个输入变量的取值,在推导损失函数等场景下,由于每次只考虑一条样本,记样本为 $\boldsymbol{x}=(x_1,\cdots,x_n)$,此时 $x_i$ 表示样本的第 $i$ 维特征 |
输入实例集合 | |
第 $j$ 个输入变量的第 $i$ 维特征取值的 $k$ 次方 | |
$y$ | 输出变量,一般为样本标签 |
$y_i$ | 第 $i$ 个输出变量的取值 |
$\mathcal{Y}={y_1,\cdots,y_N}$ | 输出实例集合 |
$(\boldsymbol{x}_i,y_i)$ | 第 $i$ 个样本点 |
$\mathcal{T}={(\boldsymbol{x}_1,y_1),\cdots,(\boldsymbol{x}_N,y_N)}$ | 训练数据集 |
$\boldsymbol{w}=(w_1,\cdots,w_n)$ | 权重向量 |
$w_i^t$ | 第 $i$ 维特征的权重在第 $t$ 轮迭代的取值 |
$\parallel \boldsymbol{w} \parallel_i^j$ | 权重向量 $\boldsymbol{w}$ 的 Li 范数的 $j$ 次方,例如 L1 范数:$\parallel \boldsymbol{w} \parallel_1$,L2 范数: $\parallel \boldsymbol{w} \parallel_2^2$ |
$\boldsymbol{g}=(g_1,\cdots,g_n)$ | 梯度向量 |
$\psi(\boldsymbol{w})$ | 正则化函数 |
二、常用定理
中心极限定理
- 样本的平均值约等于总体的平均值。
- 给定一个任意分布的总体,从中随机抽取 $N$ 个样本,抽取 $k$ 次,这 $k$ 组抽样平均值的分布接近正态分布。
- 经验表明,当每组抽样数量 $N\ge 30$ 时就服从中心极限定理。
极大似然估计
前提假设:训练样本的分布能代表样本的真实分布;每个样本集中的样本都是所谓独立同分布的随机变量,且有充分的训练样本。
最大似然估计的目的是:利用已知的样本结果,反推最有可能(最大概率)导致这样结果的参数值。换句话说,极大似然估计提供了一种给定观察数据来评估模型参数的方法,即:模型已定,参数未知。
ML估计的求解方法:
为了便于分析,定义对数似然函数 $H(\theta) = \ln l(\theta)$,则:
当 $H(\theta)$ 连续可微的情况下,可以通过求导(单个未知参数)或者求梯度(多个未知参数)的方式求解方程。
三、常用的函数和公式
Sigmoid 函数
- 表达式:$\pi(x)=\frac{1}{1+e^{-x}}=\frac{e^x}{1+e^x}$;
- 导数:$\pi’(x)=\pi(x)\big(1-\pi(x)\big)$;
LogLoss
- 样本的 $(\boldsymbol{x},y)$ 的 SigmoidLoss 表达式:$l_{l}(\boldsymbol{x},y)=\ln(1+e^{f(\boldsymbol{x})})-yf(\boldsymbol{x})$
- 导数:$l_l’(\boldsymbol{x},y)=\Big(\pi\big(f(\boldsymbol{x})\big)-y\Big)\cdot f’(\boldsymbol{x})$
- 使用极大似然估计,标签值为 {0,1},推导参考 LR 模型
SigmoidLoss
- 样本的 $(\boldsymbol{x},y)$ 的 SigmoidLoss 表达式:$l_s(\boldsymbol{x},y)=\ln(1+e^{-yf(\boldsymbol{x})})$
- 导数:$l_s’(\boldsymbol{x},y)=y\Big(\pi\big(y\cdot f(\boldsymbol{x})\big)-1\Big)\cdot f’(\boldsymbol{x})$
- 使用极大似然估计,标签值为 {-1,1},推导参考 LR 模型