符号约定与常用公式

一、推荐系统常用符号含义

符号表示 含义
$\boldsymbol{x}$ 输入变量,一般为特征向量
$\boldsymbol{x}_i=(x_i^{(1)}, \cdots, x_i^{(n)})^{\top}$ 第 $i$ 个输入变量的取值,在推导损失函数等场景下,由于每次只考虑一条样本,记样本为 $\boldsymbol{x}=(x_1,\cdots,x_n)$,此时 $x_i$ 表示样本的第 $i$ 维特征
输入实例集合
第 $j$ 个输入变量的第 $i$ 维特征取值的 $k$ 次方
$y$ 输出变量,一般为样本标签
$y_i$ 第 $i$ 个输出变量的取值
$\mathcal{Y}={y_1,\cdots,y_N}$ 输出实例集合
$(\boldsymbol{x}_i,y_i)$ 第 $i$ 个样本点
$\mathcal{T}={(\boldsymbol{x}_1,y_1),\cdots,(\boldsymbol{x}_N,y_N)}$ 训练数据集
$\boldsymbol{w}=(w_1,\cdots,w_n)$ 权重向量
$w_i^t$ 第 $i$ 维特征的权重在第 $t$ 轮迭代的取值
$\parallel \boldsymbol{w} \parallel_i^j$ 权重向量 $\boldsymbol{w}$ 的 Li 范数的 $j$ 次方,例如 L1 范数:$\parallel \boldsymbol{w} \parallel_1$,L2 范数: $\parallel \boldsymbol{w} \parallel_2^2$
$\boldsymbol{g}=(g_1,\cdots,g_n)$ 梯度向量
$\psi(\boldsymbol{w})$ 正则化函数

二、常用定理

中心极限定理

  1. 样本的平均值约等于总体的平均值。
  2. 给定一个任意分布的总体,从中随机抽取 $N$ 个样本,抽取 $k$ 次,这 $k$ 组抽样平均值的分布接近正态分布。
  3. 经验表明,当每组抽样数量 $N\ge 30$ 时就服从中心极限定理。

极大似然估计

前提假设:训练样本的分布能代表样本的真实分布;每个样本集中的样本都是所谓独立同分布的随机变量,且有充分的训练样本。

最大似然估计的目的是:利用已知的样本结果,反推最有可能(最大概率)导致这样结果的参数值。换句话说,极大似然估计提供了一种给定观察数据来评估模型参数的方法,即:模型已定,参数未知

ML估计的求解方法:

为了便于分析,定义对数似然函数 $H(\theta) = \ln l(\theta)$,则:

当 $H(\theta)$ 连续可微的情况下,可以通过求导(单个未知参数)或者求梯度(多个未知参数)的方式求解方程。

三、常用的函数和公式

Sigmoid 函数

  • 表达式:$\pi(x)=\frac{1}{1+e^{-x}}=\frac{e^x}{1+e^x}$;
  • 导数:$\pi’(x)=\pi(x)\big(1-\pi(x)\big)$;

LogLoss

  • 样本的 $(\boldsymbol{x},y)$ 的 SigmoidLoss 表达式:$l_{l}(\boldsymbol{x},y)=\ln(1+e^{f(\boldsymbol{x})})-yf(\boldsymbol{x})$
  • 导数:$l_l’(\boldsymbol{x},y)=\Big(\pi\big(f(\boldsymbol{x})\big)-y\Big)\cdot f’(\boldsymbol{x})$
  • 使用极大似然估计,标签值为 {0,1},推导参考 LR 模型

SigmoidLoss

  • 样本的 $(\boldsymbol{x},y)$ 的 SigmoidLoss 表达式:$l_s(\boldsymbol{x},y)=\ln(1+e^{-yf(\boldsymbol{x})})$
  • 导数:$l_s’(\boldsymbol{x},y)=y\Big(\pi\big(y\cdot f(\boldsymbol{x})\big)-1\Big)\cdot f’(\boldsymbol{x})$
  • 使用极大似然估计,标签值为 {-1,1},推导参考 LR 模型