符号约定与常用公式

一、推荐系统常用符号含义

符号表示	含义
$\boldsymbol{x}$	输入变量，一般为特征向量
$\boldsymbol{x}_i=(x_i^{(1)}, \cdots, x_i^{(n)})^{\top}$	第 $i$ 个输入变量的取值，在推导损失函数等场景下，由于每次只考虑一条样本，记样本为 $\boldsymbol{x}=(x_1,\cdots,x_n)$，此时 $x_i$ 表示样本的第 $i$ 维特征
$\mathcal{X}=\{\boldsymbol{x}_1,\cdots,\boldsymbol{x}_N\}$	输入实例集合
$(x_j^{(i)})^k$	第 $j$ 个输入变量的第 $i$ 维特征取值的 $k$ 次方
$y$	输出变量，一般为样本标签
$y_i$	第 $i$ 个输出变量的取值
$\mathcal{Y}={y_1,\cdots,y_N}$	输出实例集合
$(\boldsymbol{x}_i,y_i)$	第 $i$ 个样本点
$\mathcal{T}={(\boldsymbol{x}_1,y_1),\cdots,(\boldsymbol{x}_N,y_N)}$	训练数据集
$\boldsymbol{w}=(w_1,\cdots,w_n)$	权重向量
$w_i^t$	第 $i$ 维特征的权重在第 $t$ 轮迭代的取值
$\parallel \boldsymbol{w} \parallel_i^j$	权重向量 $\boldsymbol{w}$ 的 Li 范数的 $j$ 次方，例如 L1 范数：$\parallel \boldsymbol{w} \parallel_1$，L2 范数： $\parallel \boldsymbol{w} \parallel_2^2$
$\boldsymbol{g}=(g_1,\cdots,g_n)$	梯度向量
$\psi(\boldsymbol{w})$	正则化函数

前提假设：训练样本的分布能代表样本的真实分布；每个样本集中的样本都是所谓独立同分布的随机变量，且有充分的训练样本。

最大似然估计的目的是：利用已知的样本结果，反推最有可能（最大概率）导致这样结果的参数值。换句话说，极大似然估计提供了一种给定观察数据来评估模型参数的方法，即：模型已定，参数未知。

ML估计的求解方法：

$\hat{\theta} = \arg \max_{\theta} l(\theta) = \arg \max_{\theta}\prod_{i=1}^N p(\boldsymbol{x}_i|\theta)$

为了便于分析，定义对数似然函数 $H(\theta) = \ln l(\theta)$，则：

$\hat{\theta} = \arg \max_{\theta} \ln l(\theta) = \arg \max_{\theta}\sum_{i=1}^N \ln p(\boldsymbol{x}_i|\theta)$

当 $H(\theta)$ 连续可微的情况下，可以通过求导（单个未知参数）或者求梯度（多个未知参数）的方式求解方程。

样本的 $(\boldsymbol{x},y)$ 的 SigmoidLoss 表达式：$l_{l}(\boldsymbol{x},y)=\ln(1+e^{f(\boldsymbol{x})})-yf(\boldsymbol{x})$
导数：$l_l’(\boldsymbol{x},y)=\Big(\pi\big(f(\boldsymbol{x})\big)-y\Big)\cdot f’(\boldsymbol{x})$
使用极大似然估计，标签值为 {0,1}，推导参考 LR 模型

样本的 $(\boldsymbol{x},y)$ 的 SigmoidLoss 表达式：$l_s(\boldsymbol{x},y)=\ln(1+e^{-yf(\boldsymbol{x})})$
导数：$l_s’(\boldsymbol{x},y)=y\Big(\pi\big(y\cdot f(\boldsymbol{x})\big)-1\Big)\cdot f’(\boldsymbol{x})$
使用极大似然估计，标签值为 {-1,1}，推导参考 LR 模型