二项 Logistic Regression 模型

本文主要介绍一下二项 Logistic Regression 模型推导。

模型描述

记 $\pi(x)=\frac{1}{1+e^{-x}}$,二项 Logistic Regression 模型是如下的条件概率分布:

模型求解(极大似然估计)

常见的 label 设置有正负样本分别为 {1,0} 或 {1,-1},下面分别讨论两种设置下的损失函数和梯度的推导。首先要假设训练样本独立同分布并且数量足够,模型中待估计的参数为 $\boldsymbol{w}$,似然函数的目标是 $y_i=1$ 时 $\pi(\boldsymbol{wx}_i)$ 尽可能大,且 $y_i\not =1$ 时 $1-\pi(\boldsymbol{wx}_i)$ 尽可能大。

1. label 为 {1,0}

此时,可以直接将 $\hat{y}=\pi(\boldsymbol{wx})$ 的结果作为对 $y$ 值的预测(或者说是预测结果为 1 的概率)。根据最大似然估计公式,$p(\boldsymbol{x}_i|\boldsymbol{w})=\big(\pi(\boldsymbol{wx}_i)\big)^{y_i}\cdot\big(1-\pi(\boldsymbol{wx}_i)\big)^{1-y_i}$,对数似然函数可以设计为:

这里,$l_l(\boldsymbol{x},y)=-\big(y\cdot \ln(\hat{y})+(1-y)\cdot\ln(1-\hat{y})\big)=\ln(1+e^{f(\boldsymbol{x})})-yf(\boldsymbol{x})$ 记作样本 $ (\boldsymbol{x},y)$ 的 LogLoss,后面会经常见到。

根据损失函数 $l_l(\boldsymbol{x},y)$,对每个维度上的参数分别求导:

2. label 为 {1,-1}

此时仍然可以认为 $\pi(\boldsymbol{wx})$ 输出了模型预测样本结果为 1 的概率,但是由于负样本的标签为 -1,因此考虑使用 $p(\boldsymbol{x}_i|\boldsymbol{w})=\frac{1}{1+e^{-y_i\boldsymbol{wx}_i}}$,则对数似然函数可以设计为:

这里,$l_s(\boldsymbol{x},y)=\ln(1+e^{-y\boldsymbol{wx}})$ 称作样本 $(\boldsymbol{x},y)$ 的 SigmoidLoss,后面也会经常看到。

根据损失函数 $l_s(\boldsymbol{x},y)$,对每个维度上的参数分别求导: