在视频推荐优化的过程中,最重要的措施莫过于 A/B 测试了。典型的 A/B 测试场景中,我们首先将流量均匀的分桶,选择部分桶使用基线算法,作为对照组(Control),选择相同数量的桶用于测试新的特性,作为实验组(Treatment)。实验过程中不断收集用户的反馈数据,用来计算核心指标(本文考虑 CTR),最后分析、评估出最好的版本。
这里分析最佳版本就需要借助假设检验的技术,例如检验某个实验组的 CTR 是否优于对照组,属于双比率检验(2 Proportion-test,用于根据两个随机样本中的数据对两个总体比率之间的差值进行推断)。由于推荐系统中样本量比较大(满足 $n\cdot(1-p)>5, n\cdot p>5$,$n$ 表示样本数,$p$ 表示 CTR),我们通常采用的是 Z 检验的技术,它是基于标准正态分布来近似推断实验组优于对照组的概率。