AB 测试数学基础

发表于 2021-04-28 | 分类于数学 |

字数统计: 1.1k | 阅读时长 ≈ 4

在视频推荐优化的过程中，最重要的措施莫过于 A/B 测试了。典型的 A/B 测试场景中，我们首先将流量均匀的分桶，选择部分桶使用基线算法，作为对照组（Control），选择相同数量的桶用于测试新的特性，作为实验组（Treatment）。实验过程中不断收集用户的反馈数据，用来计算核心指标（本文考虑 CTR），最后分析、评估出最好的版本。

这里分析最佳版本就需要借助假设检验的技术，例如检验某个实验组的 CTR 是否优于对照组，属于双比率检验（2 Proportion-test，用于根据两个随机样本中的数据对两个总体比率之间的差值进行推断）。由于推荐系统中样本量比较大（满足 $n\cdot(1-p)>5, n\cdot p>5$，$n$ 表示样本数，$p$ 表示 CTR），我们通常采用的是 Z 检验的技术，它是基于标准正态分布来近似推断实验组优于对照组的概率。

阅读全文 »

淘宝商品向量生成模型 EGES

发表于 2021-01-24 | 分类于推荐系统 |

字数统计: 2.5k | 阅读时长 ≈ 9

论文引用: Wang, Jizhe , et al. “Billion-scale Commodity Embedding for E-commerce Recommendation in Alibaba.” 2018.

本文是淘宝发表在 KDD 2018 上的关于商品 embedding 生成的文章，主要为了解决商品推荐系统面临三个主要问题：可扩展性、稀疏性和冷启动问题。其中，可扩展性是指随着用户量和商品量的急剧扩张，推荐系统的负载也随之增加，影响可扩展性的要素包括模型的训练开销、模型存储开销和推理性能等；稀疏性是指大部分用户只消费过小部分的商品，同时很多商品也只被少量用户消费，对于这些用户/商品很难做精准的推荐；而冷启动问题主要是针对新上架的商品，缺少用户行为，跟稀疏性类似，都会导致商品难以通过协同行为来评估相似度或质量。

为了解决这三个挑战，业内通常使用两阶段的推荐策略：召回+排序，先基于用户消费历史从商品库中召回与这些历史相似/相关的商品，再基于用户偏好来对这些候选商品进行排序。其中，召回阶段的核心是商品之间的相似度评估模型。

传统的 CF 方法主要是基于商品共现统计来评估商品间的相似度，例如 ItemCF 等，而本文首先基于用户行为构建商品的有向图，通过随机游走生成商品序列，再训练模型从这些序列中抽取商品间的相似度，这种方式能够捕获更高级别的相似度，类似于 SimRank 与 ItemCF 的关系 $^{[1]}$。EGES 使用 word2vec 进行训练，生成每个商品的 embedding，这种方式存储和推理都相当高效。

阅读全文 »

加权随机采样

发表于 2020-12-05 | 分类于数学 |

字数统计: 2.7k | 阅读时长 ≈ 10

加权随机采样在推荐系统中随处可见，既可能用在模型训练数据处理过程中，也可能用于一些规则式的推荐策略里。典型的场景例如：

在新用户冷启动时，我们可以通过某些指标评估出内容的质量，并根据质量得分来将内容加权随机推荐给新用户，质量越高的内容，被曝光给新用户的概率也越大。
在样本采样时，有一种方法是对每条正样本，随机从所有的内容中选取 $k$ 个负样本，而每个内容被选为负样本的概率与其热度成正比（例如 word2vec 的 negative sampling 技术）。
基于用户历史行为可以构建内容的有向图，当用户行为较稀疏时，我们可以使用 deepwalk 之类的算法在图中随机游走，生成内容的序列，再基于 word2vec 等算法生成这些内容的 embedding。在随机游走时，比如当前到达节点 $v$，那么下一次游走到其他节点的概率，与有向边的权重正相关。

以上这些加权采样的场景往往都不可避免的面对大数据量挑战，因此对性能要求较高。而再细分一下，上面的场景 1, 2 都属于无放回采样，也就是需要采样的内容都不相同；而场景 3 则属于有放回采样，即允许采到相同的样本。本文就这两类加权随机采样问题分别探讨高效的解法。

阅读全文 »

Fast Greedy MAP for DPP 论文精读

发表于 2020-07-29 | 分类于论文精读 |

字数统计: 3.9k | 阅读时长 ≈ 16

论文引用: Chen, Laming, Guoxin Zhang, and Eric Zhou. “Fast greedy map inference for determinantal point process to improve recommendation diversity.” Advances in Neural Information Processing Systems. 2018.

内容推荐系统的设计宗旨是帮助用户从近乎无限的内容中找到自己喜欢的，为了这个目标，推荐系统最主要的两个任务就是探索与利用。利用的含义是当推荐系统有足够的依据推测用户当下可能喜欢什么的时候，将相关的内容推荐给用户；探索的含义是当推荐系统不知道用户是否喜欢某个品类的内容时，推荐少量这些品类的精选内容给用户，试探用户的反馈。利用的任务我们通常交给排序算法去解决；而探索的任务则困难得多，或者说风险高得多，它需要借助排序之外的手段去实现，例如基于用户实时反馈进行快速试探（冷启动），或者保持一定比例的流量专门做试探，等等。

无论使用哪种方式，这些试探的内容还是需要和排序的结果进行融合后，以一定的顺序展示给用户。由于这两类任务是不可比的，在进行融合时很容易就引入一些人工规则。人工规则设计的好其实也是一项技术活，更简单的办法是用算法来将这些结果进行融合，既能最大化用户的喜好，又能引入尽可能多样的内容。本文主要介绍基于 DPP 的多样性算法。

阅读全文 »

MA-GNN 论文精读

发表于 2020-07-04 | 分类于论文精读 |

字数统计: 3.4k | 阅读时长 ≈ 12

论文引用：Ma, Chen, et al. “Memory Augmented Graph Neural Networks for Sequential Recommendation.” arXiv preprint arXiv:1912.11730 (2019).

MA-GNN 是华为诺亚实验室发表在 AAAI 2020 上基于序列的长短兴趣建模和 topK 推荐的模型。文章主要解决了用户长短期兴趣如何建模、如何融和，以及如何显式建模物品的共现关系并进而用于推荐的问题。

阅读全文 »

Tversky 对比模型及其在推荐系统中的应用

发表于 2020-06-02 | 分类于推荐系统 |

字数统计: 2.8k | 阅读时长 ≈ 10

物品相似度评估在推荐中当属核心问题之一，尤其是当用户有一些明确的喜好、或者当前有一个明确的消费目标的时候，推荐与用户搜索内容/当前浏览内容相似的内容，能够极大的提升用户体验。例如，“猜你喜欢”、“再来一条”、“相关推荐” 等场景，就是围绕用户的这类诉求设计的，它属于 ”探索与利用“ 中的 ”利用“。

相似度评估已经是一个研究十分深入的领域，尤其是在心理学领域。我们往往说不清楚到底什么样的物品是相似的，或者说为什么两个物品不相似。出现这个问题，可能是因为在不同的情境下，我们不自觉的有不同的判断标准，使用了不同的特征，或者对不同的特征有不同的权重等等。这也导致了我们很难客观度量模型相似度评估的准不准，在很多业务场景下引发一些 badcase。

阅读全文 »

xDeepFM 论文精读

发表于 2020-05-26 | 分类于论文精读 |

字数统计: 1.9k | 阅读时长 ≈ 7

论文引用: Lian, Jianxun, et al. “xdeepfm: Combining explicit and implicit feature interactions for recommender systems.” Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. 2018.

xDeepFM 是中科大和 MSRA 发表在 KDD 2018 上用于 CTR 预估的模型。这个模型充分借鉴了 DCN、FM 的思想，提出了一种新的将特征按 vector 进行交叉的结构 CIN，并且这个结构与 CNN 和 RNN 有一定的相似性。从实验来看，效果的确不错，但是工程效率实在是个难题。

阅读全文 »

AutoInt 论文精读

发表于 2020-05-09 | 分类于论文精读 |

字数统计: 2.4k | 阅读时长 ≈ 9

论文引用: Song, Weiping, et al. “Autoint: Automatic feature interaction learning via self-attentive neural networks.” Proceedings of the 28th ACM International Conference on Information and Knowledge Management. 2019.

这是一篇北京大学发表在 CIKM 2019 的文章，看作者列表没有企业背景，主要还是提供一些理论思路。文章的核心也是想通过自动挖掘特征间的高阶交互关系来提升减少人工特征工程，但是与前面的 DeepFM、DCN 等能够提供显式特征交叉能力的模型最大的差别在于：本文是通过不同 field 间特征做 Self-Attention 来实现特征的交互，也因此获得了一定的特征组合的可视化能力（即文章中声称提供了较好的可解释性）。

阅读全文 »

DeepFM 论文精读

发表于 2020-04-30 | 分类于论文精读 |

字数统计: 1.4k | 阅读时长 ≈ 5

论文引用: Guo, Huifeng, et al. “DeepFM: a factorization-machine based neural network for CTR prediction.” arXiv preprint arXiv:1703.04247 (2017).

DeepFM 是华为诺亚实验室受 FM 和 wide & deep 模型启发，发表在 IJCAI 2017 的一个 CTR 预估模型，从国内企业的实践分享来看，其效果受到了广泛的认可。它的核心思想是将 wide & deep 网络中的 wide 层用 FM 层代替，增加了特征的二阶自动交叉能力，并且在实现上天然可以将 FM 层的 embedding 与 deep 层共享。

阅读全文 »

Deep & Cross 论文精读

发表于 2020-04-15 | 分类于论文精读 |

字数统计: 2.2k | 阅读时长 ≈ 8

论文引用: Wang, Ruoxi, et al. “Deep & cross network for ad click predictions.” Proceedings of the ADKDD’17. 2017. 1-7.

本文是 Stanford 和 Google 联合发表在 KDD 2017 workshop 上的一篇 CTR 预估模型，模型采用 Wide&Deep 架构，最大的创新点在于将 wide 层替换成 cross 层，省去了原本大量的人工特征工程的工作，由 cross 层提供显式的高阶特征组合能力，同时保持较低的参数量和计算量。

阅读全文 »

古月残辉

总结心得

RSS

E-Mail