双塔模型如何选择负样本？-木盒主机

作者 | 雨下
整理 | NewBeeNLP

之前有一段时间做过双塔的召回模型[1]，线上各个指标有了不错的提升。目前双塔模型也是被各大公司钟爱的召回模型。对主流召回模型的分享整理在：总结下自己做过的深度召回模型

双塔模型在训练时是对一个batch内样本训练。一个batch内每个样本 (user和item对)为正样本，该user与batch内其它item为负样本。这样训练的方式可能有以下问题：

负样本的个数不足 。训练时负样本个数限制在了batch内样本数减1，而线上serving时需要在所有候选集中召回用户感兴趣的样本。模型只能从当前batch内区分出batch内正样本，无法很好地从所有候选集中区分正样本。
未点击的item没有做负样本 。由于batch内的item都是被点击过的，因此没有被点击item无法成为负样本，在线上serving容易它们被召回出来。一种解决方法是之前没被点击过的item不导出到候选集中，然而这样存在的问题是召回的item很多是之前点击的热门item，而很多冷门的item没有机会召回。

最近，有两篇文章提出了双塔模型扩量负样本的方法。这两种方法我也曾尝试过，线下线上指标也有一定的提升。

本文目录

一、Two Tower Model

再介绍其它方法之前，先回顾一下经典的双塔模型建模过程。

用

图1：双塔模型batch采样

MNS[2]与双塔模型[1]出自谷歌团队的同一批作者。用一个batch数据训练时，MNS还会在所有的数据集中采样出

图2：MNS的batch采样

CBNS[2]是清华大学和华为合作提出的方法。文中提到，双塔模型的计算优势在于利用了batch内的负样本，减小的计算量。如果我们想扩大batch内样本个数，加大负样本个数，需要很多的内存。因此，作者提出一个使用之前训练过的item作为负样本的方法。

神经网络训练达到一定轮数后，会对相同的样本产生稳定的向量。作者在论文中定义了这个想法。因此把之前训练过的item作为当前训练的负样本时，模型只需要把这些item的向量拿过来使用，不需要再输出到神经网络中产生新的向量，毕竟这两种向量的差距较小。

作者使用了FIFO（先进先出）队列，item塔输出向量时，会放进FIFO中。当warm-up training达到一定的轮数后，训练模型时，会从FIFO拿出一批向量作为负样本的向量。这样做不仅减少了计算量，在扩充负样本的时候也减少了内存的使用。计算公式与MNS差别不大：

图3：CBNS采样方法

[1] Sampling-Bias-Corrected Neural Modeling for Large Corpus Item Recommendations

[2] Mixed Negative Sampling for Learning Two-tower Neural Networks in Recommendations

[3] Cross-Batch Negative Sampling for Training Two-Tower Recommenders