MISSRec: Pre-training and Transferring Multi-modal Interest-aware Sequence Representation for Recommendation
收录会议:
ACM MM 2023
论文链接:
https://arxiv.org/abs/2308.11175
代码链接:
https://github.com/gimpong/MM23-MISSRec
背景序列推荐是一个自回归的预测任务:根据用户的历史行为(如浏览)序列,预测用户下一个行为,如可能浏览的物品。典型的序列推荐模型(如 SASRec [4]、BERT4Rec [5] 等)大部分基于 ID 和类目等信息学习物品和用户行为序列的表征,存在以下问题:1. 少见物品的表征学习欠拟合,具体表现是在长尾物品上推荐效果差;2. 可扩展性较差,加入新的物品后,存在冷启动问题;
3. 在一个领域上训练完成的模型,难以迁移到其他领域。更普遍地,当 ID 集合完全不相交时,各个领域就形成一座座“数据孤岛”——即便模式相似,知识也难以迁移。
为了解决上述问题,我们的目光不再局限于依据 ID 信息来表征物品和序列,而是从物品多模态内容入手建模个性化。我们的直觉是,用户的决策是一个综合了多模态信息处理的过程。例如,对于商品的图文介绍,贴合需求的标题描述和精美的图片都可能吸引用户的关注。因此,我们认为多模态信息的有助于准确地描述物品和用户偏好,并且该信息基本不受热度(频次)影响。
我们还探究了在下游目标领域结合使用 ID 信息的效果,以及预训练的影响。如 Table 4 所示,首先可以观察在下游结合 ID 信息的增益,特别是在物品数量更多的 Office 数据集上。我们认为的原因是,多模态信息反映物品的属性,刻画的是物品间的可迁移的共性(“哪一类”);而 ID 信息则刻画物品特性(“哪一个”)。随着物品增加,物品间的辨识难度提升,于是在表征中建模特性的需求也相应增加。
此外,预训练在大多数情况下可以提升下游领域的推荐效果,但在某些设定下,MISSRec 的迁移效果仍然不理想,比如在 Office 数据集上不使用 ID 信息进行微调,出现了负向迁移的现象。除了部分原因是参数高效微调的设定限制了领域适应的效果外,还有一部分原因是推荐应用的不同领域间行为模式的差异较大,而 MISSRec 的设计还不足以解决这个问题。这是目前留给我们和社区的一个改进目标。
[1] Hou Y, Mu S, Zhao W X, et al. Towards universal sequence representation learning for recommender systems[C]//Proceedings of the 28th ACM SIGKDD Conference on Knowledge Discovery and Data Mining. 2022: 585-593.[2] Hou Y, He Z, McAuley J, et al. Learning vector-quantized item representation for transferable sequential recommenders[C]//Proceedings of the ACM Web Conference 2023. 2023: 1162-1171.[3] Li J, Wang M, Li J, et al. Text Is All You Need: Learning Language Representations for Sequential Recommendation[C]//Proceedings of the 29th ACM SIGKDD Conference on Knowledge Discovery and Data Mining. 2023: 1258-1267.[4] Kang W C, McAuley J. Self-attentive sequential recommendation[C]//2018 IEEE international conference on data mining. 2018: 197-206.[5] Sun F, Liu J, Wu J, et al. BERT4Rec: Sequential recommendation with bidirectional encoder representations from transformer[C]//Proceedings of the 28th ACM international conference on information and knowledge management. 2019: 1441-1450.[6] Du M, Ding S, Jia H. Study on density peaks clustering based on k-nearest neighbors and principal component analysis[J]. Knowledge-Based Systems, 2016, 99: 135-145.