/images/avatar.png

Rec - Large Scale Product Graph Construction for Recommendation in E-commerce

这篇论文想要解决什么问题?

解决大规模电商推荐系统中产品关系图构建的关键挑战。 论文关注的核心问题包括:

  • 产品间关系的捕捉:理解并捕捉产品之间的关系是现代电子商务推荐系统的基础。这些关系可以被视为产品重构索引,能够根据给定的种子产品返回排名列表。

Rec - Ads Recommendation in a Collapsed and Entangled World

1.想要解决的问题

  1. 表示的先验知识:现实世界的系统包含来自不同来源的各种类型的特征,包括序列特征(例如,用户点击/转换历史),数字特征(例如,保留语义的广告ID),以及嵌入来自预先训练的外部模型的特征(例如,GNN或LLM)。在推荐系统中对这些特征进行编码时,保留这些特征的固有先验是至关重要的。
  2. 维度折叠:编码过程将所有特征映射到嵌入中,通常表示为多维向量,并在模型训练期间学习。然而,我们观察到,许多字段的嵌入往往占据一个低维的子空间,而不是充分利用可用的二维空间。这种维度压缩不仅导致了参数的浪费,而且限制了推荐模型的可扩展性。
  3. 兴趣纠缠:广告推荐系统中的用户响应由复杂的潜在因素决定,特别是当同时学习多个任务或场景时。现有的共享嵌入方法可能无法充分解决这些因素,因为它们依赖于每个特征的单个纠缠嵌入。通俗的讲,一个用户(或广告)在所有任务/场景下,都被强行塞进同一条 embedding 向量里,导致不同任务所需的兴趣信号互相打架。

2.方法

2.1 Feature Encoding

特征编码在工业广告推荐系统中,特征是从许多来源生成的,并且属于不同的类型,例如序列特征、数字特征和嵌入特征。在对这些特征进行编码时,我们希望尽可能地保留其固有的时间、顺序或距离(相似性)先验。

Datawhale AI夏令营-科大讯飞-用户新增预测挑战赛 赛季3

一、理解

「用户新增预测挑战赛」是由科大讯飞主办的一项数据科学竞赛,旨在通过机器学习方法预测用户是否为新增用户。 赛题提供了讯飞开放平台的海量应用数据作为训练样本, 参赛者需构建模型对测试数据中的用户进行分类,判断其是否为新增用户。 比赛属于二分类任务,评价指标采用F1分数,分数越高表示模型性能越好。

Rec - Sparse Meets Dense: Unified Generative Recommendations with Cascaded Sparse-Dense Representations

创新点:

  • COBRA框架:创新性地整合稀疏语义标识符和密集向量,通过级联表示捕捉项目语义和细粒度特征。
  • 从粗到精策略:推理时先生成稀疏标识符定位项目类别,再生成密集向量捕捉细节,提升推荐准确性和个性化。
  • BeamFusion机制:结合beam search和最近邻检索分数,平衡推荐的精确度和多样性,增强系统灵活性。
  • 端到端训练:动态优化密集表示,捕捉用户 - 项目交互的语义和协同信号,适应推荐需求。

实施细节

/images/COBRA-outline.png COBRA的输入是一系列级联表示,由稀疏ID和与用户交互历史中的项相对应的密集向量组成。在训练过程中,密集表示是通过对比学习目标和端到端的方式学习的。通过首先生成稀疏ID,然后生成稠密表示,COBRA降低了稠密表示的学习难度,并促进了两种表示之间的相互学习。在推理过程中,COBRA采用了一个由粗到细的生成过程,从稀疏ID开始,稀疏ID提供了一个捕获项目分类本质的高级分类草图。然后,生成的ID被附加到输入序列中,并反馈到模型中,以预测捕获细粒度细节的密集向量,从而实现更精确和个性化的推荐。为了确保灵活的推理,我们引入了BeamFusion,这是一种将波束搜索与最近邻检索分数相结合的采样技术,确保了检索到的项目的可控多样性。与TIGER不同,它只依赖于稀疏ID,COBRA利用稀疏和密集表示的优势。