June's Island

Rec - Large Scale Product Graph Construction for Recommendation in E-commerce

June — Mon, 28 Jul 2025 10:08:40 +0800

这篇论文想要解决什么问题？

解决大规模电商推荐系统中产品关系图构建的关键挑战。论文关注的核心问题包括：

产品间关系的捕捉：理解并捕捉产品之间的关系是现代电子商务推荐系统的基础。这些关系可以被视为产品重构索引，能够根据给定的种子产品返回排名列表。

Rec - Ads Recommendation in a Collapsed and Entangled World

June — Sat, 19 Jul 2025 14:22:30 +0800

1.想要解决的问题

表示的先验知识：现实世界的系统包含来自不同来源的各种类型的特征，包括序列特征（例如，用户点击/转换历史），数字特征（例如，保留语义的广告ID），以及嵌入来自预先训练的外部模型的特征（例如，GNN或LLM）。在推荐系统中对这些特征进行编码时，保留这些特征的固有先验是至关重要的。
维度折叠：编码过程将所有特征映射到嵌入中，通常表示为多维向量，并在模型训练期间学习。然而，我们观察到，许多字段的嵌入往往占据一个低维的子空间，而不是充分利用可用的二维空间。这种维度压缩不仅导致了参数的浪费，而且限制了推荐模型的可扩展性。
兴趣纠缠：广告推荐系统中的用户响应由复杂的潜在因素决定，特别是当同时学习多个任务或场景时。现有的共享嵌入方法可能无法充分解决这些因素，因为它们依赖于每个特征的单个纠缠嵌入。通俗的讲，一个用户（或广告）在所有任务/场景下，都被强行塞进同一条 embedding 向量里，导致不同任务所需的兴趣信号互相打架。

2.方法

2.1 Feature Encoding

特征编码在工业广告推荐系统中，特征是从许多来源生成的，并且属于不同的类型，例如序列特征、数字特征和嵌入特征。在对这些特征进行编码时，我们希望尽可能地保留其固有的时间、顺序或距离（相似性）先验。

Datawhale AI夏令营-科大讯飞-用户新增预测挑战赛赛季3

June — Mon, 14 Jul 2025 16:29:28 +0800

一、理解

「用户新增预测挑战赛」是由科大讯飞主办的一项数据科学竞赛，旨在通过机器学习方法预测用户是否为新增用户。赛题提供了讯飞开放平台的海量应用数据作为训练样本，参赛者需构建模型对测试数据中的用户进行分类，判断其是否为新增用户。比赛属于二分类任务，评价指标采用F1分数，分数越高表示模型性能越好。

Rec - Sparse Meets Dense: Unified Generative Recommendations with Cascaded Sparse-Dense Representations

June — Thu, 03 Jul 2025 14:22:30 +0800

创新点：

COBRA框架：创新性地整合稀疏语义标识符和密集向量，通过级联表示捕捉项目语义和细粒度特征。
从粗到精策略：推理时先生成稀疏标识符定位项目类别，再生成密集向量捕捉细节，提升推荐准确性和个性化。
BeamFusion机制：结合beam search和最近邻检索分数，平衡推荐的精确度和多样性，增强系统灵活性。
端到端训练：动态优化密集表示，捕捉用户 - 项目交互的语义和协同信号，适应推荐需求。

实施细节

COBRA的输入是一系列级联表示，由稀疏ID和与用户交互历史中的项相对应的密集向量组成。在训练过程中，密集表示是通过对比学习目标和端到端的方式学习的。通过首先生成稀疏ID，然后生成稠密表示，COBRA降低了稠密表示的学习难度，并促进了两种表示之间的相互学习。在推理过程中，COBRA采用了一个由粗到细的生成过程，从稀疏ID开始，稀疏ID提供了一个捕获项目分类本质的高级分类草图。然后，生成的ID被附加到输入序列中，并反馈到模型中，以预测捕获细粒度细节的密集向量，从而实现更精确和个性化的推荐。为了确保灵活的推理，我们引入了BeamFusion，这是一种将波束搜索与最近邻检索分数相结合的采样技术，确保了检索到的项目的可控多样性。与TIGER不同，它只依赖于稀疏ID，COBRA利用稀疏和密集表示的优势。

Embedding - MULTIMODAL FUSION

June — Tue, 01 Jul 2025 17:44:49 +0800

Reference：Multimodal Alignment and Fusion: A Survey 第五章

Rec - HLLM Enhancing Sequential Recommendations via Hierarchical Large Language Models for Item and User Modeling

June — Fri, 27 Jun 2025 14:04:14 +0800

这篇论文试图解决的问题是如何在推荐系统中有效地利用大型语言模型（LLMs）来提升序列推荐的准确性和效率。具体来说，论文探讨了以下几个关键问题：

Rec - Recommender Systems with Generative Retrieval

June — Thu, 26 Jun 2025 14:18:22 +0800

Sequential Recommenders：序列推荐系统旨在根据用户过去的交互行为序列来预测用户接下来可能与之交互的项目。早期方法常依赖于马尔可夫链技术来基于历史交互建模用户行为。近年来，基于Transformer的模型被广泛应用于序列推荐系统中，这些模型能够捕捉用户交互序列中的长距离依赖关系。在使用时，首先需要收集用户与项目的交互数据，并按照时间顺序构建用户的行为序列。然后，选择合适的序列模型（如GRU、LSTM、Transformer等）来学习用户的行为模式。在训练过程中，模型会根据用户的历史行为序列来预测用户接下来可能感兴趣的项目。最后，在实际应用中，根据模型的预测结果为用户生成推荐列表。

Agentic RAG - Usecase

June — Sun, 22 Jun 2025 12:03:24 +0800

本文根据Hugging Face上的Agent课程编写而成。在本章节，我们将使用 Agentic RAG 创建一个工具来帮助主持晚会的友好经纪人 Alfred，该工具可用于回答有关晚会嘉宾的问题。

LangGraph - Introduction

June — Sat, 21 Jun 2025 10:21:11 +0800

本文根据Hugging Face上的Agent课程编写而成。在本章节您将学习如何使用 LangGraph 框架构建应用程序，该框架旨在帮助您构建和协调复杂的 LLM 工作流程。LangGraph 是一个框架，它通过为您提供代理流程的控制工具，允许您构建可用于生产的应用程序。相关资源：

LlamaIndex - Introduction

June — Thu, 19 Jun 2025 14:38:53 +0800

本文根据Hugging Face上的Agent课程编写而成。

什么是LlamaIndex？

LlamaIndex 是一个完整的工具包，用于使用索引和工作流创建基于LLM的Agent。

LlamaIndex的关键部分以及它们如何帮助代理？

Components：在 LlamaIndex 中使用的基本构建块。 These include things like prompts, models, and databases.组件通常用于将 LlamaIndex 与其他工具和库连接起来。
Tools: 工具是提供特定功能（例如搜索、计算或访问外部服务）的组件。
Agents：能够使用工具并做出决策的自主组件。它们协调工具的使用，以实现复杂的目标。
Workflows：是将逻辑整合在一起的逐步流程。工作流或代理工作流是一种无需明确使用代理即可构建代理行为的方法。