推荐系统概论

搜索引擎	推荐系统
由用户主导，包括输入查询词和选择结果，结果不好用户会修改查询再次搜索。	由系统主导，系统引导用户发现需要的信息。高质量的推荐系统会使用户对该系统产生依赖。
需要用户提供明确的需求，注重结果之间的排序。	不需要用户提供明确的需求，通过分析用户的历史行为对用户的兴趣建模，从而主动给用户推荐可能满足他们兴趣和需求的信息。

	显性反馈数据	隐性反馈数据
用户兴趣	明确	不明确
数量	较少	庞大
存储	数据库	分布式文件系统
实时读取	实时	有延迟
正负反馈	都有	只有正反馈（喜欢该物品）

符号	含义
$p_{u, i}$	预测值：用户u对物品i的预测评分
$\bar{r}_{u}$	基准值：用户u对所有物品评分的平均值
$N$	有效邻居集：用户u的邻居中，确实对物品i评过分的用户集合
$u^{\prime}$	有效邻居集N中的某一个用户
$s(u, u^{\prime})$	权重：用户u与邻居用户 $u^{\prime}$ 之间的相似度
$r_{u^{\prime}, i}$	实际评分：邻居用户 $u^{\prime}$ 对物品i的实际评分
$\bar{r}_{u^{\prime}}$	邻居基准：邻居用户 $u^{\prime}$ 对所有物品评分的平均值
$(r_{u^{\prime}, i}-\bar{r}_{u^{\prime}})$	偏好偏差：邻居用户 $u^{\prime}$ 对物品i的评分相对于其平均评分的偏差

基准部分 ( $\bar{r}_{u}$ )：以用户u自身的平均评分作为预测的基准。
调整部分 (分式部分)：
- 分子：计算所有有效邻居的“偏好偏差”的相似度加权和。相似度越高( $s(u,u')$ 越大)的邻居，其偏好偏差对预测结果的影响越大。
- 分母：使用所有有效邻居相似度的绝对值之和进行归一化，确保调整量在一个合理的范围内。

生成推荐列表

对用户u所有之前未产生过行为的物品i进行评分预测，然后根据预测的评分对这些物品进行降序排序，筛选评分较高的M个物品生成推荐列表展示给用户。

基于物品的协调过滤推荐

算法思路：

计算物品间的相似度。
根据物品的相似度和用户的历史行为生成推荐列表。

特点：

更个性化，着重于维护用户的历史兴趣，反映了用户兴趣的历史传承。

物品相似度计算

$w_{i,j} = \frac{|N(i)\cap N(j)|}{|N(i)|}$

其中， $|N(i)|$ 是喜欢物品i的用户数， $|N(i)∩N(j)|$ 是同时喜欢物品i和物品j的用户数。从上面的定义看出，在协同过滤中两个物品产生相似度是因为它们共同被很多用户喜欢，两个物品相似度越高，说明这两个物品共同被很多人喜欢。

$w_{i,j} = \frac{|N(i)\cap N(j)|}{\sqrt{|N(i)||N(j)|}}$

上一个公式虽然看起来很有道理，但是却存在一个问题。如果物品 $j$ 很热门，很多人都喜欢，那么 $i$ 和 $j$ 物品相似度会很高。因此，该公式会造成任何物品都会和热门的物品有很大的相似度，这对于致力于挖掘长尾信息的推荐系统来说显然不是一个好的特性。为了惩罚推荐出热门的物品，可以用上面的公式。

其中， $|N(i)|$ 是喜欢物品i的用户数， $|N(j)|$ 是喜欢物品j的用户数， $|N(i)∩N(j)|$ 是同时喜欢物品i和物品j的用户数。

计算用户u对i的预测分数

$r_{ui}=\frac{\sum_{j\in N_u(i)}{w_{ij}r_{uj}}}{\sum_{j\in N_u(i)}|w_{ij}|}$

生成推荐列表

对用户u所有之前未产生过行为的物品i进行评分预测，然后根据预测的评分对这些物品进行降序排序，筛选评分较高的M个物品生成推荐列表展示给用户。

例题

用户A、B、C、D、E对物品1、2、3、4的评分记录如下表，请预测用户C对物品1的评分（分数高于平均值视为喜欢）。

评分项	用户A	用户B	用户C	用户D	用户E
物品1	5	3	-	2	3
物品2	-	4	4	1	3
物品3	4	-	5	-	-
物品4	2	4	1	4

隐语义模型

核心思想：
隐语义模型依据“兴趣”等隐含特征将用户与物品进行连接。
实例：
假设用户A喜欢《数据挖掘导论》（属于计算机类的书籍），那我们可以将《推荐系统》等计算机类书籍推荐给用户A；用户B喜欢《三个火枪手》（属于文学类书籍），可将《巴黎圣母院》等这类文学作品推荐给用户B。

数学理解：

如下图所示，R矩阵是用户对物品的偏好信息，P矩阵是用户对各物品类别的一个偏好信息，Q矩阵是各物品所归属的的物品类别的信息。隐语义模型就是要将矩阵R分解为矩阵P和矩阵Q的乘积，即通过矩阵中的物品类别将用户和物品联系起来。

P、Q、R矩阵

基于低秩矩阵分解的方法：

从评分矩阵中抽取一组潜在的（隐藏的）因子，并通过这些因子向量描述用户和物品。
SVD将评价矩阵分解为3个低秩的矩阵，这3个矩阵的乘积能对原始矩阵进行某种程度的复原，从而可以评估出缺失值。
在电影领域，这些自动识别的因子可能对应一部电影的常见标签，比如风格或者类型（戏剧片或者动作片），也可能是无法解释的。

矩阵因子分解（如奇异值分解）将项和用户都转化成了相同的潜在空间，即将用户偏好矩阵分解成一个用户-潜在因子矩阵乘以一个潜在因子-项矩阵，代表用户和项之间的潜相互作用。

矩阵分解背后的原理是潜在特征代表了用户如何给项进行评分。给定用户和项的潜在描述，我们可以预测用户将会给还未评价的项多少评分。

矩阵分解

用户-潜在因子矩阵Q：表示不同的用户对于不用元素的偏好程度，1代表很喜欢，0代表不喜欢。如：

用户-潜在因子矩阵实例

潜在因子-音乐矩阵P：表示每种音乐含有各种元素的成分。如下表中，音乐A是一个偏小清新的音乐，含有小清新这个Latent Factor的成分是0.9，重口味的成分是0.1，优雅的成分是0.2……

潜在因子-音乐矩阵P

利用这两个矩阵，我们能得出张三对音乐A的喜欢程度是：

$\text{对小清新的偏好}\times \text{音乐A含有小清新的成分}+\text{对重口味的偏好}\times \text{音乐A含有重口味的成分} +\text{对优雅的偏好}\times \text{音乐A含有优雅的成分}+……$

即： $\text{张三对音乐A的喜欢程度}=0.6*0.9+0.8*0.1+0.1*0.2+0.1*0.4+0.7*0=0.68$

问题：潜在因子（latent factor）是怎么得到的呢？

由于面对海量的音乐，让用户自己给音乐分类并给出自己的偏好系数显然是不现实的，事实上我们能获得的数据只有用户行为数据。如：单曲循环=5, 分享=4, 收藏=3, 主动播放=2 , 听完=1, 跳过=-2 , 拉黑=-5，在分析时能获得的实际评分矩阵R，也就是输入矩阵大概如下：

输入矩阵

事实上这是个非常非常稀疏的矩阵，因为大部分用户只听过全部音乐中很少一部分。如何利用这个矩阵去找潜在因子？这里主要应用到的是矩阵的奇异值分解。即将上面的评分矩阵分解为两个低维度的矩阵，用Q和P两个矩阵的乘积去估计实际的评分矩阵，而且我们希望估计的评分矩阵和实际的评分矩阵不要相差太多。

奇异值分解

这里涉及到最优化理论，在实际应用中，往往还要在后面加上2范数的罚项，然后利用梯度下降法就可以求得P,Q两个矩阵的估计值。

例如上面给出的那个例子可以分解成为这样两个矩阵：

矩阵P、Q中参数值的计算：

项目	描述
核心思想	将用户-物品评分矩阵分解为两个低维矩阵的乘积：用户特征矩阵P和物品特征矩阵Q
数学表达	$R ≈ P × Q^T$ ，其中R为原始评分矩阵，P为用户潜在特征矩阵，Q为物品潜在特征矩阵
推荐步骤	1. 矩阵分解得到P和Q`<br>`2. 计算预测评分矩阵 $\hat{R} = P × Q^T$ `<br>`3. 剔除用户已听过的音乐，选择预测分数最高的音乐推荐

损失函数公式

$C(p, q)=\sum_{(u, i) \in \text{Train}}\left(r_{ui}-\sum_{f=1}^{F} p_{uf} q_{if}\right)^{2}+\lambda\left(\left\|p_{u}\right\|^{2}+\left\|q_{i}\right\|^{2}\right)$

损失函数的意义是用户U对物品I的真实喜爱程度与推算喜爱程度的均方根误差，要使模型最合理就要使这个误差达到最小值。

公式组成部分

部分	含义	作用
拟合误差项	$\left(r_{ui}-\sum_{f=1}^{F} p_{uf} q_{if}\right)^{2}$	衡量真实评分与预测评分的差异
正则化项	$\lambda\left(\left\|p_{u}\right\|^{2}+\left\|q_{i}\right\|^{2}\right)$	防止过拟合，提高模型泛化能力

优化过程

步骤	数学表达	说明
求偏导	$\frac{\partial C}{\partial p_{uf}} = -2q_{ik} + 2\lambda p_{uk}$	对用户特征向量的梯度
	$\frac{\partial C}{\partial q_{if}} = -2p_{uk} + 2\lambda q_{ik}$	对物品特征向量的梯度
参数更新	$p_{uf} = p_{uf} + \alpha(q_{ik} - \lambda p_{uk})$	随机梯度下降更新用户特征
	$q_{if} = q_{if} + \alpha(p_{uk} - \lambda q_{ik})$	随机梯度下降更新物品特征

缺陷：

很难实现实时推荐，隐语义模型的训练需要在用户行为记录上反复迭代才能获得比较好的性能，因此模型的每次训练都很耗时，一般在实际应用中只能每天训练一次，并且计算出所有用户的推荐结果。

小结

请你思考以下问题：

简述基于用户的协同过滤推荐和基于物品的协调过滤推荐的原理。
用户A、B、C、D、E对商品1、2、3、4的评分记录如下表，请分别使用基于用户的协同过滤推荐和基于物品的协同过滤推荐预测用户D对物品3的评分。

冷启动

问题定义

使用协同过滤推荐算法时，新用户或新物品刚加入系统时、系统刚上线时，会因为行为数据的匮乏导致冷启动问题。如何在没有大量用户数据的情况下设计个性化推荐系统并且让用户对推荐结果满意，就是冷启动要解决的问题。

问题分类

冷启动问题分类：

用户冷启动：主要解决如何给新用户做个性化推荐
物品冷启动：主要解决如何将新的物品推荐给可能对它感兴趣的人
系统冷启动：主要解决如何在刚上线的系统上设计个性化推荐系统

用户冷启动

利用用户注册信息

在网站中，当新用户刚注册时，我们不知道他喜欢什么物品，于是只能提供非个性化的推荐，给他推荐一些热门的商品。但如果我们知道他是一位男性、今年28岁，那么就可以给他推荐这个年龄段的男性都喜欢的热门商品。虽然这种个性化的粒度很粗，但相对于非个性化推荐，这种推荐的精度已经大大提高了

用户注册信息分类

人口统计学信息：包括用户的年龄、性别、职业、民族、居住地等
用户兴趣的描述：许多网站会在用户注册时让用户勾选部分感兴趣的标签
从其他网站导入的用户站外行为数据：如果用户使用新浪微博、微信、QQ的账户登录，也可以在得到用户的许可下获取一些用户在新浪微博、微信、QQ的行为数据和社交网络数据。

基于用户注册信息的个性化推荐流程

获取用户的注册信息
根据用户注册信息对用户进行分类
给用户推荐他所属分类中用户喜欢的物品

实例：

从用户注册信息数据库中查询该用户的注册信息(性别：男、年龄：28岁、职业：物理学家)
查询计算好的离线相关表，可以得到：男性最喜欢的电视剧、28岁用户最喜欢的电视剧、物理学家最喜欢的电视剧
将查询出的电视剧列表按照一定权重相加，得到呈现给用户的最终推荐列表

选择合适物品启动用户兴趣

新用户第一次访问推荐系统时，不立即给用户展示推荐结果，而是给用户推荐一些物品，让用户反馈他们对这些物品的兴趣，然后根据用户反馈为用户提供个性化推荐。

选择物品的特点：

热门：要让用户对一个物品进行反馈的前提是用户知道这个物品是什么东西。
区分度强：启动用户兴趣的物品不能是老少皆宜的，这样的物品对用户的兴趣没有区分性。
多样性好：用户兴趣的可能性很多，我们需要提供具有很高覆盖率的启动物品集合，这些物品能覆盖大部分主流的用户兴趣。

物品冷启动

物品冷启动在新闻网站等时效性很强的网站中非常重要，因为那些网站中时时刻刻都有新加入的物品，而且每个物品必须能够在第一时间展现给用户，否则经过一段时间后，物品的价值就大大降低了。

基于用户的协同过滤算法的解决方法

将新的物品随机展示给用户
利用物品的内容信息，将新物品先投放给曾经喜欢过和它内容相似的其他物品的用户
激励或者雇佣少量用户对每一个新物品进行评分。

物品内容信息的表示

一般来说，物品的内容可以通过向量空间模型表示，该模型会把物品表示成一个关键词的向量。如果内容是文本的形式，则需要引入一些理解自然语言的技术抽取关键词，并计算每个关键词的权重，从而生成关键词向量。如果内容是电影，可以根据演员在剧中的重要程度赋予他们权重。

向量空间模型的优点是简单，缺点是丢失了一些信息，比如关键词之间的关系信息。不过在绝大多数应用中，向量空间模型对于文本的分类、聚类、相似度计算已经可以给出令人满意的结果。

系统冷启动

很多系统在建立的时候，既没有用户的行为数据，也没有充足的物品内容信息来计算物品相似度。这种情况下，很多系统都利用专家进行标注。

以Pandora电台为例，Pandora雇用了一批音乐人对几万名歌手的歌曲进行各个维度的标注，最终选定了400多个特征。每首歌都可以标识为一个400维的向量，然后通过常见的向量相似度算法计算出歌曲的相似度。

小结

请你思考以下问题：

用户冷启动问题有哪些解决方案？
基于用户的协同过滤可以如何处理物品冷启动问题？

个性化推荐的挑战

数据稀疏问题

现在待处理的推荐系统规模越来越大，用户和商品数目动辄上亿，两个用户之间选择的重叠非常少，淘宝网的数据稀疏度在百万分之一以下。数据非常稀疏导致绝大部分基于关联分析的算法（譬如协同过滤）效果都不好。这个问题本质上是无法完全克服的。

可将用户的年龄、国籍、性别等个人信息增加作为用户相似度计算的根据，称为基于人口统计学的过滤方法。

多样性与精确性的两难困境

如果要给用户推荐他喜欢的商品，最“保险”的方式就是给他特别流行的商品，因为这些商品有更大的可能性被喜欢。盲目崇拜精确性指标可能会导致用户的视野变得越来越狭窄，难以激发用户新的购物需求。推荐多样的商品与推荐的精确性之间存在矛盾，因为前者风险很大。

一种可行之策是直接对推荐列表进行处理，从而提升其多样性。

结束语

推荐系统作为信息时代的关键技术，已从早期的协同过滤演进至融合深度学习、多模态数据的智能体系，有效连接用户与信息，缓解信息过载问题。未来，随着强化学习、因果推理等技术的发展，推荐系统将更加注重多样性、可解释性与伦理公平性，致力于在准确预测用户兴趣的同时拓展其视野，最终成为理解需求、创造价值的智能信息伴侣。

#信息检索

推荐系统

http://youngzhang/2025/12/01/推荐系统/

作者

Zhang Young

发布于

2025年12月1日

许可协议

信息检索基础上一篇

可信度推理模型下一篇

推荐系统

推荐系统概论

推荐系统的基本概念

推荐系统诞生背景

推荐系统的非形式化概念

推荐系统的任务

推荐系统算法的本质

推荐系统的应用

推荐系统受欢迎的原因

其它信息过滤技术

推荐系统和搜索引擎的区别

小结

推荐系统评测方法

离线实验

用户调查

在线实验

实验方法总结

推荐系统评测指标

用户满意度

预测准确度

覆盖率

多样性

新颖性

惊喜度

信任度

实时性

健壮性

商业目标

小结

推荐系统模块

用户模块

用户建模的对象

用户模块的功能

用户建模前需要考虑的问题

用户建模的大致过程

存在的问题

推荐对象模块

推荐对象进行特征描述的方法

存在的问题：

推荐算法模块

基于内容推荐的算法思路

物品特征表示

文章特征表示（TF-IDF向量化方法）

小结

协同过滤推荐

用户行为数据简介

基于用户的协同过滤推荐

相似度计算方法

余弦相似度

皮尔逊相关系数

计算用户u对物品i的预测分值

1. 核心思想

2. 计算前提与定义

3. 预测公式

4. 符号说明

5. 公式解读

生成推荐列表

基于物品的协调过滤推荐

物品相似度计算

计算用户u对i的预测分数

生成推荐列表

例题

隐语义模型

小结

冷启动

问题定义

问题分类

用户冷启动

利用用户注册信息

用户注册信息分类

基于用户注册信息的个性化推荐流程

选择合适物品启动用户兴趣

物品冷启动

基于用户的协同过滤算法的解决方法

物品内容信息的表示

系统冷启动

小结

个性化推荐的挑战

数据稀疏问题

多样性与精确性的两难困境