基于深度学习的推荐系统综述 (arxiv 1707.07435) 译文 3.1 ~ 3.3

  • 时间:
  • 浏览:6
  • 来源:彩神11选5_神彩11选5官方

形式上,广度学习定义为: ,其中 是模型参数。 输入 是由原始输入形状 ,和变换形状 (类事,捕获形状之间的相关性的交叉乘积变换) 组成的连接形状集 。 深度1神经元的每一层否有 ,其中 表示 层, 是激活函数。 是权重和偏置。 通过融合你这些及 模型可不都要获得广度和深度1学习模型:

**图 3:**图示:(a)广度和深度1学习;(b)多视图深度1神经网络。

原文:Deep Learning based Recommender System: A Survey and New Perspectives (arxiv 1707.07435)

(8)

在CDL前一天,Wang等 [158]提出了八个 类事的模型,关系栈式去噪自编码器(RSDAE),用于标签推荐。 CDL和RSDAE的区别在于,RSDAE用关系信息矩阵替换PMF。 CDL的原来扩展是协同变分自编码器(CVAE)[89],它用变分自编码器代替CDL的深度1神经组件。 CVAE学习内容信息的概率潜变量,只是可不都要轻松地合并多媒体(视频,图像)数据源。

据我门都所知,基于自编码器的协同过滤(ACF)[114]是第八个 基于自编码器的协同推荐模型。 它否有使用原始的主次观察向量,只是通过整数评分对它们进行分解。 类事,机会评分分数是[1-5]范围内的整数,则每个 将分为八个主次向量。 与AutoRec和CFN类事,ACF的损失函数旨在减少均方误差。 然而,ACF有八个 缺点:(1)它无法避免非整数评分; (2)主次观测向量的分解增加了输入数据的稀疏性,愿因预测精度更差。

**图 2:**图示:(a)神经协同过滤;(b)深度1分解机。

(11)

AutoSVD ++ [196]利用收缩自编码器[122]来学习项目形状表示,只是将它们集成到经典推荐模型SVD ++ [79]中。 所提出的模型具有以下优点:(1)与你这些自编码器变体相比,收缩自编码器捕获无穷小的输入变化;(2)对隐式反馈进行建模,来进一步提高准确性;(3)设计了你这些有效的训练算法,来减少训练时间。

其中 是层 的权重矩阵和偏置向量, 代表皮 是超参数, 是用于选则观察置信度的置信参数[63]。图 5(左)说明了CDL的图模型。 作者利用EM风格的算法来学习参数。 在每次迭代中,首先它否有更新 ,只是通过固定 ,更新 。作者还介绍了你这些基于抽样的算法[161],来避免局部最优。

协同深度1排名(CDR) 。 CDR [188]专门为成对框架设计,用于 top-n 推荐。 你这些研究表明,成对模型更适合排名列表生成[120,177,188]。 实验结果还表明,CDR在排名预测方面优于CDL。 图 5(右)介绍CDR的形状。 CDR生成过程的第一和第二步与CDL相同。 第三步和第四步由以下步骤代替:

Alashkar等 [2]提出了基于MLP的化妆品推荐模型。 这项工作使用八个 相同的MLP分别为标记示例和专家规则建模。 通过最小化它们的输出之间的差异,一并更新你这些及 网络的参数。 它展示了采用专家知识指导MLP框架中推荐模型学习过程的效果。 即使专业知识的获取都要什么都 人的参与,它也是深度1精确的。

**表 3:**你这些基于自编码器的推荐模型的总结

为了提供该领域的全景图,我门都根据所采用的深度1学习技术的类型对现有模型进行分类。 我门都进一步将基于深度1学习的推荐模型分为以下两类。 表 1 总结了分类方案。

译者:飞龙

协同度量学习(CML) 。 CML [50]用欧几里德距离代替MF的点积,机会点积不满足距离函数的三角恒等性。 通过最大化用户与其不喜欢的项目之间的距离并最小化用户与其偏好项目之间的距离来学习用户和项目嵌入。 在CML中,MLP用于学习项目形状(如文本,图像和标签)的表示。

**图 5:**协同深度1学习(左)和协同深度1排名(右)的图模型。

其中 是sigmoid函数, 是二元评分标签, 是最后的激活。 该联合模型使用随机反向传播(follow-the-regularized-leader 算法)进行优化。 基于预测的分数生成推荐列表。

可不都要使用负采样措施 来减少未观测的训练实例的数量。 后续工作[112,134]建议使用成对排名损失来提高效果。He 等 [92,166]将NCF模型扩展到跨域推荐。 Xue 等 [184]和 Zhang 等 [195]表明,可不都要用交互矩阵的列或行替换单热标识符来保留用户项目交互模式。

(4)

CDAE最初使用SGD在所有反馈上更新其参数。 然而,作者认为在现实世界的应用中考虑所有评分是不切实际的,因买车我门都提出了你这些负采样技术来从负集合(用户那么了与之交互的项目)中抽取一小主次,这减少了时间僵化 度,但基本上那么了降低排名质量。

其中 是权衡参数,用于平衡你这些及 成分的影响, 是辅助信息, 是协同过滤模型的损失。 充当铰链,用于连接深度1学习和协同模型,以及将潜在因素链接到边信息。 在此框架的基础上,作者提出了基于边缘化去噪自编码器的协同过滤模型(mDA-CF)。 与CDL相比,mDA-CF探索了你这些计算深度1更高的自编码器变体:边缘化去噪自编码器[15]。 它通过边缘化损坏的输入,来节省搜索足够损坏的输入版本的计算开销,这使得mDA-CF比CDL更具可扩展性。 此外,mDA-CF嵌入项目和用户的内容信息,而CDL仅考虑项目形状的效果。

其中函数 代表多层感知器, 是你这些网络的参数。 传统的MF可不都要被视为NCF的八个 特例。 只是,将矩阵分解的神经解释与MLP融合来制定更通用的模型是方便的,该模型利用MF的线性和MLP的非线性来提高推荐质量。 可不都要使用加权平方损失(用于显式反馈)或二元交叉熵损失(用于隐式反馈)来训练整个网络。 交叉熵损失定义为:

**图 4:**图示:(a)基于项目的AutoRec;(b)协一并噪自编码器;(c)深度1协同过滤框架。

**图 1:**基于深度1神经网络的推荐模型的类别。

HRCD [170,171]是基于自编码器和timeSVD ++ [50]的混合协同模型。 它是你这些时间感知模型,它使用SDAE从原始形状中学习项目表示,旨在避免冷项目疑问。

Covington等 [27]探讨了YouTube推荐中MLP的应用。 该系统将推荐任务分为八个 阶段:候选生成和候选排名。 候选生成网络从所有视频语料库中检索子集(数百个)。 排名网络基于来自候选则的最近邻居分数生成 top-n 个列表(数八个)。 我门都注意到工业界更关注形状工程(类事变换,正则化,交叉)和推荐模型的可扩展性。

自豪地采用谷歌翻译

协一并噪自编码器(CDAE) 。 前一天回顾的八个 模型主要用于评分预测,而CDAE [177]主要用于排名预测。 CDAE的输入是用户的主次观测的隐式反馈 。 机会用户喜欢电影,则条目值为1,只是为0。它还可不都要被视为反映用户对项目的兴趣的偏好向量。 图 4b 说明了CDAE的形状。 CDAE的输入被高斯噪声破坏。 有损输入 是从条件高斯分布 中提取的。重构定义为:

神经协同过滤 。 在大多数情况下,推荐被视为用户偏好和项目形状之间的双向交互。 类事,矩阵分解将评分矩阵分解为低维用户/项目潜在因子。 构建双神经网络来模拟用户和项目之间的双向交互是很自然的。 神经网络矩阵分解(NNMF)[37]和神经协同过滤(NCF)[53]是八个 具有代表性的工作。 图 2a 显示了NCF架构。 让 表示辅助信息(类事用户买车人信息和项目形状),机会仅表示用户 和项目 的单热标识符。 评分函数定义如下:

(5)

**表 2:**特定应用领域中基于深度1神经网络的推荐模型。

将自编码器应用于推荐系统有你这些通用措施 :(1)利用自编码器学习瓶颈层的低维形状表示;机会(2)直接在重构层中填充交互矩阵的空白。 几乎所有的自编码器变体,类事去噪自编码器,变分自编码器,收缩自编码器和边缘化自编码器都可不都要应用于推荐任务。 表 3 基于所使用的自编码器类型总结了推荐模型。

(7)

这里 愿因它只考虑观测的评分。 可不都要通过弹性传播(收敛减慢并产生可比较的结果)或L-BFGS(限制记忆的Broyden Fletcher Goldfarb Shanno算法)来优化目标函数。 AutoRec的八个要点值得在部署前一天注意到:(1)I-AutoRec的性能优于U-AutoRec,这机会是机会用户主次观测向量的方差较大。 (2)激活函数 的不同组合将大大影响性能。 (3)适度增加隐藏单元大小将改善结果,机会扩展隐藏层维度使AutoRec要能更好地模拟输入的形状。 (4)上加更多层来形成深度1网络可不都要略微改进。

传统推荐措施 的神经扩展。 你这些现有的推荐模型基本上是线性措施 。 MLP可用于向现有RS措施 上加非线性变换并将其解释为神经扩展。

协议:CC BY-NC-SA 4.0

其中 是模型参数, 是平滑因子, 是用户视图的输出, 是活动视图的索引。 是视图 的输入域。 MV-DNN要能扩展到你这些域。 然而,它基于原来的假设:机会用户在八个 域中具有你这些品味,应该在你这些域中具有类事的品味。 直观地说,在你这些情况下,你这些假设机会是不合理的。 只是,我门都应该初步了解不同域之间的相关性,来充分利用MV-DNN。

MLP是八个 简洁但有效的网络,据证明要能以任何所需的准确度近似将任何可测量的函数[59]。 只是,它是你这些先进措施 的基础,只是在你这些领域中被广度使用。

用MLP学习形状表示。 使用MLP进行形状表示非常简单且高效,即使它机会不像自编码器,CNN和RNN那样具有表现力。

用自编码器学习形状表示。 自编码器是一类功能强大的形状表示学习措施 。 只是,它还可不都要用在推荐系统中以从用户/项目内容形状学习形状表示。

其中 是辅助信息, 表示 的连接。 结合辅助信息可提高预测准确性,加快训练过程并使模型更加健壮。

表 1 列出所有回顾的模型,我门都按照上述分类方案组织它们。 此外,我门都还在表 2 中从任务深度1总结了你这些论文。 回顾的论文涉及各种任务。 机会使用深度1神经网络(类事基于会话的推荐,图像,视频推荐),你这些任务已开始了了受到关注。 你这些任务对于推荐研究领域机会并非新颖(用于推荐系统的辅助信息的删改回顾可不都要在[131]中找到),但DL提供了更多找到更好避免方案的机会性。 类事,机会那么了深度1学习技巧的帮助,避免图像和视频将是一项艰巨的任务。 深度1神经网络的序列建模功能可不都要轻松捕获用户行为的序列模式。 你这些具体任务将在下文中讨论。

Lian 等 [93]通过提出八个 eXtreme深度1分解机来一并模拟显式和隐式形状交互,从而改进了DeepMF。 通过压缩交互网络学习显式高阶形状交互。 He等提出的并行工作 [54]取代了与MLP的二阶交互,并建议使用dropout和batch normalization对模型进行正则化。

其中 表示用户节点的权重矩阵(见图 4B)。 该权重矩阵对于每个用户是唯一的,只是对模型性能具有显着影响。 通过最小化重构误差也可不都要学习CDAE的参数:

通过扩展你这些模型,Chen 等 [13]为大规模的工业级推荐任务设计了八个 局部连接的广度和深度1学习模型。 它采用高效的局部连接网络来取代深度1学习成分,从而将运行时间减少八个 数量级。 部署广度和深度1学习的八个 重要步骤是选则广度和深度1主次的形状。 换句话说,系统应该要能选则有哪些形状被记忆或概括。 此外,还都要手工设计交叉乘积变换。 有有哪些预先步骤将极大地影响该模型的效果。 上述基于深度1因式分解的模型可不都要减少形状工程的工作量。

(3)

其中 是S形激活函数。

协同深度1学习(CDL) 。 CDL [159]是你这些分层贝叶斯模型,它将栈式去噪自编码器(SDAE)集成到概率矩阵分解中。 为了无缝地结合深度1学习和推荐模型,作者提出了八个 通用的贝叶斯深度1学习框架[161],它由八个 紧密结合的成分组成:感知成分(深度1神经网络)和任务特定成分。 具体而言,CDL的感知成分是普通SDAE的概率解释,PMF充当任务特定成分。 你这些紧密结合使CDL要能平衡辅助信息和交互历史的影响。 CDL的生成过程如下:

(2)

深度1协同过滤框架 。 它是使用协同过滤模型[88]来统一深度1学习措施 的一般框架。 该框架可不都要轻松利用深度1形状学习技术来构建混合协同模型。 上述工作如[153,159,167],可视为该一般框架的特例。 形式上,深度1协同过滤框架定义如下:

在本节中,我门都首先介绍基于深度1学习的推荐模型的类别,只是突出最先进的研究原型,旨在选则近年来最显着和最有希望的进步。

Muli-VAE和Multi-DAE [94]提出了你这些变分自编码器,用于推荐隐含数据,展示出比CDAE更好的性能。 作者介绍了你这些用于参数估计的原则性贝叶斯推理措施 ,只是展示出比常用似然函数更好的结果。

深度1分解机 。 DeepFM [47]是你这些端到端模型,可无缝集成分解机和MLP。 它要能使用深度1神经网络和与分解机的低阶交互来建模高阶形状相互作用。 分解机(FM)利用加法和内积运算来捕获形状之间的线性和成对相互作用(更多细节参见[119]中的公式(1))。 MLP利用非线性激活和深度1形状来模拟高阶交互。 MLP与FM结合的措施 受到广度和深度1网络的启发。 它用分解机的神经解释取代了宽的分量。 与广度和深度1模型相比,DeepFM不都要繁琐的形状工程。 图 2b 说明了DeepFM的形状。 DeepFM的输入 是八个 个领域的数据,由 对组成(用户和项目的身份和形状)。 为简单起见,FM和MLP的输出分别表示为 。 预测得分通过以下公式计算:

基于深度1语义类事度的个性化推荐(DSPR) [182]是标签感知个性化推荐器,其中每个用户 和项目 由标记注解表示并映射到公共标记空间。 余弦类事度 用于决定项目和用户的相关性(或用户对项目的偏好)。 DSPR的损失函数定义如下:

基于自编码器的协同过滤。 其中八个 成功的应用是从自编码器的深度1考虑协同过滤。

(10)

其中损失函数 可不都只是平方损失或 logistic 损失。

其中 是从负面用户项目对中随机抽样的负样本。[183]的作者使用自编码器进一步改进DSPR,来从用户/项目资料中学习低维表示。

多视图深度1神经网络(MV-DNN) [39]专为跨域推荐而设计。 它将用户视为透视视图,每个域(假设我门都有 个域)作为辅助视图。 显然,对于 个用户域对,有 个类事度得分。 图 3b 展示了MV-DNN的形状。 MV-DNN的损失函数定义为:

(1)

其中 表示用户对项目 和项目 的偏好的成对关系, 是八个 置信度值,表示比起项目 用户多么 喜欢项目 。优化过程与CDL相同。

(6)

CFN [136,137]是AutoRec的扩展,具有以下八个 优点:(1)它采用了去噪技术,使CFN更加健壮;(2)它结合了诸如用户资料和项目描述类事的辅助信息,来减轻稀疏性和冷启动影响。 CFN的输入也是主次观测向量,只是它否有你这些变体:I-CFN和U-CFN, 分别作为输入。 掩蔽噪声是正则化器,用于更好趋于稳定理缺失元素(它们的值为零)。 作者介绍了你这些广泛使用的破坏措施 来破坏输入:高斯噪声,掩蔽噪声和椒盐噪声。 CFN的进一步扩展还蕴含辅助信息。 然而,CFN否有仅仅在第一层中结合辅助信息,只是在每一层中注入辅助信息。 只是,重构变为:

深度1形状化语义模型的推荐。 深度1形状化语义模型(DSSM)[65]是八个 深度1神经网络,用于学习常见连续语义空间中实体的语义表示,并测量它们的语义类事性。 它广泛应用于信息检索领域,非常适合 top-n 推荐[39,182]。 DSSM将不同的实体投射到八个 一并的低维空间中,并用余弦函数计算它们的类事性。 基本的DSSM由MLP组成,因买车我门都将其插进本节中。 请注意,更高级的神经层(如卷积和最大池层)也可不都要轻松集成到DSSM中。

**表 1:**已回顾论文的查找表。

(9)

广度和深度1学习 。 你这些通用模型(如图 3a 所示) 可不都要避免回归和分类疑问,但最初在Google Play的App推荐中引入[20]。 广度学习成分是单层感知器,也可不都要视为广义线性模型。 深度1学习成分是多层感知器。 结合这你这些学习技术的基本原理是,它使推荐系统要能捕获记忆和概括。 广度学习成分实现的记忆,代表了从历史数据中捕获直接形状的能力。 一并,深度1学习成分通过产生更一般和抽象的表示,来捕捉泛化。 该模型可不都要提高推荐的准确性和多样性。

AutoRec [125]使用用户主次向量 或项目主次向量 作为输入,旨在在输出层重构它们。 显然,它有你这些变体:基于项目的AutoRec(I-AutoRec)和基于用户的AutoRec(U-AutoRec),对应于你这些类型的输入。 在这里,我门都只介绍I-AutoRec,而U-AutoRec可不都要相应地轻松派生。 图 4a 说明了I-AutoRec的形状。 给定输入 ,重构是: ,其中 是激活函数, 是参数。 I-AutoRec的目标函数如下: