港科大KDD 2017录用论文作者详解:基于异构信息网络元结构融合的推荐系统 – 酷辣虫

冯雷网 (播音):冯雷网 AI 科学与技术评论按:在KDD 2017上,香港计算机科学系博士生赵欢博士论文 Meta-Graph Based Recommendation Fusion over Heterogeneous Information Networks 被 research 下列的收执并属于或忧虑嘴的举报。冯雷网 AI 科学与技术复查诱惑,缅甸三亚磨丁赌场冯雷网独家供稿,分享了和谐任命仔细考虑的后室理念。、算法陷害及试验产物。

作者绍介

本文次要绍介。 KDD 2017 忧虑新郎零碎的论文:「Meta-Graph Based Recommendation Fusion over Heterogeneous Information Networks」 这篇论文是由KDD写的 2017的research 下列的收执并属于或忧虑嘴的举报(录取率)。作者包含:

  • 最早作者赵欢,香港中学计算机科学系博士生,仔细考虑取向是异构体系与新郎零碎;

  • 以第二位作者姚全明,香港科学与技术中学计算机科学博士,仔细考虑取向是机具详细地检查优化组合算法仔细考虑,2016 Google Fellowship 胜利者;

  • 第三作者李建达,香港科学与技术中学硕士仔细考虑生,卒业于上海交通中学。

  • 第四的作者宋阳秋,香港科学与技术中学助手小阳春,仔细考虑取向是知身负重担的人、译本从科学实验中学会的价值开掘与自然语言处置;

  • 第五作者李迪林,香港科学与技术中学小阳春,仔细考虑取向是人检索,新郎零碎,羔羊皮从科学实验中学会的价值管理」。

后室思惟

在这样地人突然的总是,新郎零碎不但可以帮忙用户获取感趣味的人,同时,它可以引起宏大的经济价值。,眼前,追赶入洞穴各大互联网网络公司大城市有特殊的记载。,针对增大其事实能力。

经外传说新郎规定,最公共用地的方法是组成俱乐部过滤。,典型的加盖于执意本人在电商网站瞧的「够支付该商品的用户也够支付了/也在看」。 和谐过滤方法普通有两种,鉴于用户和鉴于商品的组成俱乐部过滤,和矩阵表决 (矩阵 因式表决。 以前 2007 年 Netflix 自百万奖新郎零碎大赛以后,矩阵表决越来越流传。但矩阵表决可以归因于上等的的新郎产物,但也有不同的的成绩。:

  • 1)稀少性。在现实生活中,评分矩阵通常正是稀少。,因孤独地罕见的乘积是由每一用户评分的。;

  • 2)冷启动 开端)。新使变成的用户和乘积通常不罪状。。

矩阵表决的预测严守基准的将受到坟墓印象。

而且这两个根本成绩,矩阵表决有每一更坟墓的成绩:很难西装眼前的新郎规定。。因眼前的新郎零碎需求处置的不但仅是,这是各式各样的各样的人 Side 人),拿 … 来说,荷重形容,图片,用户的情谊等。。本人可以一下子看到相片。 1 的加盖于,这是 Yelp 上对开的纸餐厅定约雇用。

alt

图 1:Yelp 详细人页,Royal House

从图解中,本人可以一下子看到,而且评分人,和餐厅的投资。,用户上传的数据的图片,评论和以此类推人。显然,在向用户新郎餐厅的历程中,掌握这些人都正是要紧。,尽管它们很难集成到现存的的矩阵表决M中。。因而,本人需求每一新的陷害来处理这样地成绩。。这是本人的工夫。 KDD 任命的后室理念: 「本人用 HIN 来对 side information 举行建模,同时,设计了每一无效的算法陷害。,为了取得反而更的新郎归结为。

算法陷害

准备知

异构人体系 (Hetegeneous Information Network 以下略语 欣),是由 UIUC 的 Han Jiawei 和 UCLA 的 Sun Yizhou 在 2011 年的 VLDB 本文最早次 [1]。

简略了解,HIN 这是每一有向图。,图击中要害混合词和边可以有不同的的典型,如下图,是从下面来的。 Yelp 已学会详细人页 HIN。混合词可以表现不同的典型的本质,譬如 user, review, restaurant 等, 溢出表现不同的典型的相干,譬如 Check-in, Write, Mention 等。

alt

应用 HIN,本人可以做各式各样的事实。 side information 一致起来,下一步本人会教你怎样做 HIN 在此陷害内结束本人的新郎工序。

从meta-path到meta-graph

在Sun 在宜州的VLDB2011论文中,而且提议HIN,同时,还打算了元条理。,计算两个混合词经过的相像性。元条理是混合词的序列,混合词和混合词由不同的典型的边衔接。,这是不同的的相干。。

拿 … 来说,上图的hin,本人可以设计它。元条理:

alt

这平均数两个用户在同一家餐厅登录。。

本人可以学会元条理的每一例子:

alt

而且本人可以测它。 alt 和 Bar Louie 它们经过的相像性,当有更多的元条理例子需求衔接时 alt 和 Bar Louie,它们它们经过的相像性就越大,本人也可以给 alt 新郎 Bar Louie。本人可以找到,这条 meta-path 它对应于熟识的鉴于用户的组成俱乐部过滤。,也执意说常常此中。 Royal House 居民也会去。 Bar Louie。

从这样地加盖于中本人可以一下子看到,助动词=have新郎零碎,hin和meta-path有两个赢得:

  • 1) 圆房地放置不用各式各样的正面 人被集成到每一一致的花样中;

  • 2)应用元条理,可以设计各式各样的新郎谋略,而且增大提议的准确,它还供给了可解说性。

自然,忧虑计算混合词相像性的任命,元条理有完全地的成绩:无法处置复杂相干。拿 … 来说,两个用户经过有以下衔接。

alt

图对应的加盖于, altalt 使分开给 Royal House 写评论。,不但授予五星级旅馆的高气压赞美,评论中还提到了在这一点上的海产食品。,可谓,这两个用户对菜馆的优先权正是批准。但此中批准,meta-path 它无法建模。。为了处理这样地成绩,有两份包装 ( KDD 16 [2] 和 ICDE 16 [3]) 打算了一种更市价的机构。 meta-graph(也叫 元机构)。相形 meta-path 问必须做的事是 sequence 的机构,meta-graph 但愿问起源和起点,位于正中的机构不受限度局限,这非常增大了柔韧性。。因而,在本人 KDD 论文中,本人采取了 meta-graph 此中的机构,来计算用户和商品它们经过的相像性。在实践中,本人可以设计它。 alt 条 meta-graph,那么归因于多种商品和用户它们经过的相像性,也执意 alt 七批准矩阵。

新郎工序 矩阵表决 + 表决行列式机(Factorization 机具)

经过Hin和Mega图解,本人圆房地把各式各样的各样的边 人被一致成每一陷害。下每一成绩是多少设计反而更的新郎算法?。在这样地论文里,本人用过MF。 + 频率调节陷害,简略来说: 使分开对 alt 七批准矩阵举行矩阵表决,归因于 alt 群体用户和商品的隐性现象特点,而且把掌握的特点放紧随其后。,应用表决行列式机举行锻炼和分预测。

助动词=have范本,也执意说,用户商品对,本人可以独自买。 alt 组特点,每组的量纲为 alt (在矩阵表决的境遇下,本人把军阶定为 alt )。因而本人可以在下图中列出里面的每一维度。 alt 的特点向量。

alt

Factorization Machine (频率调节) [4] 是 2010 年在 ICDM 打算了一种新的花样。,因特点经过的高阶相干可以建模。,二阶限制因素的低位表决,因而,评分预测的新郎任命早已取慢着上等的的归结为。。在实践中,本人通常应用二阶相干。:

alt

里面的, alt 它是一阶限制因素。, alt 它是每一二阶限制因素。。为了详细地检查 altalt ,本人用过 Least Squared loss:

alt

特点选择: Group Lasso

普通在 FM 在修整历程中,它常常添加 altalt 戒极度的创立的章程条目,最经用的是 alt 。尽管,在本人任命中,因本人可以设计很多乐曲。 meta-graph,责备每每必然约雇用 meta-graph 掌握效用,自动地选择效用 meta-graph,本人废了。 alt ,并选择 alt ,也叫做 group lasso。在本人算法陷害中,本人是鉴于 meta-graph 用单位构造的用户和商品的隐含特点,因而,每条 meta-graph 对应一群体用户和商品的隐性现象特点。条目一次 meta-graph 没效用,而且可能截它对应的一组特点。,本人执意这样用的。 group lasso 做章程定约雇用的动机。

应用 group lasso 时限后,目的有或起作用优化组合变成每一非凸非凸成绩。, 非牛棚成绩,本人用过附近梯度算法(proximal 求解它的梯度算法。

这这是本人的算法。陷害。,接下来,本人将经过少量地试验产物。,证实本人算法的优点。

试验产物

从科学实验中学会的价值集和评价基准

本人用过 Yelp 和 Amazon 这两个从科学实验中学会的价值集,两者都都是正是佛经的新郎零碎从科学实验中学会的价值集。,同时,它还有使富裕的 side information。从科学实验中学会的价值的详细统计从科学实验中学会的价值,看一眼本人的论文。,这执意本人习惯于的。 meta-graph,如下图。在 Yelp 上,本人设计了它。它。 9 条 meta-graph,在 amazon 上,本人设计了它。它。 6 种 meta-graph。

alt

在新郎零碎中,本人通经用它。 alt 评价评分预测的集中的,提议越小,提议越好。。

alt

里面的, alt 这是现实得分。, alt 这是每一预测分。, alt 是 test set 的总计。

新郎归结为

在试验中,本人将其与少量地经用的方法举行了比较地。,包含矩阵表决和鉴于Hin的方法。详细产物如下图:

alt

上图,RegSVD 和 FMR 鉴于矩阵表决的方法,HeteRec [5] 和 SemRec [6] 使分开是 WSDM14 和 CIKM15 下面两篇论文,在 HIN 上用 meta-path 来举行新郎,FMG 这是本人的算法。。在一边,CIKM-Yelp 和 CIKM-Douban 两个从科学实验中学会的价值集是 CIKM15 的作者 Shi Chuan 供给给本人。依据上图,本人有以下显示证据:

忧虑掌握从科学实验中学会的价值集,FMG 打败了掌握的方法,新郎归结为有不同的依序排列的增大,证实了该算法的无效性。。

在 CIKM-Yelp 和 CIKM-Douban 这两个从科学实验中学会的价值集,本人应用和 CIKM15 相等地的 meta-path,依然实现预期的结果 和 的升降机,增进的证实是 HIN 在此陷害内,本人新郎的算法的无效性。

以两种方法,鉴于 HIN 的方法中,本人显示证据 SemRec 比 HeteRec 归结为上等的。。除掉新郎算法的特色,每一要紧的区莫,在 SemRec 中,作者设计 U→∗←U→B 以这种齐式 meta-path,而在 HeteRec,作者应用 U→B←∗→B 以这种齐式 meta-path。在本人算法中,到底的选择是无效的 meta-graph,他们集中的是 U→∗←U→B 这种齐式。这样地显示证据很风趣。,产物暗示,经过用户组成俱乐部的新郎产物是。这一显示证据也契合现实生活。,本人有感趣味的商品或菜馆。,而且趣味完全地,通常境遇下,它是经过在。这可以转移解说。 SemRec 好于 HeteRec。

除新郎归结为比较地外,本人做了很多以此类推的试验。,感趣味的准教授职位可以视力本人的论文。,本人不要在在这一点上议论项目。。

总结

到底,对本人的论文做每一要点摘录的总结。。近些年,鉴于羔羊皮互联网网络和大从科学实验中学会的价值的开展,眼前,新郎规定表面着使富裕的一面。 人眼镜,经外传说的鉴于矩阵表决的方法很难实现预期的结果。,鉴于人工设计的特点工程是正是麻烦的。。经过Hin和元图,本人供给了每一简略无效的陷害。,它可以正是机敏地应用正面。 增大新郎无效性的人,同时,手工设计的元图也可以用来保持不变要素的扫描电子显微镜。,那么对新郎产物供给必然的「可解说性」。经过试验,本人还证实了该陷害的无效性。。

本文的行为准则和从科学实验中学会的价值也已在Github上解除。: 。

参考文献

  1. Sun Yizhou et.al., PathSim: Meta 鉴于条理 Top-K Similarity Search in Heterogeneous Information 体系。 VLDB 2011

  2. Huang Zhipeng et.al., Meta Structure: Computing Relevance in Large Heterogeneous Information 体系。 KDD 2016

  3. Fang Yuan et.al., Semantic Proximity Search on Graphs with Metagraph-based 详细地检查。 ICDE 2016

  4. Rendle et.al., Factorization 机具。 ICDM 2010

  5. Yu Xiao et.al., Personalized Entity Recommendation: A Heterogeneous Information Network 方法。 WSDM 2014

  6. Shi Chuan et.al., Semantic Path based Personalized Recommendation on Weighted Heterogeneous Information 体系。 CIKM 2015

冯雷网特殊奉献,未必鉴定合格制止重印。定约雇用见。 重印阐明 。

发表评论

电子邮件地址不会被公开。 必填项已用*标注