京东在数据挖掘方面对推荐技术的优化

所属分类: 网站运营 / 网站优化 阅读数: 62
收藏 0 赞 0 分享

京东集团高级副总裁张晨总结:京东是一家以互联网科学引领的网络零售企业,零售是它的基因,而零售最根本的是要给用户做好服务,京东可以通过技术手段把服务体验提升更多。

物流已经成为京东的核心竞争力,在今年618大促期间,有大量的商品实现了当日达,要让物流更快可以通过大数据的方式来实现,例如对某个居住小区的消费偏好进行分析,可以预先判断哪些商品最畅销,把商品放在小区附近的配送站,当有消费者下单,便可实现配送,这样能提升用户体验。

提升用户体验的第二方面,是在大数据的基础上实现的精准推送。零售企业对商品是否畅销的一个判断是周转率,而京东要实现提升周转率便是对商品的精准推送,“千人千面”产品体现的是这样的思路,京东商城研发部“推荐搜索部”刘尚堃表示:“在当前推荐位的情况下,再提升40%、50%的效能是能做到的,因为京东个性化首页产品上线的时间并不长。”

张晨认为,数据量越大,后发的价值越大,因为京东的商品大多数属于自营,货品有来源、质量有保障、交易是真实的,这些让京东成为“中国互联网企业里数据最好的公司之一,用这些优质的数据反过来服务好用户,可挖的细节太多,是一件做不完的事情。”


京东的数据主要两大类,用户行为数据和基于内容的数据。京东会根据用户的行为数据构建用户画像,比如是不是有小孩,是不是男性,在京东的生命周期怎么样,促销的敏感度如何,在家还是单位购物多,购买率的等级是什么?京东会根据用户的行为做推荐,这大多是通过离线数据计算的。此外,系统还会根据用户的实时行为进行推荐,比如判断出用户喜欢浏览牙刷的品类,喜欢电动牙刷,而且偏好声波类电动牙刷。

通过“共现矩阵”的办法,京东推荐系统可以度量商品到商品的、用户到用户的商品、商品到商品的相似指数。比如用户对某个商品的分值比较高,浏览的分值比较高,购买的分值更高。通过这些办法,可以找到比较贴近其需求和爱好的产品推荐给消费者,在这些基础算法之外,京东还会应用高级算法提升推荐的效果。

京东还会通过一些模型进行推荐,比如用户的购买力模型、周期商品购买模型、LDA模型等。例如,京东现在有大量第三方商家,会存在有“一品多商”的问题,京东就会用图片相似等方法做过滤。

在排序上,京东会进行两级预估,先预估CTR(点击率),再预估CVR(转化率),由此进行排序。这是如何实现的呢?对于任何一个商品,京东都认为它具备品牌、中心词、类目、扩展属性等指标,可以用销售量来度量。每个商品和商品之间有一张购买的网,每个商品的pagerank也可以使用,这个指标不但考虑了数量问题,还考虑了网状关系,考量的指标还有评论数、好评度、浏览深度等。拿一个实际的例子来说,如果某用户购买产后塑身产品,那么孕妇装虽然有关联度,但这种关系会被剧烈地降低权重,因为逻辑上是先怀孕后生产再塑身。

京东个性化与排序平台部高级总监邹宇分享了对冷启动用户的处理方法。所谓的“冷启动”是指一个新用户,系统中没有他的行为数据。这个时候,京东做法就是根据人以群分的归类法则。比如基于社交关系推荐。当然如果这些没有,可能找更粗的人群分群的方式,比如性别、年龄、地域。当然最极端的情况下,完全没有,那就根据最近的热点进行类别多样化精选推荐的策略,把每一类当下最流行的商品拼在一起推荐给新用户去看,这其实是试探的过程,然后根据用户的交互反馈,慢慢向用户主信息上收敛。

重视实验与监控迅速确认算法优劣

京东推荐平台部总监刘思喆介绍,在推荐系统中,京东非常重视实验与监控。京东是算法和架构分离,架构可以管顶层工程,算法就是每天尝试各种各样的特征、数据、规则,以及流量最终的效果怎么样。

京东推荐的实验系统采用了外部的页面配置。流量实时生效,而且流量比例是可以任意分配的。简单修改某一个线上实验,它的流量就可以实现秒级线上更新,第二天甚至实时可以看到结果。京东的分流策略常用两种,第一种是随机,每次刷新看到的结果可能都不一样,比如十组实验,每一版都是10%的概率呈现;第二种就是相对固定,一旦看到第一次结果之后,就保证你以后看到的结果都是这个样子。京东的实验系统支持版本回溯,算法工程师一旦出现误配,可以找回相关的版本和权限。

除了实时实验之外,京东实验系统同样有离线debug平台支持,输入参数可以是一个或多个SKU,也可以是类,进行不同实验的结果召回,定位不同实验的效果。这样算法工程师可以通过自测几个小的例子,迅速找到自己的算法,在没有切流量之前问题在哪,或者到底好在什么地方。

持续优化迭代提升推荐系统价值

刘思喆认为,算法优化必须逐步迭代。不可能忽然上一个很牛的算法保证效果提高50%,工程师之间的相互交流有助于提高算法优化效果。

而通过数据的挖掘,京东也会发现,某些用户从来不点任何推荐,不点任何广告,也就是对这个东西完完全全不感冒。那可能京东也有可能对该用户隐藏推荐系统。“用户如果能深度地参与到推荐系统里面来,当然可能是无意识的,这时推荐系统才真正做到了极致。”

邹宇认为,京东大数据的价值越来越大。举例来说,互联网展示广告的点击率通常能到千分之一就不错了,转化率更低,通常是万分之几。但京东的搜索转化率高于这种广告转化率的几个数量级,因此,京东的数据会有越来越高的价值,京东的推荐系统在推动业务成长方面的作用也将越来越重要。

更多精彩内容其他人还在看

快速更新网站内容的几种方法

自从有了CMS现在做个网站是件非常简单的事,网站的运作的中心是日常的网站内容更新和长期网站推广。其中网站内容的快速更新是重中之重,今天笔者来分享一下快速更新网站内容的几种方法。希望能为站长们更新网站内容提供一些帮助。 1、内容采集 内容采集是最直接的方法,采
收藏 0 赞 0 分享

Google给广大网站的搜索引擎优化(SEO)建议

为了把Google中文搜索本土化Google官方也确实做了大量的工作,其中在(网站管理员/站长)这块文章丰富了不少,作为营销爱好者笔者经常关注拜读之余也摘录一些自认为比较有价值的内容供大家参考。今天和大家分享的是:Google给广大网站的搜索引擎优化(SEO)建议。文章内容如下
收藏 0 赞 0 分享

创建一个方便Google处理的网站的详细建议

这又是一篇来自Google的文章,再继续发下去很多朋友会问我为什么又转搜索引擎的东西了。其实个人认为Google网站管理员/站长帮助里头还是很多精华的,例如:今天将要转载的这个(创建一个方便Google处理的网站的详细建议)就写得非常好。废话不多说了,下面来分享下创建一个方
收藏 0 赞 0 分享

排除法解决网站在搜索过程中表现不佳的现象

搜索引擎排名机制异常的复杂和严密,直接导致很多网站内容发布出来在搜索引擎的搜索结果表现不佳的现象,种现象一直困扰着很多站长。今天笔者给大家介绍一种比较有效的解决方法:排除法解决网站在搜索过程中表现不佳的现象。 这个排除法的步骤如下: 一、查看您的网站是否被
收藏 0 赞 0 分享

百度 google分别喜欢什么样的友情链接

友情链接对搜索引擎的重要性我就不说了,你去看下只要是做优化的网站几乎都是有友情链接。我发现一些做seo的公司,给客户优化网站的时候纯属就是靠友情链接,雇专门的友情链接专员来进行优化。但是这样做你真的有效果吗,我看到过一些网站,页面上几乎三分之一的页面是友情链
收藏 0 赞 0 分享

浅析网站首页的广告形式

一般而言,由于互联网用户在刚登录某网站时,会看到各种各样的广告。这些广告杂乱无章,因此,大多数的标语用户很容易看过就忘。行为追踪就是防止这种情况发生的方法之一,从而使得广告与用户的生活和目前的精神状态相关的机率更大。或者,您也可以采取不那么敏感的方式使广
收藏 0 赞 0 分享

友情连接与SEO的关系

外连的多少是SE判断一个网站质量的好坏的最基本的标准,谷歌的PR值,百度的超连分析技术等都是以连接网页的数量的多少来决定一个网页的质量的。相对,网站做友情连接,也是以这点为出发点的。但是,友情连接质量的高低往往会起到影响网站排名的关键性作用。因次,我们必须在
收藏 0 赞 0 分享

一个网站的好坏是网民说了算还是PR说了算

大概每一季度的PR更新,都能在站长界引起一阵不大不小的地震,谷歌在2009年端午节这一天,更新了其旗下品牌的PR值,让很多站长觉得这是谷歌在中国的传统节日端午送上的大礼。 谷歌也真够有心的了,偏偏在端午那一天与大家“意思意思”,PR值,对于广大的站长确
收藏 0 赞 0 分享

网站成功的必备条件分析小结

托尔斯泰有句名言:“幸福的家庭都是相似的,不幸的家庭各有各的不幸”。引申到建站方面,即“成功的网站都是相似的,失意的网站各有各的不幸”。 那么,网站的成功,都有哪些相似之处呢?网站成功需要哪些重要因素呢? 有人会说技术最重要
收藏 0 赞 0 分享

网站运营推广中的内容策略浅谈

一、提升流量的内容策略 提升流量(PV)的关键是什么呢?很简单,让用户大量点击网站的页面,阅读网站的内容。浏览的页面多了,流量自然就上去了。那如何才能增加用户的点击行为呢? 1、根据用户喜好,增加相应的文章数量。注意,这里说的文章,是指用户喜欢的内容。 2
收藏 0 赞 0 分享
查看更多