简介Hadoop集群技术在优酷土豆的应用

所属分类: 网站运营 / 建站经验 阅读数: 118
收藏 0 赞 0 分享

  为了更好的实现个性化视频推荐,2009年,优酷土豆开始使用Hadoop大数据平台来进行数据的分析及挖掘。起初整个平台平台只有十多个节点,而到2012年集群节点已经达到150个,2013年更是达到了300个。但是随着数据量的急剧增加以及业务的迅猛发展,每天优酷处理的数据量已突破200TB,优酷土豆的技术人员发现一些场景并不适合利用MapReduce进行处理。
  优酷土豆的大数据平台已使用多年,核心业务数据量的增长与数据处理速度的失衡成为优酷土豆Hadoop大数据平台的一大瓶颈。这个问题主要表现在三个方面:首先,在BI方面,分析师提交任务后需要等待很久才得到结果。其次,在进行一些模拟广告投放之时,在调优、筛选方面的计算量十分大,对计算效率的要求也较高,用Hadoop消耗资源过大而且响应较慢。同时,MapReduce在机器学习和图计算的迭代运算方面不仅需要耗费大量资源,处理速度也不尽人意。
  优酷土豆集团大数据团队大数据平台架构师傅杰介绍道:“虽然很多互联网企业都在用MapReduce来处理自己的业务,但是由于优酷的视频量大概在2亿的级别,视频的关系量目前在10亿的级别,这个级别的数据量利用MapReduce来计算CPU资源消耗比较高,而计算效率比较低,单纯依靠MapReduce框架已经无法满足视频推荐、广告投放效果预估等情景对实时性和准确性的要求。”

  
优酷土豆如何打造Hadoop平台
  目前傅杰老师主要负责优酷土豆集团大数据基础平台建设,以支撑集团其他业务团队的存储与计算需求,包含Hadoop平台、日志采集系统、实时计算系统、消息系统以及天机镜系统等。据了解,Hadoop平台在优酷的发展,主要有以下几个阶段:
  平台搭建期:这个阶段主要解决一些技术问题,比如安全问题、整体规划,以及制定相关流程;
  平台发展期:这个阶段主要是在集团内部进行推广,伴随着会遇到各种各样的需求,以及解决各种各样的问题,修正相关流程,使平台进入一个稳定、高可用的水平;
  平台稳定期:这个阶段主要是从优化资源入手,内部培训调优作业,统计资源消耗合理性,构建自动化优化流程。
  “现阶段我们主要在调研Hadoop1.X 到Hadoop2.0的升级方案,预计明年初对Hadoop进行升级。今年我们也搭建了基于Storm的实时计算平台、kafka消息系统,推广到集团的线上业务中,也逐步流程化的运营起来了。”傅杰老师介绍说。
  新手如何入门Hadoop?
  据傅杰老师介绍,目前Hadoop在国内有很好的发展态势,各大企业对Hadoop的需求也比较旺盛,同时,应用Hadoop的行业也越来越多。但目前存在的问题是,Hadoop的优秀技术人才比较短缺。那么对于想踏入Hadoop领域的新手来说,应如何入门呢?
  傅杰老师给出的建议是:
  1.经常关注Hadoop官方网站;
  2.深入了解Hadoop原理,比如HDFS、MapReduce。并思考目前所在企业哪些应用可以用Hadoop解决;
  3.阅读Hadoop相关书籍。据悉,目前傅杰老师翻译的《Hadoop实战手册》将在年底出版,这本书也很适合新手阅读;
  4.搭建环境实战,比如可以试着跑一个wordcount。


和英特尔一起Spark/Shark
  为此,优酷土豆在英特尔公司的帮助下率先尝试了Spark/Shark内存计算框架来解决多次迭代以及复杂的算法。以计算实力著称的英特尔,在项目中在软件优化、方案设计、Scala语言培训等方面给优酷土豆提供了多方面的帮助,以过硬的软实力及对整个行业的深入洞察,与优酷土豆的需求不谋而合。
  作为典型的互联网公司,优酷土豆大数据平台主要应用在广告、日常报表、推荐系统等核心业务上。随着对低延时的、实时要求很高的应用场景的增多,Spark/Shark在快速报表,交互式查询,做Ad-hoc的查询的表现,机器学习以及迭代式算法方面的优越性吸引了优酷土豆。Spark/Shark可每次将弹性分布式数据集(RDD)操作之后的结果存入内存中,下次操作可直接从内存中读取,省去了大量的磁盘IO,效率也大幅提升。
  在瞬息万变的互联网市场,用户的个性化需求越来越多,而将Spark/Shark集成到优酷土豆原有的大数据平台后,在用户偏好分析、Top-N榜单计算等方面看到了喜人的变化。“与前几年不同,为了更加精准的为用户做出视频推荐,我们已经不再是简单的匹配视频的元信息了。计算视频与视频之间的相似关系,我们用到了图计算。利用图计算,我们将搜集到的视频图谱做聚类,然后再推荐给用户。”优酷土豆集团大数据团队技术总监卢学裕介绍道,“通过测试与对比,我们发现,计算相同规模的数据量,以前在单机上实现需要80多分钟,而在四台节点的Spark集群上运算时间缩短到了5.6分钟。”
  通过混搭的方式,Hadoop与Spark/Shark结合的架构不仅使计算资源能够更加协调的被利用,也完善了优酷土豆的大数据分析,而重复视频推荐、刷浏览量冲击榜单的情况也减少了很多。作为国内视频行业第一家部署Spark/Shark解决方案的公司,优酷土豆在Spark/Shark方面的经验对整个视频行业有突出的价值。未来,双方也将继续进行深入合作,将整体方案进一步优化,并分享给更多行业合作伙伴,帮助他们更好的解决业务中面临的大数据挑战。

更多精彩内容其他人还在看

医疗行业怎么做好网站建设?建站注意事项及经验

踏足互联网,医疗行业可以将自身优势资源整合到网站中去,为大家提供病理知识、在线咨询或者预约就诊服务等。那么如何做好医疗行业的网站建设呢?本期为大家分享一些在建站过程中需要注意的东西和建站经验,希望能给大家带来帮助
收藏 0 赞 0 分享

企业应该怎么策划自己的网站?规划网站注意事项总结

网站建设虽然是一个比较复杂的过程,包括网站策划、网页设计、程序开发、上传网页、发布网站等,那么企业应该怎么策划自己的网站?下面为大家介绍规划网站注意事项,来看看吧
收藏 0 赞 0 分享

大众点评网站的支付系统构建经验分享

大众点评网站的服务器端在迭代的同时保持了很好的扩展性和可用性,这里我们来看一下大众点评网站的支付系统构建经验分享,主要以大众点评的支付渠道网关系统为核心.
收藏 0 赞 0 分享

网易蜂巢的容器运维管理服务使用指南

网易蜂巢提供对Docker容器的警报和性能监控服务,通过图形化面板操作十分简洁,这里前提假设服务器端已经架设在容器中,那么接下来就让我们来看网易蜂巢的容器运维管理服务使用指南
收藏 0 赞 0 分享

为什么认为自助建站不适合SEO?自助建站工具搭建出来的网站对SEO的支持如何?

最近有一个做SEO优化朋友询问为什么自助建站做出来的网站排名很难做上去?自助建站工具搭建出来的网站真的适合SEO吗?本文将提供相关内容供大家了解,希望对大家有所帮助和启发
收藏 0 赞 0 分享

支持支付宝的高性价比美国VPS主机Pzea的购买及使用评测

Pzea一直是低价位VPS的人气之选,在美国三个大城市分别建有机房,且构建于KVM虚拟机之上,性能较为出众,接下来就为大家来分享一下这个支持支付宝的高性价比美国VPS主机Pzea的购买及使用评测
收藏 0 赞 0 分享

网站页面一定需要HTML静态化吗 实战说明静态化的必要性

很多刚开始运营网站的伙伴们都要知道网站内的页面需要进行URL优化吗?如设置静态化等,对此,本文就为大家解析一下网站静态化的必要性,有兴趣的朋友们可以了解下哦
收藏 0 赞 0 分享

移动端界面设计之尺寸基础知识学习

这篇文章主要为大家详细介绍了移动端界面设计之尺寸基础知识,通俗易懂的学习教程帮助大家了解关于移动端设计尺寸的相关知识,感兴趣的小伙伴们可以参考一下
收藏 0 赞 0 分享

如何提高用户体验?优秀的用户体验需要遵守的十大准则

自己的网站做的很漂亮却依然没有排名,这是为什么呢?这个时候,你应该考虑你是否关注到用户体验?而如何提高用户体验又是你要考虑的问题了,本文将提供优秀的用户体验需要遵守的十大准则供大家了解,希望对大家有所帮助和启发
收藏 0 赞 0 分享

DoubleClick Ad Exchange Seller(adx) 为您的广告代码生成异步代码的方法

这篇文章主要介绍了DoubleClick Ad Exchange Seller(adx) 为您的广告代码生成异步代码的方法,需要的朋友可以参考下
收藏 0 赞 0 分享
查看更多