课程目标
通过本课程学习,可以初步了解大数据三项必备技能。快速定位和掌握大数据核心技能和相关技巧。
适用人群
本课程优选了大数据常用的三项技能Hadoop、Spark和HBase,本课程主要是针对三项技能提供最基本的案例解析,适合零基础或具备一些大数据基础知识的学员,了解大数据相关技术。
课程概述
本课程分为大数据三部曲:Hadoop、Spark、Hbase,邀请一线的企业工程师,采取案例介绍的方式对核心技术进行了详细的剖析和介绍,通过本课程的学习可以快速领悟大数据的奥妙,同时还能掌握大数据安全的基本知识很技能。
一、HBase在淘宝的应用与优化
主题介绍:HBase现在是实现最为接近google bigtable模型的结构化数据分布式存储系统,目标为海量数据的在线服务,近来正被越来越多的公司关注和应用。因为现在HBase用于线上应用可能会 有哪些优势和劣势,有哪些措施能保障它在生产系统上运行是很多技术爱好者比较关心的话题,因此将分享淘宝己经用于生产系 统半年多的一些经 验。本次演讲将介绍HBase为什么能服务到淘宝内部众多生产应用系统,HBase用于online服务时优劣,并介绍淘宝内部如何部署 相应的集群,遇到过的问题以及解决方案,做过的一些优化措施。并简要介绍近期HBase社区的发展方向。
讲师介绍:邓明鉴:淘宝核心系统部技术专家
淘宝核心系统部技术专家。专注于分布式系统工程及海量数据在互联网行业的应用,对Hadoop生态圈产品有比较深入了解。热爱研 究和探讨分布式及NoSQL相关开源产品。曾负责淘宝数据平台的架构从Oracle rac向Hadoop变迁,现主导维护和改进淘宝版本HBase,负责HBase的线上部署、规划及运维支持,熟悉各版本HBase源码,并有丰富的线上应用经验。
二、HBase近期的发展及实践
主题介绍:近年来HBase在阿里及全球得到了快速的发展,HBase在应用于Online系统的存储时,面临的是什么样的问题与挑战呢?阿里HBase应用、改进的实践及社区HBase的未来又如何呢? 本次议题会主要介绍HBase上关于CMS、GC碎片、大缓存的一种解决方案:BucketCache,阿里HBase小组在应用、改进HBase方面的实践工作,及对社区下个HBase版本的简单介绍。
讲师介绍:天梧(沈春辉) 阿里数据平台开发工程师
HBase社区Committer, 一直专注于大数据、HBase源码研究和改进。
三、HBase在阿里搜索的应用与扩展
主题介绍:阿里集团搜索系统后台的Hadoop/HBase混合集群已经达到1000+的规模,计算+存储一体化的解决方案支撑了淘宝、天猫、B2B、Etao、云搜索等阿里全部搜索业务线。本次主题除了介绍HBase在阿里搜索技术领域的应用、优化和运维经验以外,还将介绍我们基于HBase自主研发的HQueue(消息队列)和HTunnel(HBase增量订阅服务),以及基于它们的实时计算解决方案。
讲师介绍:徐斌 一淘及搜索事业部离线系统团队 搜索研发专家
花名雨田,2009年毕业于华中科技大学,毕业后随即加入阿里巴巴集团,先后在阿里云和淘宝从事搜索爬虫以及分布式存储技术研究,目前负责引领阿里搜索HBase相关存储技术的研发工作,具备丰富的HBase研发、运维和应用经验。
四、Spark大数据计算性能调优与硬件选型性价比
主题介绍:在Spark大数据应用中,如何让硬件得到更好的效能发挥和更高的性价比一直是我们关心的话题。如何收集硬件利用率和Spark应用程序性能瓶颈分析;当新硬件采购时,如何验证怎样的硬件配置对Spark应用可以有最佳的效能或者最好的性价比。在这个主题中,我们将展示不同特性的典型Spark应用的性能分析和调优手段,揭示如何释放硬件资源,监控硬件性能发挥,并在此基础上,测试不同硬件配置诸如内存、网络、磁盘、CPU选型,对于Spark大数据应用程序性能的影响,指导运维人员决策购买或者升级新的硬件零部件时候,可能可以采取的测试验证方法。此外,我们也将比较Spark应用程序在物理机、虚拟机以及容器技术下的性能分析和对比,提供大数据应用部署在不同基础设施架构下的硬件性价比参考。
讲师介绍:程浩 Intel亚太研发中心Spark团队研发经理
Intel亚太研发中心Spark团队研发经理,Apache Spark活跃开发者,致力于Spark框架在Intel平台架构上的性能分析与优化。
五、Spinach:基于Spark SQL在生产环境中实现即席查询
主题介绍:随着Spark的广泛应用,在数据仓库中用Spark SQL进行批量查询已经较为常见。尽管Spark SQL已经能支持对丰富的数据源进行高效的数据处理,但对于秒级的查询需求,Spark SQL还有不足之处,而很多企业对此也有很大需求。我们基于Spark SQL开发的项目Spinach,正是为了满足秒级甚至更高要求的即席查询需求。 具体来说,Spinach以Fiber为基本单位提供了一套细粒度的分层缓存机制,将数据缓存在堆外内存中,可以有效加速数据的加载。同时,Spinach拓展了Spark SQL的DDL,允许用户自定义索引,目前支持B+树索引和布隆过滤器,可以让用户根据数据特点定义高效的索引,进一步减少IO操作,提升查询效率。Spinach运行时与Spark SQL共享同一个进程,不会引入额外的维护成本。2016年,Intel与百度合作的Spinach平台首个版本在百度内部开放使用,帮助多个核心产品团队从过去低效的批量作业查询方式升级至即席查询模式。在百度的凤巢广告系统中,数据工程师基于每日数T的点击、展现日志进行广告效果分析,Spinach将查询性能提升至原生Spark SQL的5倍,尤其在复杂查询及大数据量分析的场景下将平均延迟从分钟级降低至秒级,同时仅增加3%的索引数据消耗。
讲师介绍:王道远 Intel亚太研发工程师/百度研发工程师
王道远,Intel亚太研发中心大数据技术团队资深工程师,Apache Spark开源社区活跃开发者, Spinach项目Dev Team。李元健,百度基础架构部资深研发工程师,Apache Spark contributor。2011年加入百度,先后参与并负责百度实时计算平台DStream,Tracing平台Rig,Spark平台及公有云BigSQL等核心服务的研发工作。
六、实时保护Hadoop数据安全
主题介绍:Hadoop的数据安全成为了越来越热门的话题,apache eagle(eagle.incubator.apache.org)项目是由eBay发起并贡献给apache社区的大数据安全方案。它提供了一个分布式的流式日志处理引擎,可以通过分析Hadoop/hbase的日志来找出敏感数据的非正常访问,并集成了机器学习技术通过用户画像来自动分辨用户的异常行为。本次主题着重介绍apache eagle项目和eagle在ebay大数据平台中的实际应用。
讲师介绍:苏良飞 eBay资深工程师
曾工作于sybase数据工具平台部,ebay云计算平台,携程机票部门,目前在ebay大数据基础设施部门,专注于大数据平台监控。Apache eagle项目committer。
课程目录
课程讲师
-
课程数59
-
学生数7889
最近学习用户 159人报名试学
-
蓝发
-
konggulanwu
-
小尾巴鱼
课程评价