课程目标

1、了解敏捷大数据的设计理念和架构设计
2、了解各个平台能提供的能力
3、对有技术背景的人员,通过开源代码,指导文档和视频,可以为开源社区贡献代码,有能力把该平台运用到实际项目中

适用人群

针对有一定基础的技术人员,懂得数据仓库平台的基础概念,了解ETL、Hadoop等基础技术概念,所在企业有计划部署结构化与非结构化的大数据仓库平台的技术工程师。

课程概述

1.     基于敏捷大数据开源平台工具,从无到有构建一套完整的实时大数据平台体系架构

这是一门针对如何构建、使用完整的大数据平台系统,为期2天的深度培训课程,由宜信的大数据团队,根据团队的实践经验,将大数据平台的整个开发、部署、应用的过程,进行了深度的分享讲解。本课程,包括了从数据的抽取,数据加工,数据存储运算 (实时数据仓库/数据集市/ETL),再到实时数据应用,以及与数据仓库平台相关的元数据管理、血缘分析等全部环节。实现数据平台和数据应用的飞跃进阶。不管您的现在处于哪个级别,敏捷大数据平台直接带您升级到最高层级。

 

2.     核心技术解析、开源自主可控、二次开发扩展,让用户真正掌握驾驭整个大数据平台建设和发展

本次课程的大数据平台实践,全程采用开源工具,你可以深入进行二次开发,从而实现对整个大数据平台的真正自主可控。本次课程,培训专家团队,也将会深入讲解二次开发的方法与技巧。更重要的是,期望受训者,通过开源代码,指导文档和视频,可以为开源社区贡献代码,有能力把该平台运用到实际项目中。

 

3.     常见大数据实时场景案例分析,典型架构模式探讨

本课程还会就一些典型的实时数据处理场景进行举例和案例分析,讲解场景需求背景、挑战、痛点、解决方案和项目效果,还会讨论一些通用的切面问题,如数据质量、运维监控等。过程中也会探讨不同的典型架构模式及其适用性。

 

4.     一些常见的主流的大数据开源工具的选型和剖析,为您提供深度参考

本次培训,还会提供各种大数据平台的相关开源工具选型剖析,这是宜信大数据团队在开发部署大数据平台的过程中,对多种工具进行试用,并总结的经验,这将是一份极其珍贵的参考建议。例如,数据存储方面,会涉及到HBase、Cassandra、Kudu的实际选型建议,数据查询方面,会涉及到Spark SQL、Presto、Impala Hive等工具的实际造型建议等。

本次大数据平台全程落地应用的整体结构图:





【讲师简介】

卢山巍

卢山巍,宜信技术研发中心高级架构师,提出了敏捷大数据方法学,并围绕该套方法学,设计出了一系列的大数据相关平台,包括流式处理平台,可视化应用平台,计算服务平台。

在加入宜信之前,就职于亿贝,是亿贝相关数据项目的高级软件架构师,在大数据处理相关领域有丰富的经验和深刻的见解。毕业于澳大利亚伍伦贡大学大学计算机专业,获得硕士学位。

 总述 & 特长

1、 10年以上的互联网大数据工作经验和银行软件开发经验,对大数据相关技术有深刻的理解,擅于多维度高阶抽象来设计更通用的产品;

2、全栈工程师。包括前端,服务端,业务框架,数据仓库,大数据平台等;

3、优秀的业务分析和问题解决能力,出色的客户沟通能力;

4、 热爱技术并乐于跟随技术的发展,具有超强的把各种新技术融合落地实现的能力。

5、 IT技能

语言:Java;Scala;C#;

大数据:Spark,Hadoop;Kafka;Storm;Akka;分布式系统设计等;

数据库:Teradata;MySQL;Ms SQL;SQL/NoSQL;数据实体关系设计;

系统:SOA;DDD;Design Pattern;UML;Web Services/REST;XML/JSON;

前端:HTML/CSS/JavaScript;GWT;Swift

讲师相关信息:

2018思科金融行业峰会  金融领域敏捷大数据实践  演讲讲师

参考:http://science.china.com.cn/2018-06/08/content_40375694.htm

开源项目wormhole 负责人:      https://github.com/edp963/wormhole

开源项目davinci负责人:     https://github.com/edp963/davinci

开源项目moonbox负责人: https://github.com/edp963/moonbox


王东

王东,宜信技术研发中心高级架构师,主要负责日志归集、流式处理和大数据业务产品解决方案,包括实时敏捷大数据技术栈基础组件­——DBus实时数据总线平台的建设和NLP自然语言处理技术解决方案的建设和探索等。在加入宜信之前,就职于Naver(韩国最大搜索引擎公司),担任中国研发中心资深研发工程师,拥有多年从事分布式数据库引擎研发经验,负责开源项目CUBRID-cluster分布式数据库开发和CUBRID数据库引擎开发工作。毕业于北京大学软件工程专业,获得硕士学位。

 总述 & 特长

1、10年以上行业经验和管理经验,对开发、测试和项目管理有丰富经验;

2、擅长c/c++,Java, Scala, python开发,扎实的数据结构和算法基础,很好的设计和开发能力,丰富跨平台开发经验(Linux,Windows,AIX);

3、 熟悉开源流式处理引擎引擎,包括Storm,Spark Streaming, Kafka等;

4、熟悉大规模分布式系统开发、维护经验和常用开源分布式系统,包括Hadoop、Hive、Spark、HBase、Kudu、ElasticSearch,mango等

5、熟悉系统级编程,包括系统调用/API, 多线程,多进程编程,网络socket 编程,IO操作;

6、熟悉Mysql,SQL server,CUBRID等数据库, 对数据库理论和开发有深刻的理解;

7、熟悉分布式数据库集群,熟悉sharding,高可用性(HA)和分布式一致性(2PC);

8、熟悉和阅读源码包括 Mysql, Redis, Leveldb, Nginx, libevent等,对Nosql相关技术有一定研究;

9、熟悉python, Linux/Windows shell, js等脚本;

10、擅长在百万行代码中定位问题,缩小问题规模,解决内存泄露,性能调优等问题;

 讲师相关信息:

2018全球软件与运维技术峰会(WOT) 大数据处理技术会场 演讲讲师

参考: http://wot.51cto.com/act/wot2018/dev/page/theme?hall_id=34

dbaplus 线上分享嘉宾讲师

如何基于日志,同步实现数据的一致性和实时抽取?

参考: http://dbaplus.cn/news-21-872-1.html

基于可视化配置的日志结构化转换实现

参考: http://dbaplus.cn/news-134-1860-1.html

开源项目DBus 负责人: https://github.com/BriData/DBus

开源RDBMS数据库项目CUBRID Commiter: http://www.cubrid.org/

开源分布式数据库项目CUBRID-cluster 发起人

https://www.slideshare.net/cubrid/cubrid-cluster-introduction

https://sourceforge.net/projects/cubridcluster/

 其他:

1、 2013,雪鸟企业管理(上海)有限公司 培训 通过《Scrum敏捷软件开发》课程

2、2011, 作为演讲嘉宾,参加Naver 韩国首尔workshop大会,介绍和演示CUBRID cluster项目

3、2005/2006/2007/2008,多次参加微软Tech-ed大会培训,学习微软最新技术和工具.

4、2008,获得《网页搜索的显示方法以及其客户端设备》专利证书,专利号:ZL 2005100002308.0

5、2005,获得 软件设计师 证书


徐翔

徐翔,宜信技术研发中心高级研发工程师,davinci可视协作平台技术负责人。互联网金融行业从业5年,在数据可视化、前端、用户体验领域有着丰富的经验。毕业于北京工业大学计算机专业。

总述 & 特长

1、7年以上互联网软件从业经验,对软件产品设计研发周期有着深刻的理解;

2、前、