

每期班课程都在更新迭代,所授技术与企业需求无缝对接,对标BAT等大厂
大数据研发
大数据分析
算法工程师
大数据运维
大数据企业的商业项目直接为学员所用,大牛工程师亲自指导实战开发
项目名称 数据采集平台项目
项目简介 本项目主要讲解大数据技术中的数据采集技术,作为大数据的源头活水,教你从头搭建高并发、高可靠、可扩展的海量日志采集系统,供离线和在线数据分析系统使用。
项目架构 Centos7.5 + Nginx + SpringBoot + MySQL5.7 + Flume1.9 + Kafka2.4.1 + Hadoop3.1.3 + Zookeeper3.5.7 + Hive3.1.2 + Shell + DataX
项目场景 为大多数企业提供用户行为数据采集、后台业务数据采集的可扩展、高容错的日志收集方案
技术点 Hadoop3.1.3安装、HDFS存储多目录、多磁盘数据均衡、LZO压缩、Hadoop基准测试、Hadoop参数调优;Zookeeper3.5.7安装配置、启动停止脚本;Kafka2.4.1集群配置、Kafka压测、机器数量计算、分区数计算、启动停止脚本;Flume1.9安装、Flume组件和配置、自定义Flume拦截器解决零点漂移问题、Flume的内存优化;DataX数据导入并保证数据一致性、空值处理、LZO压缩处理;Hive-3.1.2安装配置、启动、优化
项目特色 针对多种多样、数据量大、变化快的数据源搭建数据采集系统,就如何保证数据采集的可靠性的性能、如何避免重复数据、保证实现atleast-once消费语义、如何保证数据的质量等问题,基于企业实战经验,给出最优解决方案。新增全新数据埋点系统,与Java电商项目零距离对接;全面扩充业务数据表到34张,大大丰富数仓建模体系;增加新访客识别解决方案,后续指标统计更加标准化。增加阿里云服务器讲解,提供与真实生产环境无缝对接方案。
项目名称 离线数据仓库项目
项目简介 该项目以国内电商巨头实际业务应用场景为依托,紧跟大数据主流需求,对电商数仓的常见实战指标以及难点实战指标进行了详尽讲解,让你迅速成长,获取最前沿的技术经验。
项目架构 Flume1.9 + Kafka2.4.1 + DataX + MySQL5.7 + Hadoop3.1.3 + Hive3.1.2 + Spark3.0.0 + Ranger2.0 + Presto + Kylin3.0 + Azkaban3.0 + Atlas2.0 + Zabbix + Shell + Superset + Echarts + Centos7.5 + DolphinScheduler
项目场景 数仓项目广泛应用于大数据领域,该项目技术可以高度适配电商、金融、医疗、在线教育、传媒、电信、交通等各领域;
技术点 采集:Flume/Kafka/DataX;存储:MySQL/Hadoop/HBase;计算:Hive/Spark;查询:Presto/Kylin;可视化:Superset,升级换代成Echarts;任务调度:Azkaban,新增新兴调度工具DolphinScheduler;集群监控:Zabbix;元数据管理:Atlas;集群脚本:Shell;权限管理:Ranger;数据质量监控:Shell;数仓技术选型全新升级,新增调研Hadoop3.1.3、Hive3.1.2、Spark3.0.0、Kylin3.0兼容性,对Hive3.1.2官方漏洞研发修复
项目特色 本课程结合国内多家企业实际项目经验,特别加入了项目架构模块,从集群规模的确定到框架版本选型以及服务器选型,手把手教你从零开始搭建大数据集群。并且总结大量项目实战中会遇到的问题,针对各个技术框架,均有调优实战经验总结。 数仓架构全面升级重构,提供拉链表分区解决方案;增加DWT层,研发累积型宽表层搭建解决方案;增加DIM维度层,完善数仓架构;升级DWD层,全新提供累积型快照事实表分区解决方案;真正实现流批一体,与实时数据处理系统紧密结合,同时解决企业两大数据处理痛点;全新增加数据治理模块,为数据质量、权限管理和安全认证提供一站式解决方案;大大丰富了指标体系,新增两大指标分析主题:优惠券和活动主题。 项目中包括:Shell脚本40多个、用户行为原始表5张、业务表原始表34张、数仓总表近120张、标准的数仓建模理论(确定业务过程、声明粒度、确定维度、确定事实)、包含的业务指标近100个(日活、周活、月活、新增、沉默、回流、流失、留存数、留存率、最近连续三周活跃、最近七天连续三天活跃、漏斗分析、spu个数、sku个数、商品销量排名、商品收藏排名、商品加入购物车排名、商品退款率排名、商品差评率、单日下单笔数、单日下单金额、单日下单用户数、单日支付笔数、单日支付金额、单日支付人数、单日支付商品数、下单到支付的平均时长、单次复购率、多次复购率、购买人数、多次购买人数、累积登录天数、最近30日登录天数、累积下单次数、累积下单金额、最近30日下单次数、最近30日下单金额、累积支付次数、累积支付金额、最近30日支付次数、最近30日支付金额、累积退款次数、累积退款件数、累积退款金额、最近30日被加入购物车次数、最近30日被加入购物车件数、累积被加入购物车次数……)。 通过这部分学习,助学生迅速成长,获取前沿技术经验,从容解决实战问题。
项目名称 Spark实时分析项目
项目简介 本项目主要为互联网企业中常见的对实时分析要求较高的场景提供全套的技术解决方案,以Spark为主要技术点实现海里数据的分析计算。
项目架构 Nginx + SpringBoot + Kafka2.4.1 + SparkStreaming3.0.0 + Canal HA + Redis + ElasticSearch + HBase2.0.5 + Phoenix + ECharts + MySQL5.7 + Maxwell + Kibana
项目场景 适用于多种行业场景,电商、交通、旅游等等,对数据实时分析结果要求较高的需求均可适用。例如:阿里双十一的可视化大屏,实时显示交易额。
技术点 通过SparkStreaming对数据进行实时计算;解决SparkStreaming精确一次消费的问题;利用Redis存储临时性计算数据;通过Canal/Maxwell 进行实时采集业务数据库;实现SparkStreaming的双流join和维度关联;利用广播变量优化计算流程;对接Elasticsearch存储明细数据;通过Kibana配置可视化分析;利用Springboot开发可视化接口程序
项目特色 本项目针对Spark在生产环境中会遇到的性能问题,采用生产服务器进行实战调优。对于用户行为数据和业务数据制定不同的处理方案,可以广泛适配企业中主流的实时处理系统。
项目名称 Flink实时数仓项目
项目简介 本项目参考美团、OPPO、知乎等大数据实时数仓项目架构,采用当前主流的实时数据处理框架Flink进行搭建,对接多种数据源,并实现了对结果数据的实时展示,与离线数仓可以无缝对接,真正实现了流批一体,可以无缝满足企业实时数据处理需求。
项目架构 Nginx + SpringBoot + Flume1.9 + Kafka2.4.1 + Flink1.2 + Canal HA + Redis + ElasticSearch + HBase2.0.5 + Phoenix + ECharts + MySQL5.7 + Maxwell + Kibana + ClickHouse + DataV
项目场景 可满足各种行业、不同规模的企业的实时数据处理场景,例如实时分析新用户注册人群、实时显示交易额、实时对账、实时预警等。
技术点 通过分层处理,让实时计算复用性更好,结构更清晰;通过结合MySQL动态配置表实现数据的动态分流;使用HBase + Redis 实现维度数据的管理与关联查询;提供针对不同情境的双流Join解决方案,优化双流Join解决方案;结合keyed state实现数据的去重、计算等功能;实现对于所有需求提供Flink代码和Flink SQL代码两种解决方案,可满足不同的企业开发需求;使用Table Function 扩展FlinkSQL功能;使用Flink CEP实现不同用户行为模式的识别;使用Clickhouse 实现宽表数据的存储,提高数据查询效率,提供即席查询解决方案;结合Springboot对接百度sugar实现数据可视化大屏展示。
项目特色 本项目采用最新的实时数据处理框架Flink进行搭建,对接多种数据源,并实现了对结果数据的实时展示,与离线数仓可以无缝对接,真正实现了流批一体,可以无缝满足企业实时数据处理需求。通过分层处理,让实时计算复用性更好,结构更清晰。通过结合MySQL动态配置表实现数据的动态分流。使用HBase+Redis 实现维度数据的管理与关联查询;提供针对不同情境的双流join解决方案,优化双流join解决思路;结合keyed state实现数据的去重、计算等功能;实现对于所有需求提供Flink代码和Flink SQL代码两种解决方案,可满足不同的企业开发需求;使用Table Function 扩展FlinkSQL功能;使用Flink CEP实现不同用户行为模式的识别;使用Clickhouse 实现宽表数据的存储,提高数据查询效率,提供即席查询解决方案;结合SpringBoot对接百度sugar实现数据可视化大屏展示。
项目名称 推荐和机器学习项目
项目简介 尚硅谷打造的电商推荐系统项目,以经过修改的中文亚马逊电商数据集作为依托,并以某电商网站真实的业务架构作为基础来实现,其中包含了离线推荐与实时推荐体系,综合利用了协同过滤算法以及基于内容的推荐方法来提供混合推荐。
项目架构 MongoDB + ElasticSearch + Redia + Spark Core + Spark SQL + Spark Mllib + Flume + Kafka + SparkStreaming + SpringBoot + AngularJS2
项目场景 让用户更快更好地获取到自己需要的内容,让内容更快更好地推送到喜欢它的用户手中,让平台更有效地保留用户资源。
技术点 以某电商网站真实的业务架构作为基础来实现的,其中包含了离线推荐与实时推荐体系,综合利用了协同过滤算法以及基于内容的推荐方法来提供混合推荐。具体实现的模块主要有:基于统计的离线推荐、基于隐语义模型的离线推荐、基于自定义模型的实时推荐,以及基于内容的、和基于Item-CF的离线相似推荐。
项目特色 整个项目具有很强的实操性和综合性,对已有的大数据和机器学习相关知识是一个系统性的梳理和整合,通过学习,同学们可以深入了解推荐系统在电商企业中的实际应用,可以为有志于增加大数据项目经验的开发人员、特别是对电商业务领域感兴趣的求职人员,提供更好的学习平台。
项目名称 用户画像项目
项目简介 用数字化的标签描述用户个性特征、勾画目标用户,用以联系用户诉求与设计方向。
项目架构 Flume1.9 + Kafka2.4.1 + Hadoop3.1.3 + Hive3.1.2 + SparkSQL3.0.0 + Sqoop1.4.6 + Azkaban3.0 + Zookeeper3.5.7 + MySQL5.7
项目场景 根据用户标签快速筛选人群,进行精准营销。
技术点 标签定义模块、标签开发模块、任务调度模块、用户分群UI模块的搭建,用户标签窄表的定义开发,用户标签宽表的整合和结构转换。
项目特色 结合目前各种规模企业对于用户画像的需求给出最简解决方案,在最短时间里对整个用户画像系统有最全面系统的认知。
项目名称 在线教育项目实战
项目简介 该项目基于洋葱教育的实际业务场景,带你从0到1搭建数据采集系统、离线指标统计、实时计算以及用户画像等各种实际企业业务场景。紧跟企业前沿新技术,项目在手,天下你有。
项目架构 CDH全套组件:Flume + Kafka + Hadoop + Hive + HUE + SparkSQL + SparkStreaming + Zookeeper + MySQL + DataX + PowerDesigner + IBM HeapAnalyzer + Impala
项目场景 以真实企业在线教育项目为蓝图设计的实操性很高的项目,助你了解大数据从业人员的真实工作流程;
技术点 离线指标计算:课程学习反馈指标、系统版本访问统计、渠道新用户统计、访问次数分布、漏斗分析、七日留存分析;实时数据处理:实时统计VIP用户新增数、订单行为异常用户及时运营、Exactly-Once语义数据消费机制;
项目特色 参照真实企业项目流程打造,从服务器搭建选型到数据处理全流程呈现,为主流数据采集系统搭建、常见离线指标需求提供多种解决方案,构建高可用高性能的实时流式计算框架。
项目名称 阿里云电商项目
项目简介 本项目以国内电商巨头实际业务应用场景为背景,整个数仓体系完全搭建在阿里云架构上,详细解析了数据在整个数仓架构从采集、存储、计算、输出,到最终展示的整个业务流程。让学员理解并学会运用各个阿里云服务组件,了解各个组件之间如何配合联动。
项目架构 ECS + Flume + DataHub + MaxCompute + DataWorks + RDS + QuickBI
项目场景 以真实企业项目为背景,采用阿里云平台的全套大数据产品重构整个电商项目,其中涵盖电商平台的离线数仓阿里云解决方案,实时指标分析阿里云解决方案。
技术点 本项目采用阿里云服务器ECS搭配开源框架Flume进行用户日志的采集,将采集到的数据推送到阿里云数据总线模块DataHub,然后将DataHub的数据传输到大数据计算平台MaxCompute中,利用DataWorks数据开发平台进行数据的集成、计算和开发,得出我们需要统计的业务指标。将统计出的结果存储到阿里云RDS数据库中,最后用QuickBI读取RDS中的数据做出相应的报表,展示数据。
项目特色 本项目采用全套阿里云大数据产品重构了电商平台大数据项目,提供了电商平台离线、实时等指标分析的全套阿里云解决方案。整个项目架构部署在云端,完全脱离了本地服务器,并且项目组件全部采用阿里云大数据产品,各组件之间实现了界面图形化配置,无缝对接。
技术在进步,尚硅谷始终超越平凡
授课内容全面深入,直击核心
JavaSE基础核心
1深入理解Java面向对象思想
2掌握开发中常用基础API
3熟练使用集合框架、IO流、异常
4能够基于JDK8开发
5熟练使用MySQL,掌握SQL语法
· 分支结构if/switch
· 循环结构for/while/do while
· 方法声明和调用
· 方法重载
· 数组的使用
· 命令行参数、可变参数
· IDEA常用设置、常用快捷键
· 自定义模板
· 关联Tomcat
· Web项目案例实操
· 封装、继承、多态、构造器、包
· 异常处理机制
· 抽象类、接口、内部类
· 常有基础API、集合List/Set/Map
· 泛型、线程的创建和启动
· 深入集合源码分析、常见数据结构解析
· 线程的安全、同步和通信、IO流体系
· 反射、类的加载机制、网络编程
· Lambda表达式、方法引用
· 构造器引用、StreamAPI
· jShell(JShell)命令
· 接口的私有方法、Optional加强
· 局部变量的类型推断
· 更简化的编译运行程序等
· DML语言、DDL语言、DCL语言
· 分组查询、Join查询、子查询、Union查询、函数
· 流程控制语句、事务的特点、事务的隔离级别等
· 使用JDBC完成数据库增删改查操作
· 批处理的操作
· 数据库连接池的原理及应用
· 常见数据库连接池C3P0、DBCP、Druid等
Hadoop生态体系架构
1Linux系统的安装和操作
2熟练掌握Shell脚本语法
3Idea、Maven等开发工具的使用
4Hadoop组成、安装、架构和源码深度解析,以及API的熟练使用
5Hive的安装部署、内部架构、熟练使用其开发需求以及企业级调优
6Zookeeper的内部原理、选举机制以及大数据生态体系下的应用
7Flume的架构原理、组件自定义、监控搭建,熟练使用Flume开发
实战需求
8Azkaban的安装部署,熟练使用进行工作流的调度执行
9Kafka的安装部署以及框架原理,重点掌握Kafka的分区分配策略、
一致性保证等,熟练掌握低级API、高级API的使用
10统筹Hadoop生态下的Hadoop、Flume
、Zookeeper、Kafka、Sqoop
等诸多框架,搭建数据采集系统,熟练掌握框架结构和企业级调优手段
· Maven环境搭建
· 本地仓库&中央仓库
· 创建Web工程
· 自动部署
· 持续继承
· 持续部署
· VI/VIM编辑器
· 系统管理操作&远程登录
· 常用命令
· 软件包管理&企业真题
· 自定义变量与特殊变量
· 运算符
· 条件判断
· 流程控制
· 系统函数&自定义函数
· 常用工具命令
· 面试真题
· Hadoop生态介绍
· Hadoop运行模式
· 源码编译
· HDFS文件系统底层详解
· DN&NN工作机制
· HDFS的API操作
· MapReduce框架原理
· 数据压缩
· Yarn工作机制
· MapReduce案例详解
· Hadoop参数调优
· HDFS存储多目录
· 多磁盘数据均衡
· LZO压缩
· Hadoop基准测试
· Zookeeper数据结果
· 内部原理
· 选举机制
· Stat结构体
· 监听器
· 分布式安装部署
· API操作
· 实战案例
· 面试真题
· 启动停止脚本
· HDFS-HA集群配置
· Hive架构原理
· 安装部署
· 远程连接
· 常见命令及基本数据类型
· DML数据操作
· 查询语句
· Join&排序
· 分桶&函数
· 压缩&存储
· 企业级调优
· 实战案例
· 面试真题
· Flume架构
· Agent内部原理
· 事务
· 安装部署
· 实战案例
· 自定义Source
· 自定义Sink
· Ganglia监控
· 消息队列
· Kafka架构
· 集群部署
· 命令行操作
· 工作流程分析
· 分区分配策略
· 数据写入流程
· 存储策略
· 高阶API
· 低级API
· 拦截器
· 监控
· 高可靠性存储
· 数据可靠性和持久性保证
· ISR机制
· Kafka压测
· 机器数量计算
· 分区数计算
· 启动停止脚本
· 安装
· 原理
· 数据一致性
· 空值处理
· LZO压缩处理
Spark生态体系架构
1Scala语言的基础入门、数据结构讲解、面向对象、函数式编程、模式匹
配、高级类型、隐式转换等重点内容的掌握使用
2Spark的入门安装部署、Spark
Core部分的基本API使用熟练、编程进
阶、自定义累加器和广播变量的使用和原理掌握、SparkSQL的编程掌握
和如何自定义函数、SparkSreaming的应用解析、Spark的内核源码详解
(包括部署、启动、任务划分调度、内存管理等)、Spark的企业级调优
策略。
3HBase的部署使用、原理架构讲解与企业级优化
4最新的大型离线数仓项目,对电商常见及疑难指标的熟练掌握,完全自主
搭建整个数仓架构
5Redis的入门、基本配置讲解、jedis的熟练掌握
6熟练掌握实时分析项目的架构及需求处理思路
· Scala基础入门
· 函数式编程
· 数据结构
· 面向对象编程
· 模式匹配
· 高阶函数
· 特质
· 注解&类型参数
· 隐式转换
· 高级类型
· 案例实操
· 安装部署
· RDD概述
· 编程模型
· 持久化&检查点机制
· DAG
· 算子详解
· RDD编程进阶
· 累加器&广播变量
· SparkSQL
· DataFrame
· DataSet
· 自定义UDF&UDAF函数
· SparkStreaming
· 背压机制原理
· Receiver和Direct模式原理
· Window原理及案例实操
· 7x24 不间断运行&性能考量
· 内核源码详解
· 优化详解
· Hbase原理及架构
· 数据读写流程
· API使用
· 与Hive和Sqoop集成
· 企业级调优
· Presto的安装部署
· 使用Presto执行数仓项目的即席查询模块
· 权限管理工具Ranger的安装和使用
· 任务调度工具Azkaban3.0的安装部署
· 使用Azkaban进行项目任务调度,实现电话邮件报警
· Kylin的安装部署
· Kylin核心思想
· 使用Kylin对接数据源构建模型
· 元数据管理工具Atlas的安装部署
· 集群监控工具Zabbix的安装部署
· 任务调度工具DolphinScheduler的安装部署
· 实现数仓项目任务的自动化调度、配置邮件报警
· 使用SuperSet对数仓项目的计算结果进行可视化展示
· 使用Echarts对数仓项目的计算结果进行可视化展示
· Redis安装部署
· 五大数据类型
· 总体配置
· 持久化
· 事务
· 发布订阅
· 主从复制
· 使用Canal实时监控MySQL数据变化采集至实时项目
Flink生态体系架构
1熟练掌握Flink的基本架构以及流式数据处理思想,熟练使用Flink多种
Soure、Sink处理数据,熟练使用基本API、Window
API 、状态函数、
Flink SQL、Flink CEP复杂事件处理等
2使用Flink搭建实时数仓项目,熟练使用Flink框架分析计算各种指标
3开发工具Git&Git Hub的熟练使用
4ElasticSearch的入门安装部署及使用
· 运行时架构
· 数据源Source
· Window API
· Water Mark
· 状态编程
· CEP复杂事件处理
· Flink SQL和Table API详细解读
· Flink内核源码讲解
· 经典面试题讲解
· 安装配置
· 本地库搭建
· 基本操作
· 工作流
· 集中式
· ClickHouse的安装部署
· 读写机制
· 数据类型
· 执行引擎
· 使用DataV对实时项目需求计算结果进行可视化展示
· 结合Springboot对接百度sugar实现数据可视化大屏展示
· 使用Maxwell实时监控MySQL数据变化采集至实时项目
· ElasticSearch索引基本操作、案例实操
· 通过Kibana配置可视化分析
· 利用Springboot开发可视化接口程序
项目实战阶段
1熟练掌握在线教育从0到1搭建大数据处理系统,了解大数据从业人员的
真实工作流程
2以在线教育为背景,搭建实时数仓处理系统,独立完成项目搭建和需求实现
3采用阿里云平台全套大数据产品重构电商项目,熟悉离线数仓、实时指标的
阿里云解决方案。
4可选掌握推荐和机器学习项目,熟悉并使用系统过滤算法以及基于内容的
推荐算法等
5可选掌握用户画像项目,使用数字化标签描述用户个性特征、勾画目标用户
从心出发,助你学习、求职、晋升一路顺畅!
科学量化开发潜力
从一开始就知道自己的特长,让学习更明确!
学习小组,自习辅导,阶段测评,个人学习分析
讲师、助教、班主任时时陪同,让你从此爱上学习!
纵向拓展专业技术,横向拓展综合实力
挤进尚硅谷,注定你优秀,不只是说说而已!
知名企业技术大牛分享,老学员分享
在尚硅谷,你永远不是一个人在奋斗!