大数据企业级项目实战--Titan大型数据运营系统项目课程

大数据企业级项目实战--Titan大型数据运营系统项目课程
共166节 1854人在学 课程详情
课程目录
讨论留言
  • 项目背景及整体介绍

    • 项目背景介绍
    • 项目整体架构解析
    • 项目整体架构解析-之上层应用系统举例(联机数据分析平台)
    • 项目所涉及的技术及算法
    • 项目数据介绍-埋点日志介绍-事件类型介绍
    • 项目数据介绍-业务数据绍
  • 项目工程管理工具及工程骨架搭建

    • 工程搭建- maven知识扩展
    • 工程搭建-版本管理知识-svn与git-以及码云gitee
    • git的常见操作分享项目-commit push-clone-pul
  • 数据仓库必要理论及整体设计

    • 数据库和数据仓库的概念-及联系区别
    • 数据仓库相关概念介绍-报表数据可视化
    • 数仓开发之et|概念及etl工具介绍
    • 数仓主题概念各行业分析主题举例
    • 数仓维度建模思想-事实表-维表-维表模型
    • 数仓概念之分层管理分层计算分层意义
    • 项目模块埋点日志采集方案说明-问题举例
  • 字典数据构建

    • gps坐标地理位置维表构建思想
    • geohash编码的算法思想
    • 原始地理位置mysq|表geohash维表的计算思想
    • 地理位置字典构建代码实现-及加强补充的方案
  • id-mapping设计及实现

    • idmapping-为什么要做idmapping
    • idmapping-技术方案1-借助redis实现
    • idmapping-技术方案2-利用图计算实现-思想流程
    • idmapping-技术方案2-可能存在的问题和改善思路
    • idmapping-技术方案2-图计算实现idmapping的全流程
    • idmapping -技术方案1-redis实现idmapping的改善后流程
    • idmapping图计算demo案例
    • idmpping-图计算项目数据实现(1)
    • idmapping-图计算方案完整实现(2)
  • 埋点日志预处理设计及实现

    • app埋点日志预处理流程分析代码结构搭建
    • app埋点日志预处理-代码实现
    • app埋点日志预处理-代码重复修炼
    • 处理程序打包部署上线运行步骤演示
  • 流量数据分析及报表开发

    • app埋点日志数据加载到数仓ODS层-预处理程序bug调试
    • DWD层建模的思想和理由
    • app埋点日志全局明细表开发
    • app埋点日志流量明细表开发
    • app埋点日志-广告明细表开发
    • app埋点日志-交互事件明细表开发
    • ODS-DWD层表模型复习回顾
    • 流量概况报表分析-方案设计
    • 流量概况报表分析流量会话聚合表开发
    • 流量概况报表分析流量用户聚合表开发
    • 流量概况报表全局汇总报表开发
    • 多维分析-导论
    • 多维分析实战流量概况报表数据立方体开发
    • 多维分析概念补充高阶聚合函数补充
  • 日新日活及用户留存分析

    • 日新日活分析-方案设计表模型设计
    • 日活记录表-日新记录表开发
    • 历史访问记录表-更新计算开发
    • 日新日活数多维分析报表开发
    • 新用户留存-概念分析模型设计
    • 新用户留存分析开发实现
  • SQL快速加强

    • sq|葵花宝典需求说明
    • sq|葵花宝典练习(1)
    • sq葵花宝典-练习(2)
    • sq|葵花宝典-练习(3)
  • 用户活跃度分析及报表开发

    • 用户新鲜度报表等价于新用户留存表
    • 用户活跃度分析报表需求说明模型设计
    • 用户活跃度分析报表-spark代码开发(1)
    • 用户活跃度分析报表-spark代码开发(2)
    • 用户连续活跃区间记录表计算方案设计
    • 用户连续活跃区间记录表sq|开发
    • 用户访问间隔分布-方案设计-中间表计算
    • 访问间隔分布统计分析-sq|实现版
    • 活跃用户留存分析计算方案思考
    • 活跃用户留存分析-spark代码实现-数据质量检查的做法
  • 交互事件分析及报表开发

    • app版本升级统计报表开发
    • 交互事件分析主题-需求分析和整体建模方案设计
    • 交互事件分析主题-各层的代码实现
    • 交互事件分析主题-事件次数最高top100人
  • 访问路径分析及报表开发(1)

    • 访问路径分析需求解析整体建模路径明细表开发
    • 访问路径明细记录表-sq|实现
    • 访问路径概况统计-方案1-实现(竖表)
    • 访问路径概况统计-方案2-实现(横表)
    • 访问路径概况统计-方案2-实现(横表bug解决)
    • 访问路径概况统计-方案3-实现(横表count-over)
    • 关于窗口分析函数的透彻梳理(窗口计算范围的指定)
  • 转化率与转化漏斗分析及报表开发

    • 转化漏斗分析概念-两种技术手段(离线常规在线定制)
    • 转化漏斗分析多易寻宝活动漏斗转化率统计
  • 访问路径分析及报表开发(2)

    • 广告事件分析-需求解析-计算方案设计
    • 广告事件分析-广告概况报表-开发
    • 广告事件分析-站外广告概况统计报表-需求解析-广告追踪技术-计算方案
    • 业务数据分析-背景概念介绍-号外-spark和mr的对比
  • sqoop业务数据抽取方案及实现

    • sqoop基本介绍-安装-测试
    • sqoop命令实战-mysql表全量导入hdfs
    • sqoop命令实战-mysql表全量导入hive
    • sqoop命令实战条件导入-where-columns-query
    • sqoop命令实战-增量导入-自增id判断增量-updatetime判断增量
    • sqoop命令实战-增量导入的合并导出
    • 业务数据分析-整体介绍需求罗列涉及到的表导入策略
    • 业务数据分析-sqoop导入命令的脚本编写及crontab定时调度
    • 业务数据分析-GMV分析复购率分析(1)
    • 业务数据分析复购率分析(2)
  • 订单业务数据分析及报表开发

    • sq|葵花宝典修炼复杂案例
    • 业务数据分析-用户订单画像标签表计算
    • 业务数据分析-用户订单画像标签表-代码开发(1)
    • 业务数据分析-用户订单画像标签表开发(2)
    • 业务数据分析用户退拒行为画像标签表开发(1)
    • 业务数据分析-用户退拒行为画像标签表开发(2)
    • 业务数据分析用户购物偏好画像标签表开发
  • 数仓任务调度系统设计及实现

    • 数仓外围-任务调度系统azkaban入门安装
    • azkaban使用实战(1) - 最简单命令的调度
    • azkaban使用实战(2) -调度- -个shell任务
    • azkaban使用实战(3) 多job工作流配调度
    • azkaban使用实战(4) -hdfs操作任务调度
    • azkaban使用实战(5) -项目中任务实战调度(idmp-preprocess)
    • azkaban使用实战(6) -项目hive脚本调度
    • azkaban页面上配置参数传递给任务的hell脚本
  • 数仓元数据管理系统及实现

    • atlas的整体概合解析-数仓元数据管理系统元数据的注入-atlas的功能
    • atlas的安装部署和启动
    • 各类软件启动运行失败的完整解决思路
    • atlasoIhive的hook钩子配置及测试
    • atlas白带的adminU功能学习.人工录入元数据实体
    • atlas自带的adminU功能学习元数据搜索
    • atlas白带adminU功能学习分类管理和术请标签管理
    • atlas解析工具调用演示代码调用演示
  • 用户画像整体设计及机器学习算法应用快速上手

    • 用户画像概念.背景与数仓的关联标签层次概念
    • 机器学习算法基础概念导论
    • 机器学习必备数学知识-向量点距离
    • 机器学习必备数学知识-余弦相似度
    • 机器学习算法相似度计算案例需求
    • 机器学习算法相似度计算案例-代码实现
    • 机器学习算法-knn算法手撕代码
    • 机器学习必备数学知识-条件概率公式贝叶斯定理朴素贝叶斯定理
    • 机器学习算法-navie_ bayes算法手撕代码
    • sparkmllib算法库介绍-基础编程接[ Vector向量使用 ]
    • sparkmllib算法库朴素贝叶斯算法调用示例
  • 基于机器学习算法的画像模型标签实战

    • 项目实战需求-品牌偏好度计算评语的情感分类
    • 项目实战文本特征向量化算法-hashing映射-TF-IDF特征值
    • sparkmllib朴素贝叶斯算法出轨案例-勘误
    • 项目实战评论语义情感分类代码实现(1)
    • 项目实战-评论语义情感分类代码实现(2)
    • sparkmllib算法库线性回归算法算法思想-api调用示例
    • 线性回归算法中的最小损失函数求解法梯度下降算法
    • 逻辑回归算法数学思想和线性回归的关系
    • 项目需求流失率标签计算逻辑回归算法代码实现(1)
    • 项目需求流失率标签计算-逻辑回归算法代码实现(2)
    • 项目需求行为性别预测项目大会-需求、特征选择、算法选择讨论分析
    • 项目需求-行为性别预测-用朴素贝叶斯算法实现
    • 机器学习算法模型评估-分类算法评估回归算法评估
  • 用户画像标签分值衰减及合并策略实现

    • 用户画像标签更新策略增量更新全量更新兴趣类标签的衰减问题
  • 数据服务层设计及实现

    • 数据系统-服务层方案设计及实现技术
  • OLAP即席分析平台设计实现及数据服务开发

    • olap查询引擎: presto-基本认识
    • presto集群部署启动-参数配置详解
    • presto配置hive数据源的连接及测试
    • presto配置mysq|数据源的连接及测试跨源查询测试
    • 内容回顾复习-presto对接hive数据源的原理机制
    • presto对接kafka数据-表映射描述文件配置示例
    • presto对接kafka-csv格式数据配置测试
    • presto对接kafka-json格式数据配置测试
    • 数据运营分析olap平台开发整体介绍-web开发技术栈介绍
    • 数据运营分析olap平台开发jdbc连接presto测试
    • web开发基本技术演示
    • 数据运营分析olap平台开发-省份维度的日活数据查询
    • 数据运营分析平台-后端服务开发-常规漏斗数据查询接口规范
    • web开发代码骨架搭建
    • 数据运营分析平台-后端服务开发-常规漏斗数据查询接口实现
    • 数据运营分析平台漏斗分析前端开发示例
    • 数据运营分析平台-日活趋势分析后端开发及测试
    • 数据运营分析平台-日活趋势分析-前后端对接
    • 数据运营分析平台-日活趋势分析交互查询功能开发
    • 数据运营分析平台-常规漏斗数据查询后台接口开发
    • 数据运营分析平台-常规漏斗数据查询前端开发
    • 数据运营分析平台-自定义漏斗分析后端数据接口开发(代码骨架)
    • 数据运营分析平台-自定义漏斗分析后端数据接口开发(代码实现)
播放页问题反馈
视频学习中有任何产品建议都可由此反
馈,我们将及时处理!

课时介绍

presto配置hive数据源的连接及测试

课程介绍


课程简介:

 

本项目课程是一门极具综合性和完整性的大型项目课程;课程项目的业务背景源自各类互联网公司对海量用户浏览行为数据和业务数据分析的需求及企业数据管理、数据运营需求。

 

本课程项目涵盖数据采集与预处理、数据仓库体系建设、用户画像系统建设、数据治理(元数据管理、数据质量管理)、任务调度系统、数据服务层建设、OLAP即席分析系统建设等大量模块,力求原汁原味重现一个完备的企业级大型数据运营系统。

 

拒绝demo,拒绝宏观抽象,拒绝只讲不练,本课程高度揉和理论与实战,并兼顾各层次的学员,真正从0开始,循序渐进,每一个步骤每一个环节,都会带领学员从需求分析开始,到逻辑设计,最后落实到每一行代码,所有流程都采用企业级解决方案,并手把手带领学员一一实现,拒绝复制粘贴,拒绝demo化的实现。并且会穿插大量的原创图解,来帮助学员理解复杂逻辑,掌握关键流程,熟悉核心架构。

 

 

跟随项目课程,历经接近100+小时的时间,从需求分析开始,到数据埋点采集,到预处理程序代码编写,到数仓体系搭建......逐渐展开整个项目的宏大视图,构建起整个项目的摩天大厦。

 

由于本课程不光讲解项目的实现,还会在实现过程中反复揉和各种技术细节,各种设计思想,各种最佳实践思维,学完本项目并勤于实践的话,学员的收获将远远超越一个项目的具体实现,更能对大型数据系统开发产生深刻体悟,对很多技术的应用将感觉豁然开朗,并带来融会贯通能力的巨大飞跃。当然,最直接的收获是,学完本课程,你将很容易就拿到大数据数仓建设或用户画像建设等岗位的OFFER


课程模块:


1. 数据采集:涉及到埋点日志flume采集系统,sqoop业务数据抽取系统等; 

2. 数据预处理:涉及到各类字典数据构建,复杂结构数据清洗解析,数据集成,数据修正,以及多渠道数据的用户身份标识打通:ID-MAPPING等;

3. 数据仓库:涉及到hive数仓基础设施搭建,数仓分层体系设计,数仓分析主题设计,多维分析实现,ETL任务脚本开发,ETL任务调度,数据生命周期管理等;

4. 数据治理:涉及数据资产查询管理,数据质量监控管理,atlas元数据管理系统,atlas数据血缘管理等;

5. 用户画像系统:涉及画像标签体系设计,标签体系层级关系设计,各类标签计算实现,兴趣类标签的衰减合并,模型标签的机器学习算法应用及特征提取、模型训练等;6. OLAP即席分析平台:涉及OLAP平台的整体架构设计,技术选型,底层存储实现,Presto查询引擎搭建,数据服务接口开发等;

7. 数据服务:涉及数据服务的整体设计理念,架构搭建,各类数据访问需求的restapi开发等;


课程所涉及的技术:

整个项目课程中,将涉及到一个大型数据系统中所用到的几乎所有主要技术,具体来说,包含但不限于如下技术组件:

l Hadoop

l Hive

l HBase

l SparkCore /SparkSQL/ Spark GRAPHX / Spark Mllib

l Sqoop

l Azkaban

l Flume

l lasa

l Kafka

l Zookeeper

l Solr

l Prestop





推荐课程

信息系统项目管理师自考笔记

李明 · 710人在学

python从0到1:期货量化交易系统(CTP实战,高频及合成K线数据

王先生 · 22071人在学

手把手搭建Java超市管理系统【附源码】(毕设)

汤小洋 · 4198人在学

Java毕设springboot外卖点餐系统 毕业设计毕设源码 使用教

黄菊华 · 786人在学

基于SSM酒店管理系统(毕设)

小尼老师 · 837人在学

java项目实战之购物商城(java毕业设计)

Long · 5151人在学

手把手搭建Java求职招聘系统【附源码】(毕设)

汤小洋 · 1504人在学

Python Django 深度学习 小程序

钟翔 · 2315人在学

城管局门前三包管理系统+微信小程序(vue+springboot)

赖国荣 · 597人在学

Vue+Uni-app(uniapp)入门与实战+赠送仿美团点餐小程序

李杰 · 3979人在学

正在试验
后自动删除环境
课程实验
本次实验时间已到期 00:00:00

    订阅失败

    大数据企业级项目实战--Titan大型数据运营系统项目课程
    大数据企业级项目实战--Titan大型数据运营系统项目课程 ...

    订阅列表已满,请先移出部分订阅内容。

    当前章节需购买后观看
    开通超级会员免费看!专家精选系列课程,满足你从入门到精通!更有问答月卡免费送,你的问题有问必答!
    提交答案

    购买课程

    扫码完成付费,可继续学习全部课程内容

    加载中...
    课件正在飞速打包中,请耐心等待几秒钟~