一、课程基本信息

二、课程简介
本业务来自高速ETC收费系统,系统数据存在来源多样,格式复杂,存在脏数据等特点,需要求定期将数据从各子系统迁移整合至数据中心内;
数据中心应做好大数据环境的部署,并进行数据仓库的分层设计,根据数据来源及用途设计不同的数仓表结构,以达到在效率和公用性上的平衡;
在数据迁移过程中,需要进行数据清洗及预处理,将可能存在的脏数据排除在数仓之外;
整个系统需要每日进行日常维护操作,以保证系统能够稳定高效的运行,并为系统设计备份恢复策略,以确保数据安全性。
三、课程目标
1. 知识目标
1.1 加深对大数据数据项目流程的理解
1.2 加深对大数据常用组件的理解,掌握大数据分析的常用手段
2. 技能目标
2.1 熟练大数据常用组件的安装部署,能够独立完成大数据组件的安装工作
2.2 能够支撑大数据环境平台实现;能够实现大数据环境中数据仓库的建设;能够实现大数据清洗及预处理;能够实现大数据迁移整合;能够实现大数据的备份恢复功能;
2.3 熟悉数据分析的方法,掌握大数据统计分析程序的编写,能够配合各层级程序进行整合联调
3. 素质目标
3.1 具备一定的数据思维和架构思维
3.2 养成良好的中、英文技术资料的查询、阅读和自学能力
四、课程内容

五、课程考核
本模块考核方式包括过程考核(占50%)和结果考核(占50%)两部分。
过程考核以各任务提交内容是否符合工单中的验收要求为准,满分100分(任务一 ~ 任务六均15分,任务七10分)。
结果考核采用项目答辩方式,满分100分,由答辩老师负责进行打分。
六、参考书
\