一、
课程基本信息
课程名称 |
数据采集与预处理 |
总学时 |
64 |
理论学时 |
24 |
实践学时 |
40 |
预备知识 |
熟悉Python语言基础 |
二、课程简介
本课程是本岗位的核心课程之一,教授学生如何获取各种类型的数据并进行必要的清洗和处理,使其符合后续分析和建模的要求。内容主要包括数据采集与存储方法、数据清洗和处理、数据规范化和转换以及数据可视化等方面的内容。学生将使用Python编程语言来实现数据采集和预处理过程,并掌握各种常见的数据探查与处理技术和方法,为后续的数据建模与应用打下坚实的基础。
三、课程目标
1. 知识目标
1.1 掌握互联网大数据采集及数据存储的相关技术
1.2 掌握数据探索和数据处理的相关技术
1.3 了解常用的统计方法和工具,以及如何应用它们来分析和解释数据
2. 技能目标
2.1 熟悉典型数据采集的技术原理、技术框架及实现方法
2.2 熟悉常用本地文本、数据库的操作
2.3 具备数据探索和数据处理的能力
2.4 具备数据可视化的技能,能够使用图像和有效地传达数据探查的结果
2.5 能够独立完成从数据采集到数据探查与预处理的全过程操作
3. 素质目标
3.1 建立团队协助、团队互助等意识
3.2 养成持续学习和创新意识
四、课程内容
序号 |
章 |
节 |
学时 |
教学方法 |
1 |
数据采集与预处理概述 |
数据采集与预处理概述 |
1 |
讲解 |
实验1:搭建Python开发环境 |
2 |
上机实验 |
2 |
本地文件数据的存储与查询 |
文件相关信息获取 |
4 |
讲解+演示 |
文本文件的数据存储 |
结构化文本数据存储 |
特定应用程序数据存储 |
实验1:热销菜品信息存储 |
4 |
上机实验 |
实验2:信息获取与格式转换 |
能力考核1:P0101-电视剧评分排行信息存储 |
/ |
能力考核 |
能力考核2:P0102-智能问答机器人数据整理 |
3 |
数据库的存储与查询 |
数据库基础 |
4 |
讲解+演示 |
使用Python操作MySQL数据库 |
使用Python操作Redis数据库 |
使用Python操作MongoDB数据库 |
实验1:客户信息的存储与查询 |
6 |
上机实验 |
实验2:商品库存管理 |
实验3:图书信息的存储与统计 |
能力考核1:P0103-电影信息的存储 |
/ |
能力考核 |
4 |
网络数据采集技术 |
urllib 模块的使用 |
5 |
讲解+演示 |
requests 模块的使用 |
API接口数据采集 |
网页数据的解析与提取 |
常见的反爬措施 |
使用爬虫框架进行数据采集 |
实验1:文本信息的获取 |
6 |
上机实验 |
实验2:肯德基门店信息的获取 |
实验3:股票信息的获取 |
能力考核1:P0104-城市信息查询 |
/ |
能力考核 |
能力考核2:P0105-电影排行数据的采集 |
5 |
NumPy-数据处理基础工具 |
NumPy基础 |
3 |
讲解+演示 |
数组的索引与切片 |
利用NumPy进行数据处理 |
实验1:统计数组的基本信息 |
2 |
上机实验 |
能力考核1:P0201-糖尿病患者数据集的统计 |
/ |
能力考核 |
6 |
Pandas-处理结构化数据 |
Series和DataFrame对象 |
2 |
讲解+演示 |
利用Pandas进行数据处理 |
实验1:泰坦尼克号数据集中缺失值与重复值的处理 |
2 |
上机实验 |
能力考核1:P0202-航空数据相关性与数据分布探查 |
/ |
能力考核 |
7 |
数据可视化技术 |
Matplotlib数据可视化 |
3 |
讲解+演示 |
Seaborn数据可视化 |
pyecharts数据可视化 |
实验1:词云可视化 |
6 |
上机实验 |
实验2:酒店预订数据集探索 |
实验3:星巴克全球门店分布图的绘制 |
能力考核1:P0203-汽车销量数据可视化 |
/ |
能力考核 |
能力考核2:P0204-全球疫情数据可视化 |
8 |
数据预处理 |
数据探索 |
2 |
讲解+演示 |
数据预处理 |
实验1:经济发展和环境状况数据处理-标准化和归一化处理 |
6 |
上机实验 |
实验2:岗位招聘信息处理-文本数值化处理 |
实验3:人口数据信息处理-离散化和分箱处理 |
实验4:鸢尾花数据集处理-数据集的拆分 |
能力考核1:P0205-泰坦尼克号遇难数据集整理 |
/ |
能力考核 |
9 |
综合案例 |
实验1:汽车进口数据集探索 |
6 |
上机实验 |
实验2:收入水平数据集处理 |
实验3:淋巴系统造影检测结果数据集处理 |
课时合计: |
48 |
|
五、课程考核
本课程考核方式包括理论考核(占50%)和实践考核(占50%)两部分:
理论考核采用笔试考试(或在线答题),满分100分,采用选择、填空、判断、问答等题型,从配套题库中抽取。
实践考核采用所有作业的平均成绩,满分100分。评分方法参考各作业任务书。
六、参考书
Python3网络爬虫开发实战 (第2版),崔庆才,人民邮电出版社,2021年11月01日
Python数据分析与可视化案例教程,余本国,人民邮电出版社,2022年06月01日