一、课程基本信息
课程名称 |
数据建模与应用 |
总学时 |
64 |
理论学时 |
28 |
实践学时 |
36 |
预备知识 |
熟悉Python语言基础,熟悉数据探查及预处理 |
二、课程简介
本课程是本岗位的核心课程之一,主要培养学生数据建模、模型评价和模型优化能力。内容包括:典型机器学习算法实现及应用(线性回归、逻辑回归、SVM、KNN、KMeans、朴素贝叶斯、决策树、集成学习等);回归和分类模型的性能指标和评价方法;模型优化的方法。
三、课程目标
1. 知识目标
1.1 了解数据探索建模的基本概念和原理
1.2 熟悉常见的数据挖掘和机器学习算法
1.3 了解模型的解释性和可解释性,能够通过解释模型结果来支持业务决策
2. 技能目标
2.1 具备根据不同的问题需求选择合适算法进行建模的能力
2.2 具备不同算法的模型评估技能
2.3 具备模型优选和性能优化的技能
3. 素质目标
3.1 具备问题分析和解决能力,能够根据实际问题进行数据建模,并能够评估和解释模型的有效性和可行性
3.2 具备团队协作和沟通能力,能够与他人合作完成复杂的数据分析项目,并清晰地表达自己的建模思路和结论
四、课程内容
序号 |
章 |
节 |
学时 |
教学方法 |
1 |
数学基础 |
线性代数 |
8 |
讲解+演示 |
统计与概率 |
导数与微分 |
数值优化 |
实验1:使用梯度下降算法拟合数据 |
2 |
上机实验 |
2 |
回归算法建模 |
线性回归模型 |
2 |
讲解+演示 |
模型效果的影响因素 |
实验1:简单房价预测建模 |
4 |
上机实验 |
实验2:波士顿房价预测建模 |
能力考核1:P0301-民宿价格预测建模 |
/ |
能力考核 |
3 |
分类算法建模 |
逻辑回归模型 |
5 |
讲解+演示 |
支持向量机模型 |
K近邻模型 |
贝叶斯模型 |
决策树模型 |
实验1:基于逻辑回归的乳腺癌诊断预测建模 |
10 |
上机实验 |
实验2:基于逻辑回归的手写数字识别建模 |
实验3:基于支持向量机的邮政编码手写数字识别建模 |
实验4:基于K近邻的手写数字识别建模 |
实验5:基于贝叶斯算法的文本分类预测建模 |
实验6:基于决策树的岗位录取预测建模 |
能力考核1:P0302-天气预测建模 |
/ |
能力考核 |
4 |
聚类算法建模 |
KMeans聚类模型 |
2 |
讲解+演示 |
DBSCAN聚类模型 |
实验1:运输车辆驾驶行为分析 |
2 |
上机实验 |
能力考核1:P0303-基于航空数据集的聚类建模 |
/ |
能力考核 |
5 |
模型优选 |
模型评价 |
4 |
讲解+演示 |
特征工程 |
集成学习 |
实验1:基于AUC与ROC的模型评价 |
8 |
上机实验 |
实验2:使用Filter方法进行特征筛选 |
实验3:使用Wrapper和Embedded方法进行特征筛选 |
实验4:葡萄酒分类数据集的特征降维 |
实验5:基于波士顿房价的集成学习模型 |
能力考核1:P0304-基于人口普查收入数据集的模型优选 |
/ |
能力考核 |
能力考核2:P0305-基于手写数据集的特征优化 |
6 |
业务场景建模 |
基于关联规则的模型推荐 |
3 |
讲解+演示 |
基于协同过滤的模型推荐 |
构建时间序列模型 |
实验1:基于商品购买数据的推荐模型 |
6 |
上机实验 |
实验2:基于用户对物品偏好数据的推荐模型 |
实验3:航班乘客预测模型 |
能力考核1:P0306-电影推荐模型的构建 |
/ |
能力考核 |
7 |
模型发布 |
Django快速入门 |
4 |
讲解+演示 |
使用Django发布模型 |
Flask快速入门 |
使用Flask发布模型 |
实验1:使用Django发布模型 |
4 |
上机实验 |
实验2:使用Flask发布模型 |
能力考核1:P0307-乳腺癌预测模型的发布 |
/ |
能力考核 |
课时合计: |
48 |
|
五、课程考核
本课程考核方式包括理论考核(占50%)和实践考核(占50%)两部分:
理论考核采用笔试考试(或在线答题),满分100分,采用选择、填空、判断、问答等题型,从配套题库中抽取。
实践考核采用所有能力考核的平均成绩(占50%)与综合实战(占50%),满分100分。评分方法参考各任务书。
六、参考书
机器学习原理与实战,何伟 , 张良均,人民邮电出版社,2021年07月01日
动手学机器学习,张伟楠,赵寒烨,俞勇,人民邮电出版社,2023年07月01日