《数据挖掘技术》教学大纲
一、课程基本信息
课程编码:065104C
中文名称:数据挖掘技术
英文名称:Data Mining Technology
课程类别:职业教育课
总 学 时:64
总 学 分:3
适用专业:数据科学与大数据技术
先修课程:数据结构,数理统计与概率论,数据库原理及其应用,高级程序设计语言
二、课程的性质、目标和任务
数据挖掘是综合了机器学习、统计和数据库的一门现代计算机技术,旨在发现海量数据中的模型与模式,具有巨大的应用前景。在很多重要的领域,数据挖掘都发挥着积极的作用。因此这门课程是信息管理及相关专业的重要课程之一。
《数据挖掘技术》课程是信息管理专业职业教育选修课程,通过本课程的学习使学生掌握数据挖掘的基本概念,了解数据挖掘的定义和功能以及实现数据挖掘的主要步骤和具体实现方法,初步掌握数据挖掘的算法。使同学们在学习本课程后,能实现简单的数据挖掘算法编程,了解实现数据挖掘的具体操作。
三、课程教学基本要求
通过本课程的学习,要求学生达到:
1.了解数据挖掘技术的整体概貌。
2.了解数据挖掘技术的主要应用及当前的研究热点问题和发展方向。
3.掌握最基本的概念、算法原理和技术方法。
四、课程教学内容及要求
第一章 绪论(2学时)
【教学目标与要求】
1、教学目标: 通过本章的学习,使学生对数据挖掘有一个初步、总体的认识。
2、教学要求:了解数据挖掘的应用背景、数据挖掘定义、主要技术、主要研究内容、面临的主要问题等。
【教学重点与难点】
1、教学重点:数据挖掘的定义。
2、教学难点:数据挖掘的基本步骤、主要技术和应用价值,如何激发学生对数据挖掘应用的领域及成功案例的兴趣。
【教学内容】
1.1应用背景
1.2 什么是数据挖掘
1.3 数据挖掘的主要技术
1.4 数据挖掘的主要研究内容
1.5 数据挖掘面临的主要问题
1.6 数据挖掘相关的资料
第二章 数据预处理(6学时)
【教学目标与要求】
1、教学目标:通过本章的学习,使学生使学生掌握数据的清理、集成和变换等预处理的基本方法。
2、教学要求:掌握数据预处理的基本概念、数据的描述、数据清洗、数据集成和转换和数据归约和变换等。
【教学重点与难点】
1、教学重点:数据的基本处理方法。
2、教学难点:数据处理方法的应用。
【教学内容】
2.1 前言
2.2 数据预处理的基本概念
2.3 数据的描述
2.4 数据清洗
2.5 数据集成和转换
2.6 数据归约和变换
第三章 数据仓库(10学时)
【教学目标与要求】
1、教学目标:通过本章的学习,使学生使学生掌握数据仓库的定义、多维数据模型和OLAP技术。
2、教学要求:了解并掌握数据库基本概念、数据仓库的定义、多维数据模型、数据仓库结构和功能、OLAP技术、数据仓库应用等。
【教学重点与难点】
1、教学重点:数据仓库的定义。
2、教学难点:数据仓库的存储结构模式,概念分层的理解,以及数据仓库的设计,要确保学生能较好地掌握,还需课后多查看一些相关的资料。
【教学内容】
3.1 前言
3.2 数据库基本概念回顾
3.3 数据仓库简介
3.4 多维数据模型
3.5 数据仓库结构
3.6 数据仓库的功能
3.7 从数据仓库到数据挖掘
第四章 相关性与关联规则(8学时)
【教学目标与要求】
1、教学目标:通过本章的学习,使学生了解需求管理的模型和流程;掌握需求获取、确认和控制的基本方法,理解变更控制的重要性。
2、教学要求:理解并掌握基本概念、频繁项集挖掘方法、多种关联规则挖掘、从关联分析到相关分析、基于约束的频繁模式挖掘等。
【教学重点与难点】
1、教学重点:关联规则的挖掘。
2、教学难点:Appythoniopythoni算法的应用。
【教学内容】
4.1基本概念
4.2 频繁项集挖掘方法
4.3 多种关联规则挖掘
4.4 从关联分析到相关分析
4.5 基于约束的频繁模式挖掘
第五章 分类和预测(20学时)
【教学目标与要求】
1、教学目标:通过本章的学习,使学生了解并掌握决策树、贝叶斯分类、神经网络、支持向量机等分类和预测算法。
2、教学要求:理解并掌握分类和预测的基本概念、评价,决策树分类、朴素贝叶斯分类、神经网络、支持向量机、分类准确率等。
【教学重点与难点】
1、教学重点:分类和预测方法的概念。
2、教学难点:几种主要的分类算法的应用和实现。
【教学内容】
5.1 前言
5.2 基本概念
5.3 关于分类和预测的问题
5.4 决策树分类
5.5 贝叶斯分类
5.6 神经网络
5.7 支持向量机
5.8 关联分类
5.9 分类准确率
第六章 聚类分析(18学时)
【教学目标与要求】
1、教学目标:通过本章的学习,使学生掌握使学生了解并掌握聚类分析的主要算法。
2、教学要求:理解并掌握聚类分析的定义和数据类型,流聚类方法分类与相似性质量,基于分割、层次、密度、网络和模型的聚类等。
【教学重点与难点】
1、教学重点:聚类分析的概念。
2、教学难点:几种主要的聚类分析算法的应用和实现。
【教学内容】
6.1 聚类分析的定义和数据类型
6.2 流聚类方法分类与相似性质量
6.3 基于分割的聚类
6.4 基于层次的聚类
6.5 基于密度的聚类
6.6 基于网格的聚类
6.7 基于模型的聚类
6.8 离群点检测
五、教学学时分配建议
《数据挖掘技术》课程教学时数分配表
总学时:64 学分:3
课程编码:065104C
中文名称:数据挖掘技术
英文名称:Data Mining Technology
课程类别:职业教育课
总 学 时:64
总 学 分:3
适用专业:数据科学与大数据技术
先修课程:数据结构,数理统计与概率论,数据库原理及其应用,高级程序设计语言
二、课程的性质、目标和任务
数据挖掘是综合了机器学习、统计和数据库的一门现代计算机技术,旨在发现海量数据中的模型与模式,具有巨大的应用前景。在很多重要的领域,数据挖掘都发挥着积极的作用。因此这门课程是信息管理及相关专业的重要课程之一。
《数据挖掘技术》课程是信息管理专业职业教育选修课程,通过本课程的学习使学生掌握数据挖掘的基本概念,了解数据挖掘的定义和功能以及实现数据挖掘的主要步骤和具体实现方法,初步掌握数据挖掘的算法。使同学们在学习本课程后,能实现简单的数据挖掘算法编程,了解实现数据挖掘的具体操作。
三、课程教学基本要求
通过本课程的学习,要求学生达到:
1.了解数据挖掘技术的整体概貌。
2.了解数据挖掘技术的主要应用及当前的研究热点问题和发展方向。
3.掌握最基本的概念、算法原理和技术方法。
四、课程教学内容及要求
第一章 绪论(2学时)
【教学目标与要求】
1、教学目标: 通过本章的学习,使学生对数据挖掘有一个初步、总体的认识。
2、教学要求:了解数据挖掘的应用背景、数据挖掘定义、主要技术、主要研究内容、面临的主要问题等。
【教学重点与难点】
1、教学重点:数据挖掘的定义。
2、教学难点:数据挖掘的基本步骤、主要技术和应用价值,如何激发学生对数据挖掘应用的领域及成功案例的兴趣。
【教学内容】
1.1应用背景
1.2 什么是数据挖掘
1.3 数据挖掘的主要技术
1.4 数据挖掘的主要研究内容
1.5 数据挖掘面临的主要问题
1.6 数据挖掘相关的资料
第二章 数据预处理(6学时)
【教学目标与要求】
1、教学目标:通过本章的学习,使学生使学生掌握数据的清理、集成和变换等预处理的基本方法。
2、教学要求:掌握数据预处理的基本概念、数据的描述、数据清洗、数据集成和转换和数据归约和变换等。
【教学重点与难点】
1、教学重点:数据的基本处理方法。
2、教学难点:数据处理方法的应用。
【教学内容】
2.1 前言
2.2 数据预处理的基本概念
2.3 数据的描述
2.4 数据清洗
2.5 数据集成和转换
2.6 数据归约和变换
第三章 数据仓库(10学时)
【教学目标与要求】
1、教学目标:通过本章的学习,使学生使学生掌握数据仓库的定义、多维数据模型和OLAP技术。
2、教学要求:了解并掌握数据库基本概念、数据仓库的定义、多维数据模型、数据仓库结构和功能、OLAP技术、数据仓库应用等。
【教学重点与难点】
1、教学重点:数据仓库的定义。
2、教学难点:数据仓库的存储结构模式,概念分层的理解,以及数据仓库的设计,要确保学生能较好地掌握,还需课后多查看一些相关的资料。
【教学内容】
3.1 前言
3.2 数据库基本概念回顾
3.3 数据仓库简介
3.4 多维数据模型
3.5 数据仓库结构
3.6 数据仓库的功能
3.7 从数据仓库到数据挖掘
第四章 相关性与关联规则(8学时)
【教学目标与要求】
1、教学目标:通过本章的学习,使学生了解需求管理的模型和流程;掌握需求获取、确认和控制的基本方法,理解变更控制的重要性。
2、教学要求:理解并掌握基本概念、频繁项集挖掘方法、多种关联规则挖掘、从关联分析到相关分析、基于约束的频繁模式挖掘等。
【教学重点与难点】
1、教学重点:关联规则的挖掘。
2、教学难点:Appythoniopythoni算法的应用。
【教学内容】
4.1基本概念
4.2 频繁项集挖掘方法
4.3 多种关联规则挖掘
4.4 从关联分析到相关分析
4.5 基于约束的频繁模式挖掘
第五章 分类和预测(20学时)
【教学目标与要求】
1、教学目标:通过本章的学习,使学生了解并掌握决策树、贝叶斯分类、神经网络、支持向量机等分类和预测算法。
2、教学要求:理解并掌握分类和预测的基本概念、评价,决策树分类、朴素贝叶斯分类、神经网络、支持向量机、分类准确率等。
【教学重点与难点】
1、教学重点:分类和预测方法的概念。
2、教学难点:几种主要的分类算法的应用和实现。
【教学内容】
5.1 前言
5.2 基本概念
5.3 关于分类和预测的问题
5.4 决策树分类
5.5 贝叶斯分类
5.6 神经网络
5.7 支持向量机
5.8 关联分类
5.9 分类准确率
第六章 聚类分析(18学时)
【教学目标与要求】
1、教学目标:通过本章的学习,使学生掌握使学生了解并掌握聚类分析的主要算法。
2、教学要求:理解并掌握聚类分析的定义和数据类型,流聚类方法分类与相似性质量,基于分割、层次、密度、网络和模型的聚类等。
【教学重点与难点】
1、教学重点:聚类分析的概念。
2、教学难点:几种主要的聚类分析算法的应用和实现。
【教学内容】
6.1 聚类分析的定义和数据类型
6.2 流聚类方法分类与相似性质量
6.3 基于分割的聚类
6.4 基于层次的聚类
6.5 基于密度的聚类
6.6 基于网格的聚类
6.7 基于模型的聚类
6.8 离群点检测
五、教学学时分配建议
《数据挖掘技术》课程教学时数分配表
总学时:64 学分:3
章节 | 主要内容(章节标题) | 学时 | 各环节学时分分配 | 备注 | |||
讲授 | 实验 | 实践 | 讨论、习题课等 | ||||
第一章 | 绪论 | 2 | 2 | ||||
第二章 | 数据预处理 | 6 | 4 | 2 | |||
第三章 | 数据仓库 | 10 | 6 | 4 | |||
第四章 | 相关性与关联规则 | 8 | 6 | 2 | |||
第五章 | 分类和预测 | 20 | 8 | 12 | |||
第六章 | 聚类分析 | 18 | 6 | 12 |
六、课内实验与学时分配
《数据挖掘技术》课程实验教学一览表
序号 | 实验项目名称 | 实验学时 | 实验类型 | 所需主要仪器设备 | 必做/选做 | 是否为开放实验 | 备注 |
1 | 数据预处理与安装python | 2 | 验证性 | 计算机PC | 必做 | 否 | |
2 | 数据仓库设计 | 4 | 设计性 | 计算机PC | 必做 | 否 | |
3 | 关联规则挖掘 | 2 | 验证性 | 计算机PC | 必做 | 否 | |
4 | 决策树分类 | 6 | 验证性 | 计算机PC | 必做 | 否 | |
5 | 贝叶斯分类 | 6 | 验证性 | 计算机PC | 必做 | 否 | |
6 | 基于分割的聚类 | 6 | 验证性 | 计算机PC | 必做 | 否 | |
7 | 基于层次的聚类 | 6 | 验证性 | 计算机PC | 必做 | 否 |
七、教学策略与方法建议
建议多采用课堂教学和上机实验相结合的教学模式,使学生深刻理解、牢固掌握所用到的一些数据挖掘技术,培养学生数据分析和处理的能力,具体建议如下:
l 采用计算机辅助教学授课形式,需要多媒体机房及多媒体教学网。
l 充分利用局域网、因特网,为学生提供良好的学习资源及环境,培养自主学习能力,同时
方便教师与学生间的信息(作业、问题探讨等)交流。
八、教材与学习资源建议
主要教材:蒋国银 等编著.《数据挖掘原理、方法及python应用》,科学出版社.
参考书:
1、张云涛、龚玲著.《数据挖掘原理与技术》,电子工业出版社,2004.
2、陈京民编著.《数据仓库与数据挖掘技术》,电子工业出版社,2002.
3、林杰斌主编.《数据挖掘与OLAP理论与实务》,清华大学出版社,2003.1.
4、朱明编著.《数据挖掘》,中国科学技术大学出版社,2002.2.
5、pythonichapythond J. pythonoigepython, Michael W. Geatz 著,翁敬农 译.《数据挖掘教程》,清华大学出版社,2003.
6、Jiawei Han、Micheline·Kambepython 著,范明等译,《数据挖掘概念与技术》,机械工业出版社,2014年,第3版.
7、David Hand, Heikki Mannila, Padhpythonaic Smyth著,张银奎、廖丽、宋俊等译.《数据挖掘原理》,机械工业出版社,2003.
九、课程考核方式与成绩评定建议
课程总成绩由平时考核成绩和期末考核成绩两部分组成。平时考核成绩应占总成绩的40%,期末考核成绩应占总成绩的60%。
平时考核成绩:平时成绩共计100分,主要包括平时考勤、作业、实验等组成、考核办法由教师根据学习要求制定考核方案。
制 订:数学与信息技术学院 教研室:大数据技术教研室
执笔人:李奋华 审订人:王琦