近年来,许多大学纷纷开设了数据科学与大数据技术专业,数据企业也高度重视数据科学家的培养训练。培养数据科学家需要师资条件、数据条件、计算条件等三个基础条件。本书关注数据条件的建设。
本书共分九章。第1章介绍了相似点集挖掘的基本原理和基本类型,包括聚类分析、特异群组分析和异常分析等;第2章是数据集产品的内容说明和使用手册;第3章至第6章分别介绍了四种球状多簇数据集、双月数据集、海量噪声数据集、三叶结数据集等四个抽象的数据集及其使用方法;第7章至第9章分别介绍了证券投资交互数据集、日志序列数据集、社交网络数据集等三个有实际应用背景的模拟数据集及其使用方法。
本书的读者对象主要是数据科学与大数据技术相关专业的老师和学生、企事业单位大数据相关部门的员工,本书介绍的数据集产品主要用于相似点集挖掘算法的设计实验、算法实验和算法效果评估。
目 录
第1章相似点集挖掘 001
1.1 概述 001
1.2 聚类分析 004
1.3 异常分析 006
1.4 特异群组分析 008
第2章数据集说明 011
2.1 数据产品的规范要求 011
2.1.1 数据集 011
2.1.2 数据产品说明 013
2.2 数据产品完整性 015
2.3 数据产品可用性 018
2.4 七种数据集概览 019
2.4.1 关于数据规模 019
2.4.2 抽象相似点集 021
2.4.3 实际数据集模拟 024
2.5 数据产品使用说明 026
2.5.1 单机环境加载数据集 027
2.5.2 集群环境加载数据集 029
第3章 球状多簇数据集 037
3.1 概述 037
3.2 数据规模 040
3.3 字段说明 041
3.4 数据获取 041
3.4.1 单机环境加载数据集 041
3.4.2 集群环境加载数据集 043
3.5 数据样例 045
3.6 代码和结果示例 046
第4章 双月数据集 048
4.1 概述 048
4.2 数据规模 051
4.3 字段说明 051
4.4 数据获取 052
4.4.1 单机环境加载数据集 052
4.4.2 集群环境加载数据集 054
4.5 数据样例 056
4.6 代码和结果示例 057
第5章 海量噪声数据集 059
5.1 概述 059
5.2 数据规模 062
5.3 字段说明 063
5.4 数据获取 063
5.4.1 单机环境加载数据集 063
5.4.2 集群环境加载数据集 065
5.5 数据样例 067
5.6 代码和结果示例 068
第6章 三叶结数据集 070
6.1 概述 070
6.2 数据规模 073
6.3 字段说明 073
6.4 数据获取 074
6.4.1 单机环境加载数据集 074
6.4.2 集群环境加载数据集 076
6.5 数据样例 078
6.6 代码和结果示例 080
第7章 证券投资交互数据集 082
7.1 概述 082
7.2 数据规模 086
7.3 字段说明 087
7.4 数据获取 087
7.4.1 单机环境加载数据集 087
7.4.2 集群环境加载数据集 090
7.5 数据样例 091
7.6 代码和结果示例 094