在统计数据经营规模极速澎涨的互联网时代,大数据挖掘此项鉴别关键统计数据的关键技术正充分发挥愈来愈关键的功效。它将授予你处理具体难题的“战斗力”:分折体育比赛結果、广告投放、依据著作的设计风格处理创作者所属难题,这些。这书应用简易易懂且有着丰富多彩第三方平台库和优良小区气氛的Python語言,循序渐进,以真實统计数据做为科学研究另一半,真刀实枪地为用户详细介绍Python大数据挖掘的保持方式 。根据这书,用户将迈进大数据挖掘的圣殿,深入了解大数据挖掘基本知识,把握处理大数据挖掘具体难题的优秀实践活动!
这书做为大数据挖掘新手入门读本,详细介绍了大数据挖掘的基本知识、基础小工具和实践活动方式 ,根据由浅入深地解读计算方法,陪你轻轻松松踏入大数据挖掘之行。这书选用理论研究紧密结合的方法,展现了怎么使用决策树和*山林计算方法分折美国岗位篮球联赛赛果,怎么使用亲和性统计分析方法推荐电影,怎么使用朴素贝叶斯计算方法开展社会发展新闻媒体发掘,这些。这书也涉及到神经网络、深度神经网络、大数据处理等內容。这书朝向想要学习培训和试着大数据挖掘的程序猿。
目录
- 第1章 开始数据挖掘之旅 1
- 1.1 数据挖掘简介 1
- 1.2 使用Python和IPython Notebook 2
- 1.2.1 安装Python 2
- 1.2.2 安装IPython 4
- 1.2.3 安装scikit-learn库 5
- 1.3 亲和性分析示例 5
- 1.3.1 什么是亲和性分析 5
- 1.3.2 商品推荐 6
- 1.3.3 在NumPy中加载数据集 6
- 1.3.4 实现简单的排序规则 8
- 1.3.5 排序找出最佳规则 10
- 1.4 分类问题的简单示例 12
- 1.5 什么是分类 12
- 1.5.1 准备数据集 13
- 1.5.2 实现OneR算法 14
- 1.5.3 测试算法 16
- 1.6 小结 18
- 第2章 用scikit-learn估计器分类 19
- 2.1 scikit-learn估计器 19
- 2.1.1 近邻算法 20
- 2.1.2 距离度量 20
- 2.1.3 加载数据集 22
- 2.1.4 努力实现流程标准化 24
- 2.1.5 运行算法 24
- 2.1.6 设置参数 25
- 2.2 流水线在预处理中的应用 27
- 2.2.1 预处理示例 28
- 2.2.2 标准预处理 28
- 2.2.3 组装起来 29
- 2.3 流水线 29
- 2.4 小结 30
- 第3章 用决策树预测获胜球队 31
- 3.1 加载数据集 31
- 3.1.1 采集数据 31
- 3.1.2 用pandas加载数据集 32
- 3.1.3 数据集清洗 33
- 3.1.4 提取新特征 34
- 3.2 决策树 35
- 3.2.1 决策树中的参数 36
- 3.2.2 使用决策树 37
- 3.3 NBA比赛结果预测 37
- 3.4 随机森林 41
- 3.4.1 决策树的集成效果如何 42
- 3.4.2 随机森林算法的参数 42
- 3.4.3 使用随机森林算法 43
- 3.4.4 创建新特征 44
- 3.5 小结 45
- 第4章 用亲和性分析方法推荐电影 46
- 4.1 亲和性分析 46
- 4.1.1 亲和性分析算法 47
- 4.1.2 选择参数 47
- 4.2 电影推荐问题 48
- 4.2.1 获取数据集 48
- 4.2.2 用pandas加载数据 49
- 4.2.3 稀疏数据格式 49
- 4.3 Apriori算法的实现 50
- 4.3.1 Apriori算法 51
- 4.3.2 实现 52
- 4.4 抽取关联规则 54
- 4.5 小结 60
- 第5章 用转换器抽取特征 62
- 5.1 特征抽取 62
- 5.1.1 在模型中表示事实 62
- 5.1.2 通用的特征创建模式 64
- 5.1.3 创建好的特征 66
- 5.2 特征选择 67
- 5.3 创建特征 71
- 5.4 创建自己的转换器 75
- 5.4.1 转换器API 76
- 5.4.2 实现细节 76
- 5.4.3 单元测试 77
- 5.4.4 组装起来 79
- 5.5 小结 79
- 第6章 使用朴素贝叶斯进行社会媒体挖掘 80
- 6.1 消歧 80
- 6.1.1 从社交网站下载数据 81
- 6.1.2 加载数据集并对其分类 83
- 6.1.3 Twitter数据集重建 87
- 6.2 文本转换器 90
- 6.2.1 词袋 91
- 6.2.2 N元语法 92
- 6.2.3 其他特征 93
- 6.3 朴素贝叶斯 93
- 6.3.1 贝叶斯定理 93
- 6.3.2 朴素贝叶斯算法 94
- 6.3.3 算法应用示例 95
- 6.4 应用 96
- 6.4.1 抽取特征 97
- 6.4.2 将字典转换为矩阵 98
- 6.4.3 训练朴素贝叶斯分类器 98
- 6.4.4 组装起来 98
- 6.4.5 用F1值评估 99
- 6.4.6 从模型中获取更多有用的特征 100
- 6.5 小结 102
- 第7章 用图挖掘找到感兴趣的人 104
- 7.1 加载数据集 104
- 7.1.1 用现有模型进行分类 106
- 7.1.2 获取Twitter好友信息 107
- 7.1.3 构建网络 110
- 7.1.4 创建图 112
- 7.1.5 创建用户相似度图 114
- 7.2 寻找子图 117
- 7.2.1 连通分支 117
- 7.2.2 优化参数选取准则 119
- 7.3 小结 123
- 第8章 用神经网络破解验证码 124
- 8.1 人工神经网络 124
- 8.2 创建数据集 127
- 8.2.1 绘制验证码 127
- 8.2.2 将图像切分为单个的字母 129
- 8.2.3 创建训练集 130
- 8.2.4 根据抽取方法调整训练数据集 131
- 8.3 训练和分类 132
- 8.3.1 反向传播算法 134
- 8.3.2 预测单词 135
- 8.4 用词典提升正确率 138
- 8.4.1 寻找最相似的单词 138
- 8.4.2 组装起来 139
- 8.5 小结 140
- 第9章 作者归属问题 142
- 9.1 为作品找作者 142
- 9.1.1 相关应用和使用场景 143
- 9.1.2 作者归属 143
- 9.1.3 获取数据 144
- 9.2 功能词 147
- 9.2.1 统计功能词 148
- 9.2.2 用功能词进行分类 149
- 9.3 支持向量机 150
- 9.3.1 用SVM分类 151
- 9.3.2 内核 151
- 9.4 字符N元语法 152
- 9.5 使用安然公司数据集 153
- 9.5.1 获取安然数据集 153
- 9.5.2 创建数据集加载工具 154
- 9.5.3 组装起来 158
- 9.5.4 评估 158
- 9.6 小结 160
- 第10章 新闻语料分类 161
- 10.1 获取新闻文章 161
- 10.1.1 使用Web API获取数据 162
- 10.1.2 数据资源宝库reddit 164
- 10.1.3 获取数据 165
- 10.2 从任意网站抽取文本 167
- 10.2.1 寻找任意网站网页中的主要内容 167
- 10.2.2 组装起来 168
- 10.3 新闻语料聚类 170
- 10.3.1 k-means算法 171
- 10.3.2 评估结果 173
- 10.3.3 从簇中抽取主题信息 175
- 10.3.4 用聚类算法做转换器 175
- 10.4 聚类融合 176
- 10.4.1 证据累积 176
- 10.4.2 工作原理 179
- 10.4.3 实现 180
- 10.5 线上学习 181
- 10.5.1 线上学习简介 181
- 10.5.2 实现 182
- 10.6 小结 184
- 第11章 用深度学习方法为图像中的物体进行分类 185
- 11.1 物体分类 185
- 11.2 应用场景和目标 185
- 11.3 深度神经网络 189
- 11.3.1 直观感受 189
- 11.3.2 实现 189
- 11.3.3 Theano简介 190
- 11.3.4 Lasagne简介 191
- 11.3.5 用nolearn实现神经网络 194
- 11.4 GPU优化 197
- 11.4.1 什么时候使用GPU进行
- 计算 198
- 11.4.2 用GPU运行代码 198
- 11.5 环境搭建 199
- 11.6 应用 201
- 11.6.1 获取数据 201
- 11.6.2 创建神经网络 202
- 11.6.3 组装起来 204
- 11.7 小结 205
- 第12章 大数据处理 206
- 12.1 大数据 206
- 12.2 大数据应用场景和目标 207
- 12.3 MapReduce 208
- 12.3.1 直观理解 209
- 12.3.2 单词统计示例 210
- 12.3.3 Hadoop MapReduce 212
- 12.4 应用 212
- 12.4.1 获取数据 213
- 12.4.2 朴素贝叶斯预测 215
- 12.5 小结 226
- 附录 接下来的方向 227