编辑推荐
联袂推荐
暨南大学教授、博士生导师刘建平,暨南大学研究生院副院长、经济学院统计学系副主任、教授、博士生导师陈光慧,天善智能创始人梁勇,IBM技术专家刘咏梅,IBM数据科学家钟云飞,广东省环保厅环境咨询专家委员会专家、广东柯内特环境科技有限公司总经理朱斌n
本书特色
内容全面:涉及数据读取、数据处理、数据可视化、统计分析与检验、数据挖掘算法、自动建模、集成与扩展、模型部署、性能优化、数据挖掘方法论等诸多内容;n
讲解透彻:既有理论的讲解,又涵盖应用的实践,而且在工具的介绍上,尽可能包括每一个选项的内容和应用形式,力求让读者“吃透”每一章节的内容;n
突出实战:集行业经验、项目实践、算法剖析、应用技巧于一身,配套提供数据文件以及数据模型文件,方便读者动手实践。
内容简介
本书是一本以数据挖掘应用为主导,以SPSS Modeler为实践框架的应用指南,内容涵盖数据挖掘方法论、数据读取、数据处理、数据可视化、统计分析与检验、数据挖掘算法、自动建模、集成与扩展、模型部署以及性能优化等,力求帮助读者全面掌握数据挖掘项目的主要内容以及实践细节。n
除了操作层面,本书也尽可能地把专业晦涩的数据挖掘知识及商业应用内容以通俗易懂的方式传递给读者,同时所有场景会结合IBM SPSS工具进行实现并提供样例学习,方便读者在学习的同时加深巩固和理解。n
如果你是在校学生、刚刚从事数据分析的大学毕业生、数据分析爱好者、市场营销人员、产品运营人员或者数据分析师,如果你希望提升自己的数据挖掘技术,那么就适合阅读本书。
作者简介
张浩彬
人称“浩彬老撕”,历任IBM华南区SPSS分析工程师,IBM大中华区认知解决方案专家,现任广东柯内特环境科技有限公司数据科学家。多年来一直从事数据分析、数据挖掘的商业应用项目,专注于人工智能的商业化技术应用,曾与人合著《数据实践之美》,独自创作《小白学数据挖掘与机器学习:SPSS Modeler案例篇》。个人微信公众号:探数寻理(wetalkdata),致力于机器学习及应用技术分享。n
周伟珠,
曾在IBM华南区大数据分析部门担任售前咨询顾问,专门负责SPSS产品的推广、培训及方案咨询,熟悉SPSS Modeler、SPSS Statistics和SPSS Cooperations and deployment services产品的使用及应用场景,现任汇丰银行数据分析师。热爱写作,曾为IBM大数据技术团队微信公众号原创30多篇文章,与广大客户朋友分享SPSS数据挖掘技术及应用,并获得一致好评。近十几年一直从事数据分析工作,积累了金融、电信、零售、制造、互联网、电商、政府等多个行业的数据分析项目经验。
目录
- 第 1章 IBM SPSS Modeler基本介绍 1n
- 1.1 SPSS简介 1n
- 1.2 SPSS Modeler的特点 1n
- 1.3 CRISP-DM方法论 4n
- 1.4 SPSS Modeler 下载与安装 6n
- 1.5 SPSS Modeler的主界面及基本操作 9n
- 1.5.1 主界面介绍 9n
- 1.5.2 鼠标基本操作 15n
- 1.6 SPSS Modeler连接服务器端 15n
- 1.7 从SPSS Modeler中获取帮助 17n
- 1.8 实战技巧 20n
- 第 2章 数据读取——源节点 24n
- 2.1 数据的身份(存储类型、测量级别和角色) 24n
- 2.1.1 变量的存储类型 24n
- 2.1.2 变量的测量级别 25n
- 2.1.3 变量的角色 26n
- 2.2 数据读取 26n
- 2.2.1 读取Excel文件数据 27n
- 2.2.2 读取变量文件数据 30n
- 2.2.3 读取SPSS(.sav)文件数据 32n
- 2.2.4 读取数据库数据 36n
- 2.3 实战技巧 40n
- 第3章 数据整理——关于数据的基本设定与集成 43n
- 3.1 字段的“类型”功能 43n
- 3.2 字段的“过滤器”功能 44n
- 3.3 数据集成 46n
- 3.3.1 数据的记录集成:追加节点 46n
- 3.3.2 数据的字段集成:合并节点 49n
- 3.4 实战技巧 51n
- 第4章 数据整理——关于行的处理 53n
- 4.1 数据“选择”功能 53n
- 4.1.1 功能介绍 53n
- 4.1.2 实战技巧 55n
- 4.2 使用参数及全局变量实现数据选择功能 56n
- 4.2.1 参数功能 56n
- 4.2.2 使用参数实例介绍 57n
- 4.2.3 使用全局变量功能介绍 59n
- 4.2.4 使用全局变量实例介绍 59n
- 4.3 数据排序 62n
- 4.4 数据区分 63n
- 4.5 数据汇总 68n
- 4.5.1 功能介绍 68n
- 4.5.2 实战技巧 72n
- 第5章 数据整理——关于列的处理 73n
- 5.1 导出 73n
- 5.1.1 功能介绍 73n
- 5.1.2 实例介绍 81n
- 5.2 填充 84n
- 5.3 重新分类 86n
- 5.4 匿名化 89n
- 5.5 分级化 92n
- 5.6 设为标志 100n
- 5.6.1 功能介绍 100n
- 5.6.2 实例介绍 100n
- 5.7 重建 103n
- 5.7.1 功能介绍 103n
- 5.7.2 实例介绍 104n
- 5.8 转置 107n
- 5.8.1 功能介绍 107n
- 5.8.2 实例介绍 107n
- 5.9 历史记录 109n
- 5.9.1 功能介绍 109n
- 5.9.2 实例介绍 109n
- 5.10 字段重排 113n
- 5.11 时间间隔 116n
- 5.11.1 功能介绍 116n
- 5.11.2 实例介绍 116n
- 5.12 自动数据准备 121n
- 第6章 图形可视化——图形节点 128n
- 6.1 “散点图”节点 128n
- 6.1.1 散点图 128n
- 6.1.2 线图 139n
- 6.1.3 多重散点图 142n
- 6.1.4 时间散点图 143n
- 6.2 “条形图”节点 145n
- 6.2.1 简单条形图 145n
- 6.2.2 堆积条形图 147n
- 6.3 “直方图”节点 148n
- 6.3.1 直方图 148n
- 6.3.2 堆积直方图 149n
- 6.4 “网络”节点 151n
- 6.5 “图形板”节点 154n
- 6.5.1 气泡图 155n
- 6.5.2 散点图矩阵 156n
- 6.5.3 箱图 157n
- 6.5.4 聚类箱图 159n
- 6.5.5 热图 161n
- 6.6 实战技巧:图形的编辑模式 162n
- 第7章 描述性统计分析 164n
- 7.1 描述性统计分析概述 164n
- 7.2 数据审核,一键输出描述性统计分析结果169n
- 7.3 缺失值的定义、检查和处理 173n
- 7.3.1 缺失值的定义和检查 173n
- 7.3.2 缺失值的自动化处理 177n
- 7.4 实战技巧 182n
- 第8章 常用的统计检验分析 184n
- 8.1 两个连续型变量的关系分析——相关分析 184n
- 8.1.1 相关分析 184n
- 8.1.2 相关分析实践——“Statistics”节点 185n
- 8.2 两个分类型变量的关系分析——卡方检验 187n
- 8.2.1 列联表与卡方检验 188n
- 8.2.2 卡方检验实践——“矩阵”节点 190n
- 8.3 连续型变量与分类型变量间的关系分析——t检验及卡方分析 193n
- 8.3.1 两组独立样本均值比较 193n
- 8.3.2 两组配对样本均值比较 194n
- 8.3.3 方差分析 194n
- 8.3.4 均值比较实践——“平均值”节点 195n
- 8.4 实战技巧:相关分析的注意事项 199n
- 第9章 回归分析 200n
- 9.1 一元线性回归分析 200n
- 9.2 一元线性回归实践 203n
- 9.3 多元线性回归分析 206n
- 9.4 多元线性回归实践 210n
- 9.5 逐步回归分析 216n
- 9.6 逐步回归实践 218n
- 9.7 实战技巧 220n
- 第 10章 Logistic回归分析 222n
- 10.1 Logistic回归理论概要 222n
- 10.2 Logistic回归中的检验 225n
- 10.2.1 方程的显著性检验 225n
- 10.2.2 系数显著性检验 225n
- 10.2.3 拟合优度检验 227n
- 10.3 Logistic回归实践案例 228n
- 10.4 实战技巧 237n
- 第 11章 建模前的优化及准备工作 241n
- 11.1 样本管理与分区 241n
- 11.1.1 数据抽样 241n
- 11.1.2 数据分区 244n
- 11.1.3 数据平衡 245n
- 11.2 特征选择 247n
- 11.3 数据变换 253n
- 11.4 实战技巧:分区与平衡的顺序 255n
- 第 12章 RFM分析 257n
- 第 13章 决策树 264n
- 13.1 决策树概述 264n
- 13.1.1 决策树的直观理解 264n
- 13.1.2 决策树的生长 265n
- 13.1.3 决策树的剪枝 266n
- 13.2 C5.0算法 267n
- 13.2.1 C5.0算法的决策树生长 267n
- 13.2.2 C5.0算法的决策树剪枝 270n
- 13.2.3 代价敏感学习 270n
- 13.2.4 C5.0算法实践案例 271n
- 13.3 CART算法 277n
- 13.3.1 CART算法的决策树生长 277n
- 13.3.2 CART算法的决策树剪枝 279n
- 13.3.3 先验概率 280n
- 13.3.4 CART算法实践案例 281n
- 13.4 实战技巧 287n
- 13.4.1 生成规则集 287n
- 13.4.2 跟踪规则 289n
- 第 14章 神经网络 291n
- 14.1 感知机 292n
- 14.2 多层感知机与误差反向传播算法 295n
- 14.2.1 隐藏层 295n
- 14.2.2 反向传播算法 296n
- 14.3 神经网络实践 299n
- 14.4 实战技巧:生成“报告” 305n
- 第 15章 集成学习算法 311n
- 15.1 Bagging 311n
- 15.2 Boosting 312n
- 15.3 随机森林 314n
- 15.4 集成学习算法实践 314n
- 15.4.1 Bagging和Boosting实践 315n
- 15.4.2 随机森林实践 320n
- 15.4.3 各个集成学习算法的结果比较 324n
- 15.5 异质集成——“整体”节点 325n
- 第 16章 聚类分析 330n
- 16.1 聚类方法概述 330n
- 16.2 聚类方法的关键:距离 330n
- 16.3 K-means算法 331n
- 16.3.1 K-means算法原理 331n
- 16.3.2 K-means的其他注意事项 332n
- 16.4 K-means聚类实践 335n
- 16.5 实践技巧:使用平行图进行比较分析 341n
- 第 17章 KNN分类器 343n
- 17.1 KNN学习方法原理 343n
- 17.2 KNN分类实践 345n
- 17.2.1 分类预测 346n
- 17.2.2 最近邻识别 353n
- 第 18章 关联分析 356n
- 18.1 关联分析的基本概念 356n
- 18.2 关联规则的有效性指标 357n
- 18.2.1 关联规则的基础评价性指标 358n
- 18.2.2 关联规则的实用性指标 359n
- 18.2.3 其他的关联规则评估指标 360n
- 18.3 Apriori算法 361n
- 18.3.1 生成频繁项集 361n
- 18.3.2 生成关联规则 362n
- 18.4 Apriori关联分析实践 363n
- 18.5 实战技巧:导出生成的关联规则 367n
- 第 19章 自动建模 368n
- 19.1 自动分类 368n
- 19.1.1 功能介绍 368n
- 19.1.2 实例介绍 368n
- 19.2 自动聚类 375n
- 19.2.1 功能介绍 375n
- 19.2.2 实例介绍 376n
- 19.3 自动数值 381n
- 19.3.1 功能介绍 381n
- 19.3.2 实例介绍 381n
- 第 20章 蒙特卡罗模拟法 386n
- 20.1 模拟生成 386n
- 20.1.1 功能介绍 386n
- 20.1.2 实例介绍 389n
- 20.2 模拟拟合 393n
- 20.2.1 功能介绍 393n
- 20.2.2 实例介绍 394n
- 20.3 模拟求值 396n
- 20.3.1 功能介绍 396n
- 20.3.2 实例介绍 396n
- 第 21章 SPSS Modeler的集成与扩展 404n
- 21.1 SPSS Modeler与R、Python集成 404n
- 21.1.1 概述 404n
- 21.1.2 SPSS Modeler与R的集成环境准备 404n
- 21.1.3 与R的集成功能介绍 407n
- 21.1.4 实例介绍 408n
- 21.2 定制对话框实现与R、Python的集成 416n
- 21.2.1 定制对话框简介 416n
- 21.2.2 安装配置自定义节点 422n
- 21.3 SPSS Modeler扩展功能 422n
- 21.3.1 功能介绍 422n
- 21.3.2 获取天气数据的应用分析案例 425n
- 第 22章 SPSS Modeler模型部署 434n
- 22.1 产品架构 434n
- 22.2 通过批处理任务定时运行模型 435n
- 22.2.1 功能介绍 435n
- 22.2.2 实例介绍 436n
- 22.3 SPSS Modeler服务器安装及管理(For Linux) 438n
- 22.3.1 正常维护SPSS Modeler服务器 438n
- 22.3.2 SPSS Modeler 服务器如何在Linux上安装及配置 439n
- 22.3.3 配置ODBC连接数据库 440n
- 22.4 SPSS Modeler官方支持的数据库和Hadoop平台 443n
- 第 23章 性能优化 448n
- 23.1 功能介绍 448n
- 23.2 客户端SQL性能优化 451n
- 23.3 数据库内建模 453n
- 23.3.1 功能介绍 453n
- 23.3.2 实例介绍 453n
- 23.4 使用外部程序批量加载 456