《数据之魅:基于开源工具的数据分析》结合作者雅奈特多年来从事数据分析工作的丰富经验,阐述了数据分析所涉及的概念和方法。本书四部分19章,主题包括如何通过图表来观察数据,如何通过各种建模方法来分析数据,然后着重阐述如何进行数据挖掘,最后强调数据分析在商业和金融等领域的实际应用。本书包含大量的模拟过程及结果展示,并通过实例来阐述如何使用开源工具来进行数据分析。通过本书的阅读,读者可以清楚地了解这些方法的实际用法及用途。《数据之魅:基于开源工具的数据分析》结构合理,通俗易懂,适合数据分析爱好者和从业者阅读,也适合以科学计算为工具的科研人员参考。同时,本书还适用于计算机科学、数学、工程技术和其他相关专业本科或研究生的数据分析课程,是一本不错的参考书。
目录
- 第1 章导论
- 数据分析
- 本书内容
- 关于讲习班
- 关于数学
- 需要具备的知识
- 本书不涉及的内容
- 第Ⅰ部分图表:观察数据
- 第 2 章单一变量:形状和分布
- 数据点和抖动图
- 直方图和核密度估计
- 直方图
- 核密度估计
- (选学)如何选择最优带宽
- 累积分布函数
- (选学)概率图分布和QQ 图
- 分布的对比
- 秩序图和上升图
- 仅用于适当时机:汇总统计量和箱形图
- 汇总统计量
- Box-and-Whisker 图
- (讲习班)NumPy
- NumPy 实践
- NumPy 详解
- 扩展阅读
- 第3 章两个变量:建立关系
- 散点图
- 克服噪声:平滑
- 样条
- LOESS
- 示例
- 残差
- 其他观点及提醒
- 对数图
- 倾斜
- 线性回归以及诸如此类的方法
- 描述重要信息
- 图形分析与图形演示
- (讲习班)matplotlib
- 交互式使用matplotlib
- 案例学习:matplotlib 与
- LOESS
- 控制属性
- matplotlib 对象模型及结构 零碎知识
- 扩展阅读
- 第4 章以时间为变量:
- 时序分析
- 示例
- 任务
- 需求和现实
- 平滑处理
- 移动平均法
- 指数平滑法
- 不要忽视显而易见的东西
- 相关函数
- 示例
- 实现上的问题
- (选学)过滤器和卷积
- (讲习班)scipysignal
- 扩展阅读
- 第5 章多变量:图形的多变量分析
- 假色图
- 概览:多值图
- 散点图矩阵
- 协作图
- 变种
- 组成问题
- 组成的改变
- 多维组成:树形图和马赛克图
- 新颖的曲线类型标识符
- 平行坐标图
- 交互式探索
- 查询和缩放
- 连接和涂层
- 大游览与投影寻踪工具
- (讲习班)多变量图形工具R
- 实验工具Python 的Chaco 库
- 扩展阅读
- 第6 章插曲:数据分析会话
- 数据分析会话
- (讲习班)gnuplot 软件
- 扩展阅读
- 第Ⅱ部分分析:数据建模
- 第 7 章推算和粗略计算
- 推算的原理
- 估计大小
- 建立关联
- 使用数字
- 10 的幂
- 小扰动
- 对数 更多示例
- 我所知道的一些常见事(物)
- 的相关数字
- 这些数字是否足够好?
- 准备工作:可行性和成本
- 完成之后:引用和
- 呈现数字
- (选学)进一步探索摄动理论和
- 误差传播
- 误差传播
- (讲习班)Gnu 科学库(GSL)
- 扩展阅读
- 第8 章缩放参数模型
- 模型
- 建模
- 模型的运用和误用
- 参数的缩放
- 缩放参数
- 示例:维度参数
- 示例:优化问题
- 示例:成本模型
- (选学)缩放参数与
- 量纲分析
- 其他理论
- 平均场近似
- 背景知识和其他示例
- 常见的时间演变方案
- 无限增长和衰减现象
- 约束增长:逻辑斯谛方程
- 振荡
- 案例学习:多少台服务器才是
- 最好的?
- 为什么要建模?
- (讲习班)Sage
- 扩展阅读
- 第9 章关于概率模型的讨论
- 91 二项分布和伯努利试验
- 精确的结果
- 利用伯努利试验建立平均场
- 模型
- 92 高斯分布和中心极限定理
- 中心极限定理
- 中心项与尾项
- 为什么高斯分布如此实用?
- (选学)高斯积分
- 幂律分布和非常规统计学
- 幂律分布的用法
- (选学)期望值为无限时的
- 分布
- 接下来的研究
- 其他分布
- 几何分布
- 泊松分布
- 对数正态分布
- 特殊用途的分布 (选学)案例学习--随时间变化的单一访问者数量
- (讲习班)幂律分布
- 扩展阅读
- 第10 章你真正需要了解的经典统计学知识起源
- 统计学的定义
- 从统计学角度解释
- 示例:公式测验
- VS 图解法
- 控制实验VS 观察研究
- 实验设计
- 前景
- (选学)贝叶斯统计--
- 另一种观点
- 用频率论来解释概率
- 用贝叶斯方法来理解概率
- 贝叶斯数据分析: 一个实际有
- 效的例子
- 贝叶斯推理:总结与讨论
- (讲习班)R 语言
- 扩展阅读
- 第11 章插叙:数学大搜捕--
- 大脚怪和最小二
- 乘等
- 111 如何平均均值
- 辛普森(Simpson)悖论
- 标准差
- 如何计算
- (选学)应该选择哪一个
- (选学)标准误差
- 最小二乘
- 统计参数估计
- 函数逼近
- 扩展阅读
- 第Ⅲ部分计算:数据挖掘
- 第 12 章模拟
- 热身问题
- 蒙特卡洛模拟
- 组合问题
- 获得结果分布
- 优点和缺点
- 重新采样方法
- 拔靴法
- 拔靴法适用于哪些情况?
- 拔靴变量
- (讲习班)SimPy 离散事件模拟
- SimPy 简介
- 最简单的排队过程
- (选学)排队理论
- 运行SimPy 模拟
- 小结 扩展阅读
- 第13 章找出簇
- 簇由什么组成?
- 一种不同的观点
- 距离计算和相似度计算
- 常见的距离和相似度
- 计算方法
- 聚类方法
- 中心探索法
- 树形构造器
- 邻居生长器
- 前期处理和后期处理
- 规模的规范化
- 类的属性和评估
- 其他想法
- 具体案例:超市购物篮的
- 分析
- 提醒
- (讲习班)Pycluster 和C 聚类库
- 扩展阅读
- 第14 章一木见林:
- 找出重要属性
- 主成分分析法
- 动机
- (选学)理论
- 解释
- 计算
- 实用观点
- 双标图
- 可视化技术
- 多元尺度法
- 网络图
- 柯霍南图
- (讲习班)用R 进行PCA
- 扩展阅读
- 线性代数
- 第15 章插曲:当数据不成
- 比例地增长时
- 一个真实的故事
- 一些建议
- map/reduce 如何
- (讲习班)生成排列
- 扩展阅读
- 第Ⅳ部分应用:数据的使用
- 第 16 章报表、商务智能和
- 仪表板
- 商务智能
- 报表
- 企业指标和仪表板
- 关于指标计划的建议
- 数据的质量问题
- 数据的可用性
- 数据的一致性
- (讲习班)Berkeley DB 和SQLite Berkeley DB
- SQLite
- 扩展阅读
- 第17 章金融计算与建模
- 货币的时间价值
- 一次性支付:未来值和
- 现值
- 多笔付款:复利
- 复利的计算技巧
- 概览:现金流分析和
- 净现值
- 计划成本和机会成本中的
- 不确定性
- 用账户的期望值来考虑
- 不确定性
- 机会成本
- 成本概念及贬值
- 直接成本和间接成本
- 固定成本和可变成本
- 资本开支与运营成本
- 是否应该加以关注?
- 这些就是全部吗?
- (讲习班)报纸经销商问题
- (选学)精确解
- 扩展阅读
- 报纸经销商问题
- 第18 章预测分析
- 预测分析的主题
- 一些分类术语
- 分类算法
- 基于实例的分类和最近邻
- 分类算法
- 贝叶斯分类器
- 回归
- 支持向量机
- 决策树和基于规则的
- 分类器
- 其他分类算法
- 流程
- 集成方法:Bagging 和
- Boosting
- 估计预测误差
- 类不平衡问题
- 私家秘诀
- 统计学习的本质
- (讲习班)自己编写的两个
- 分类器
- 扩展阅读
- 第19 章结语:事实并非
- 现实
- 附录A 科学计算与数据分析的
- 编程环境
- 附录B 应用:微积分
- 附录C 使用数据
- 索引