全书共15章,第1章介绍了什么是数据分析,主要包括数据分析的内容、目标、流程步骤以及必要条件;第2章介绍数据分析的理论、工具、方法以及重要的相关模型;第3章讲解数据的采集和整理,包括数据采集的原则、如何从分析目标出发反推要采集的数据、数据整理的技巧和方法等;制表是分析的重要组成部分,第4章从非数据透视表的视角介绍制表的相关技巧;第5章介绍用数据透视表介绍如何高效率制表;从第6章开始本书进入了数据分析的范畴,包括整体状况描述、结构性描述等,这些描述可以帮助我们快速地了解数据的各项特征,包括统计学方面的特征;第7章介绍如何根据业务目标进行数据标注,条件格式可以起到强大的作用,并且数据表格非常美观;第8章介绍多种在数据中发掘异常值的技巧;第9章介绍相关分析和决策树分析这两种数据分析领域重要的分析方法,在某种程度上,从这里开始,本书进入了比较“专业”的数据分析范畴;第10章介绍多变量的分类技术-聚类;第11章和第12章分别介绍回归和预测技术,回归也是数据分析领域重要的分析模型,数据预测是很多企业和管理者关心的重要问题;第13章介绍反应数据间关系的关联规则;第14章介绍高级绘图技巧;第15章是数据分析的一些经验介绍,将其放在本书的末尾,是因为学习了之前的内容之后,再来看第15章的内容会觉得感同身受。
封面图
目录
- 前言
- 第1章什么是数据分析1
- 1.1一眼就看到结论还需要数据分析吗1
- 1.1.1企业数据量2
- 1.1.2数据复杂度2
- 1.1.3数据颗粒度3
- 1.2数据分析能给我们带来什么4
- 1.2.1了解数据的整体状况4
- 1.2.2快速查询数据5
- 1.2.3数据之间关系的探索5
- 1.2.4业务预测6
- 1.3数据分析的几大抓手6
- 1.3.1足够多的数据6
- 1.3.2数据质量6
- 1.3.3合适的工具7
- 1.3.4分析结果的呈现7
- 1.4数据分析的流程7
- 1.4.1数据采集7
- 1.4.2数据整理8
- 1.4.3制表11
- 1.4.4数据分析11
- 1.4.5数据展示(呈现)12
- 1.5如何成为数据分析高手12
- 1.5.1“拳不离手,曲不离口”12
- 1.5.2熟练掌握常用工具12
- 1.5.3最好能编点程序13
- 1.5.4一定要通晓业务14
- 第2章数据分析的理论、工具、模型15
- 2.1基本概念和术语15
- 2.1.1基本概念15
- 2.1.2术语22
- 2.2选择称手的软件工具26
- 2.2.1EXCEL27
- 2.2.2VBA27
- 2.2.3Access27
- 2.2.4SPSS28
- 2.2.5XLSTAT29
- 2.2.6Modeler29
- 2.2.7R语言30
- 2.3在分析需求和模型之间搭起桥梁30
- 2.3.1识别需求30
- 2.3.2分解需求30
- 2.3.3选择工具和模型31
- 第3章数据采集与整理32
- 3.1数据采集的几条重要原则32
- 3.1.1要足够“复杂”32
- 3.1.2要足够“细”33
- 3.1.3要有“跨度”33
- 3.1.4要有可行性34
- 3.2用“逐步推进法”推测需要的数据34
- 3.3耗时耗力的数据整理过程35
- 3.3.1重复、空行、空列数据删除36
- 3.3.2缺失值的填充和分析39
- 3.3.3数据间逻辑的排查45
- 3.4数据量太大了怎么办47
- 3.4.1放到数据库中处理47
- 3.4.2用专业工具处理47
- 3.4.3数据抽样51
- 第4章数据分析的基础:制表(上)53
- 4.1以数据合并为目标的制表53
- 4.1.1跨工作表合并53
- 4.1.2跨工作簿合并55
- 4.2以数据筛选为目标的制表56
- 4.2.1普通数据筛选57
- 4.2.2高级筛选60
- 4.2.3计算筛选62
- 4.2.4函数筛选63
- 4.3以获得概要数据为目标的制表64
- 4.3.1分类汇总方法64
- 4.3.2数据透视表汇总68
- 第5章数据分析的基础:制表(下)70
- 5.1“七个百分比”让你懂得大部分表格类型70
- 5.1.1行总计的百分比70
- 5.1.2列总计的百分比73
- 5.1.3全部总计的百分比74
- 5.1.4父行(列)的百分比74
- 5.1.5累计占比75
- 5.1.6环比78
- 5.1.7同比79
- 5.2分组功能经常让分析峰回路转81
- 5.2.1文本的分组81
- 5.2.2等步长的数据分组83
- 5.2.3不等步长的数据分组86
- 5.2.4日期型的分组88
- 5.3随意生成各种派生指标89
- 5.3.1添加字段89
- 5.3.2添加项91
- 5.4从大数据库中挑选要分析的数据:Microsoft Query92
- 5.5强大的SQL97
- 5.5.1SQL的基本语法97
- 5.5.2SQL的应用97
- 第6章数据扫描:给数据做体检100
- 6.1在EXCEL中给数据做扫描100
- 6.2SPSS中给数据做扫描103
- 6.3在Modeler中给数据做扫描105
- 6.4其他相应的指标108
- 第7章数据标注:给数据上色110
- 7.1大数据块的整体标注111
- 7.1.1突出显示单元格规则111
- 7.1.2特殊数据选取规则112
- 7.2根据业务逻辑在数据中标注上色113
- 7.2.1数据条、色阶、图标集的应用113
- 7.2.2规则的理解115
- 7.2.3根据业务需求改变规则118
- 7.3采用公式实现复杂强大的数据标注119
- 7.3.1理解逻辑表达式的含义119
- 7.3.2复杂逻辑公式的应用120
- 7.4如何在一张表格中实现多种标注规则123
- 7.4.1多规则的应用123
- 7.4.2如何理解“遇真则停止”125
- 第8章找到数据中的“特殊分子”127
- 8.1什么是异常值127
- 8.2异常值的判断标准128
- 8.3用绘图技巧找到异常值129
- 8.3.1散点图129
- 8.3.2面板图130
- 8.4用公式函数法发掘异常值135
- 8.5三倍标准差法137
- 第9章相关分析与决策树140
- 9.1Pearson相关140
- 9.1.1应用场景141
- 9.1.2输出指标的解析141
- 9.2典型相关分析145
- 9.2.1操作步骤145
- 9.2.2结果解读147
- 9.3决策树149
- 9.3.1什么时候需要用决策树149
- 9.3.2决策树的操作和指标解释150
- 第10章聚类155
- 10.1多维度数据的分类怎么办155
- 10.1.1低维度数据的分类方法155
- 10.1.2高维度数据的分类需求157
- 10.1.3常用的聚类操作介绍157
- 10.2聚类的烦恼1:如何面对数量级差别大的数据165
- 10.3聚类的烦恼2:如何判断聚类的质量167
- 第11章回归168
- 11.1如何寻找现有数据的内在规律168
- 11.1.1什么是数据拟合169
- 11.1.2多元线性回归171
- 11.2logistic回归173
- 11.2.1回归(客户“买”与“不买”)173
- 11.2.2多元logistic回归(多个品牌的选择)176
- 11.2.3多元有序logistic回归181
- 第12章关联分析183
- 12.1因果关系的弱化183
- 12.2关联分析的指标184
- 12.2.1支持度184
- 12.2.2置信度185
- 12.2.3提升度185
- 12.3什么样的数据适合做关联分析186
- 12.3.1商超数据186
- 12.3.2金融数据186
- 12.3.3生产质量数据187
- 12.4关联分析的具体操作187
- 第13章预测191
- 13.1什么是预测,预测的准确度高吗191
- 13.2移动平滑193
- 13.3指数平滑194
- 13.3.1二次指数平滑194
- 13.3.2三次指数平滑195
- 13.4对周期性数据的分解198
- 13.5ARIMA预测法201
- 第14章高级绘图技巧206
- 14.1怎样才算图画得好206
- 14.2双轴图的技巧和运用207
- 14.3不同数量级数据的高效对比展示211
- 14.4数据标签的妙用215
- 14.5图形中的重点标注221
- 14.6绘图美学—多点审美素养222
- 14.6.1整体布局222
- 14.6.2线型的选择223
- 14.6.3色彩对比223
- 后记数据分析经验之我见224