执神器而守名镇——Python*强劲的行业在计算机科学
窥全景而知相对路径——融合Linux|Python|SQL|Hadoop|Hive|Spark|大数据挖掘|深度学习|深度神经网络
知基本原理而导致运用——全栈信息既指信息技术性,也指业务流程信息,环境是*终的检测场。
立服务平台而生信息——基本建设强数据管理平台,是支撑点商品也业务流程的必然选择。
这书以数据统计分析行业*热的Python語言为关键案件线索,详细介绍了数据统计分析库numpy、Pandas与深度学习库scikit-learn,应用了数据可视化自然环境Orange 3来了解计算方式的一些关键点。针对深度学习,具有常见计算方式KNN与Kmeans的运用,决策树与*山林的实战演练,还涉及到常见特征工程与深度神经网络中的全自动编程器。在互联网大数据Hadoop与Hive自然环境的基本之中,应用Spark的ML/MLlib库集成化了前边的各一部分內容,让分布式系统深度学习更非常容易。很多的专用工具与专业技能实战演练的详细介绍将各一部分结合成一个全栈的计算机科学內容。
目录
- 前言 自强不息,厚德载物 / XIX
- 0x1 Linux,自由之光 / 001
- 0x10 Linux,你是我的眼 / 001
- 0x11 Linux基础,从零开始 / 003
- 01 Linux之门 / 003
- 02 文件操作 / 004
- 03 权限管理 / 006
- 04 软件安装 / 008
- 05 实战经验 / 010
- 0x12 Sed与 Grep,文本处理 / 010
- 01 文本工具 / 010
- 02 grep的使用 / 011
- 03 grep家族 / 013
- 04 sed的使用 / 014
- 05 综合案例 / 016
- 0x13 数据工程,必备 Shell / 018
- 01 Shell分析 / 018
- 02 文件探索 / 019
- 03 内容探索 / 020
- 04 交差并补 / 020
- 05 其他常用的命令 / 021
- 06 批量操作 / 022
- 07 结语 / 025
- 0x14 Shell 快捷键,Emacs 之门 / 025
- 01 提高效率 / 025
- 02 光标移动 / 026
- 03 文本编辑 / 027
- 04 命令搜索 / 028
- 05 Emacs 入门 / 029
- 06 Emacs 思维 / 031
- 0x15 缘起Linux,一入Mac 误终身 / 032
- 01 开源生万物 / 032
- 02 有钱就换Mac / 032
- 03 程序员需求 / 033
- 04 非程序员需求 / 034
- 05 一入Mac 误终身 / 035
- 0x16 大成就者,集群安装 / 036
- 01 离线安装 / 036
- 02 Host 与SSH 配置 / 037
- 03 sudo 与JDK 环境 / 039
- 04 准备Hadoop 包 / 040
- 05 开启HTTP 与配置源 / 041
- 06 安装ambari-server / 041
- 07 后续服务安装 / 042
- 08 结语 / 044
- 0x2 Python,道法自然 / 045
- 0x20 Python,灵犀一指 / 045
- 0x21 Python 基础,兴趣为王 / 047
- 01 第一语言 / 047
- 02 数据结构 / 047
- 03 文件读写 / 049
- 04 使用模块 / 050
- 05 函数式编程 / 052
- 06 一道面试题 / 053
- 07 兴趣驱动 / 055
- 0x22 喜新厌旧,2迁移 3 / 056
- 01 新旧交替 / 056
- 02 基础变化 / 057
- 03 编码问题 / 058
- 04 其他变化 / 058
- 05 2to3脚本 / 060
- 06 PySpark配置 / 061
- 07 喜新厌旧 / 062
- 0x23 Anaconda,IPython / 062
- 01 Anaconda / 062
- 02 安装与配置 / 063
- 03 pip与源 / 064
- 04 IPython与 Jupyter / 065
- 05 结语 / 067
- 0x24 美不胜收,Python工具 / 067
- 01 缘起 / 067
- 02 调试与开发 / 068
- 03 排版与格式化 / 070
- 04 辅助工具 / 072
- 05 实用推荐 / 074
- 0x25 numpy基础,线性代数 / 075
- 01 numpy的使用 / 075
- 02 索引与切片 / 076
- 03 变形与统计 / 078
- 04 矩阵运算 / 080
- 05 实用方法 / 083
- 06 结语 / 085
- 0x26 numpy实战,PCA降维 / 085
- 01 PCA介绍 / 085
- 02 数据均值化 / 086
- 03 协方差矩阵 / 087
- 04 特征值与向量 / 088
- 05 数据映射降维 / 089
- 06 sklearn 实现 / 090
- 0x3 大数据,其大无外 / 093
- 0x30 太大数据,极生两仪 / 093
- 0x31 神象住世,Hadoop / 095
- 01 Hadoop / 095
- 02 HDFS / 096
- 03 角色与管理 / 097
- 04 文件操作 / 098
- 05 结语 / 100
- 0x32 分治之美,MapReduce / 100
- 01 map 与reduce 函数 / 100
- 02 分而治之 / 102
- 03 Hello,World / 103
- 04 Streaming 接口 / 105
- 0x33 Hive 基础,蜂巢与仓库 / 106
- 01 引言 / 106
- 02 Hive 接口 / 107
- 03 分区建表 / 108
- 04 分区机制 / 110
- 05 数据导入/ 导出 / 111
- 06 Hive-QL / 112
- 07 结语 / 114
- 0x34 Hive 深入,实战经验 / 115
- 01 排序与分布式 / 115
- 02 多表插入与mapjoin / 116
- 03 加载map-reduce 脚本 / 117
- 04 使用第三方UDF / 119
- 05 实战经验 / 120
- 06 生成唯一ID / 121
- 0x35 HBase库,实时业务 / 122
- 01 理论基础 / 122 02 Shell操作 / 123 03 关联 Hive表 / 126 04 数据导入 / 128 05 实用经验 / 130
- 0x36 SQL与 NoSQL,Sqoop为媒 / 130
- 01 SQL与 NOSQL / 130 02 从 MySQL导入 HDFS / 131 03 增量导入 / 134 04 映射到 Hive / 135 05 导入 Hive表 / 136 06 从 HDFS导出到 MySQL / 137 07 从 Hive导出到 MySQL / 138
- 0x4 数据分析,见微知著 / 141
- 0x40 大数据分析,鲁班为祖师 / 141 0x41 SQL技能,必备 MySQL / 143
- 01 SQL工具 / 143 02 基础操作 / 144 03 查询套路 / 145 04 join查询 / 146 05 union与 exists / 149 06 实战经验 / 151
- 0x42 快刀 awk,斩乱数据 / 152
- 01 快刀 / 152 02 一二三要点 / 152 03 一个示例 / 154 04 应用与统计 / 154 05 斩乱麻 / 156
- 0x43 Pandas,数据之框 / 157
- 01 数据为框 / 157
- 02 加载数据 / 158
- 03 行列索引 / 159
- 04 行列操作 / 161
- 05 合并聚合 / 163
- 06 迭代数据 / 164
- 07 结语 / 165
- 0x44 Zeppelin,一统江湖 / 166
- 01 心潮澎湃 / 166
- 02 基本使用 / 168
- 03 SQL 与可视化 / 169
- 04 安装Zeppelin / 172
- 05 配置Zeppelin / 173
- 06 数据安全 / 174
- 07 使用心得 / 176
- 0x45 数据分组,聚合窗口 / 177
- 01 MySQL 聚合 / 177
- 02 Spark 聚合 / 178
- 03 非聚合字段 / 179
- 04 Hive 实现 / 180
- 05 group_concat / 181
- 06 Hive 窗口函数 / 183
- 07 DataFrame 窗口 / 184
- 08 结语 / 185
- 0x46 全栈分析,六层内功 / 186
- 01 引言 / 186
- 02 MySQL 版本 / 186
- 03 awk 版本 / 187
- 04 Python 版本 / 188
- 05 Hive 版本 / 189
- 06 map-reduce 版本 / 190
- 07 Spark 版本 / 190
- 08 结语 / 191
- 0x5 机器学习,人类失控 / 193
- 0x50 机器学习,琅琊论断 / 193 0x51 酸酸甜甜,Orange / 195
- 01 可视化学习 / 195 02 数据探索 / 196 03 模型与评估 / 199 04 组件介绍 / 200 05 与 Python进行整合 / 202 06 结语 / 204
- 0x52 sklearn,机器学习 / 205
- 01 sklearn介绍 / 205 02 数据预处理 / 206 03 建模与预测 / 207 04 模型评估 / 209 05 模型持久化 / 210 06 三个层次 / 210
- 0x53 特征转换,量纲伸缩 / 211
- 01 特征工程 / 211 02 独热编码 / 212 03 sklearn示例 / 213 04 标准化与归一化 / 215 05 sklearn与 Spark实现 / 216 06 结语 / 219
- 0x54 描述统计,基础指标 / 220
- 01 描述性统计 / 220 02 Pandas实现 / 222 03 方差与协方差 / 223 04 Spark-RDD实现 / 224 05 DataFrame实现 / 226 06 Spark-SQL实现 / 227 07 结语 / 227
- 0x55 模型评估,交叉验证 / 228
- 01 测试与训练 / 228
- 02 评价指标 / 229
- 03 交叉验证 / 231
- 04 验证数据 / 232
- 05 OOB 数据 / 233
- 0x56 文本特征,词袋模型 / 234
- 01 自然语言 / 234
- 02 中文分词 / 235
- 03 词袋模型 / 236
- 04 词频统计 / 237
- 05 TF-IDF / 238
- 06 结语 / 239
- 0x6 算法预测,占天卜地 / 241
- 0x60 命由己做,福自己求 / 241
- 0x61 近朱者赤,相亲kNN / 243
- 01 朴素的思想 / 243
- 02 算法介绍 / 243
- 03 分类与回归 / 244
- 04 k 与半径 / 245
- 05 优化计算 / 246
- 06 实例应用 / 247
- 0x62 物以类聚,Kmeans / 248
- 01 算法描述 / 248
- 02 建立模型 / 249
- 03 理解模型 / 251
- 04 距离与相似性 / 252
- 05 降维与可视化 / 253
- 06 无监督学习 / 255
- 0x63 很傻很天真,朴素贝叶斯 / 257
- 01 朴素思想 / 257
- 02 概率公式 / 257
- 03 三种实现 / 258
- 04 sklearn 示例 / 260
- 05 朴素却不傻 / 262
- 0x64 菩提之树,决策姻缘 / 263
- 01 缘起 / 263 02 Orange演示 / 264 03 scikit-learn模拟 / 266 04 熵与基尼指数 / 267 05 决策过程分析 / 268 06 Spark模拟 / 270 07 结语 / 271
- 0x65 随机之美,随机森林 / 271
- 01 树与森林 / 271 02 处处随机 / 273 03 sklearn示例 / 274 04 MLlib示例 / 275 05 特点与应用 / 276
- 0x66 自编码器,深度之门 / 277
- 01 深度学习 / 277 02 特征学习 / 278 03 自动编码器 / 280 04 Keras代码 / 282 05 抗噪编码器 / 283
- 0x7 Spark,唯快不破 / 285
- 0x70 人生苦短,快用 Spark / 285 0x71 PySpark之门,强者联盟 / 287
- 01 全栈框架 / 287 02 环境搭建 / 288 03 分布式部署 / 289 04 示例分析 / 290 05 两类算子 / 292 06 map与 reduce / 293 07 AMPLab的野心 / 294
- 0x72 RDD 算子,计算之魂 / 295
- 01 算子之道 / 295
- 02 获取数据 / 296
- 03 过滤与排序 / 297
- 04 聚合数据 / 298
- 05 join 连接 / 299
- 06 union 与zip / 300
- 07 读写文件 / 301
- 08 结语 / 303
- 0x73 分布式SQL,蝶恋飞舞 / 304
- 01 SQL 工具 / 304
- 02 命令行CLI / 304
- 03 读Hive 数据 / 305
- 04 将结果写入Hive / 306
- 05 读写MySQL 数据 / 307
- 06 读写三种文件 / 308
- 0x74 DataFrame,三角之恋 / 310
- 01 DataFrame / 310
- 02 生成数据框 / 311
- 03 合并与join / 313
- 04 select 操作 / 314
- 05 SQL 操作 / 315
- 06 自定义UDF / 316
- 07 三角之恋 / 318
- 0x75 神器之父,Scala 入世 / 319
- 01 Spark 与Scala / 319
- 02 Scala REPL / 320
- 03 编译Scala / 321
- 04 sbt 编译 / 322
- 05 示例分析 / 323
- 06 编译提交 / 325
- 0x76 机器之心,ML 套路 / 326
- 01 城市套路深 / 326
- 02 算法与特征工程 / 327 03 管道工作流 / 328 04 OneHotEncoder示例 / 329 05 ML回归实战 / 331 06 特征处理与算法 / 332 07 拟合与评估 / 334
- 0x8 数据科学,全栈智慧 / 337
- 0x80 才高八斗,共分天下 / 337 0x81 自学数据,神蟒领舞 / 339
- 01 机器学习 / 339 02 语言领域 / 339 03 Python数据生态 / 340 04 相关资料 / 341 05 书籍推荐 / 342 06 性感的职业 / 343
- 0x82 数据科学,七大技能 / 343
- 01 七大技能 / 343 02 SQL与 NoSQL技能 / 344 03 Linux工具集 / 344 04 Python或者 R语言生态 / 345 05 Hadoop与 Spark生态 / 345 06 概率、统计与线性代数 / 34