AI圣经!深度学习行业奠基性的经典畅销书籍!长期性稳居亚马逊美国AI和机器学习类书籍第一!全部大数据工程师和机器学习从业人员的必看书籍!特斯拉汽车CEO埃隆·埃隆马斯克等世界各国诸多专家预测!深度学习是机器学习的一个支系,它可以使电子计算机根据层级概念来学习方法和了解全球。由于电子计算机可以从工作经验中获得知识,因此不用人们来流于形式地界定电子计算机必须的全部知识。层级概念容许电子计算机根据结构简易的概念来学习培训繁杂的概念,而这种层次的图构造将具备很深的层级。这书会详细介绍深度学习行业的很多主题。这书包揽了数学课及有关概念的背景图知识,包含线性代数、摡率论、信息论、标值提升及其机器学习中的相关内容。另外,它还详细介绍了工业领域中践行者采用的深度学习技术性,包含深层前馈互联网、正则化、优化计算方法、卷积网络、编码序列模型和实践活动方式等,而且调查了例如自然语言理解解决、语音识别技术、人工智能算法、线上推荐算法、生物信息学及其游戏视频层面的运用。*后,这书还出示了一些研究内容,包含的基础理论主题包含线形因素实体模型、自编码器、表示学习、结构型概率模型、蒙特卡罗方式、配分函数、类似推论及其深层生成模型。《深度学习》这本书既能够被本科毕业或硕士研究生用以整体规划其学界或工业领域职业生涯,也适用期待在各种各样商品或服务平台上刚开始应用深度学习技术性的前端工程师。创作者在这书的配套设施网址上为阅读者和老师出示了填补材料。汉化版阅读者能够浏览人民邮电出版社异步社区www.epubit.com.cn获得基本信息。封面图特点:由艺术大师DanielAmbrosi出示的世纪新城杜鹃绿道美好园林景观。在Ambrosi的数亿级清晰度全景图片上,运用JosephSmarr(Google)和ChirsLamb(NVIDIA)改动后的GoogleDeepDream开源代码,造就了DanielAmbrosi的“幻景”。
《深度学习》由全世界著名的三位权威专家IanGoodfellow、YoshuaBengio和AaronCourville编写,是深度学习行业奠基性的经典教材内容。本书的內容包含三个一部分:第一一部分详细介绍基础的数学工具和机器学习的概念,他们是深度学习的准备知识;第二一部分系统软件深层次地解读现如今已完善的深度学习方式和技术性;第三一部分探讨一些具备创新性的方位和念头,他们被认可为是深度学习将来的科学研究重中之重。《深度学习》合适各种阅读者阅读文章,包含有关技术专业的在校大学生或硕士研究生,及其不具备机器学习或统计分析背景图、可是要想迅速填补深度学习知识,便于在具体商品或服务平台中运用的前端工程师。
目录
- 第1章引言1
- 1.1本书面向的读者7
- 1.2深度学习的历史趋势8
- 1.2.1神经网络的众多名称和命运变迁8
- 1.2.2与日俱增的数据量12
- 1.2.3与日俱增的模型规模13
- 1.2.4与日俱增的精度、复杂度和对现实世界的冲击15
- 第1部分应用数学与机器学习基础
- 第2章线性代数19
- 2.1标量、向量、矩阵和张量19
- 2.2矩阵和向量相乘21
- 2.3单位矩阵和逆矩阵22
- 2.4线性相关和生成子空间23
- 2.5范数24
- 2.6特殊类型的矩阵和向量25
- 2.7特征分解26
- 2.8奇异值分解28
- 2.9Moore-Penrose伪逆28
- 2.10迹运算29
- 2.11行列式30
- 2.12实例:主成分分析.30
- 第3章概率与信息论.34
- 3.1为什么要使用概率34
- 3.2随机变量35
- 3.3概率分布36
- 3.3.1离散型变量和概率质量函数36
- 3.3.2连续型变量和概率密度函数36
- 3.4边缘概率37
- 3.5条件概率37
- 3.6条件概率的链式法则38
- 3.7独立性和条件独立性38
- 3.8期望、方差和协方差38
- 3.9常用概率分布39
- 3.9.1Bernoulli分布40
- 3.9.2Multinoulli分布40
- 3.9.3高斯分布40
- 3.9.4指数分布和Laplace分布41
- 3.9.5Dirac分布和经验分布42
- 3.9.6分布的混合42
- 3.10常用函数的有用性质43
- 3.11贝叶斯规则45
- 3.12连续型变量的技术细节45
- 3.13信息论47
- 3.14结构化概率模型49
- 第4章数值计算52
- 4.1上溢和下溢52
- 4.2病态条件53
- 4.3基于梯度的优化方法53
- 4.3.1梯度之上:Jacobian和Hessian矩阵56
- 4.4约束优化60
- 4.5实例:线性最小二乘61
- 第5章机器学习基础.63
- 5.1学习算法63
- 5.1.1任务T63
- 5.1.2性能度量P66
- 5.1.3经验E66
- 5.1.4示例:线性回归68
- 5.2容量、过拟合和欠拟合70
- 5.2.1没有免费午餐定理73
- 5.2.2正则化74
- 5.3超参数和验证集76
- 5.3.1交叉验证76
- 5.4估计、偏差和方差.77
- 5.4.1点估计77
- 5.4.2偏差78
- 5.4.3方差和标准差80
- 5.4.4权衡偏差和方差以最小化均方误差81
- 5.4.5一致性82
- 5.5最大似然估计82
- 5.5.1条件对数似然和均方误差84
- 5.5.2最大似然的性质84
- 5.6贝叶斯统计85
- 5.6.1最大后验(MAP)估计87
- 5.7监督学习算法88
- 5.7.1概率监督学习88
- 5.7.2支持向量机88
- 5.7.3其他简单的监督学习算法90
- 5.8无监督学习算法91
- 5.8.1主成分分析92
- 5.8.2k-均值聚类.94
- 5.9随机梯度下降94
- 5.10构建机器学习算法96
- 5.11促使深度学习发展的挑战96
- 5.11.1维数灾难97
- 5.11.2局部不变性和平滑正则化97
- 5.11.3流形学习99
- 第2部分深度网络:现代实践
- 第6章深度前馈网络105
- 6.1实例:学习XOR107
- 6.2基于梯度的学习110
- 6.2.1代价函数111
- 6.2.2输出单元113
- 6.3隐藏单元119
- 6.3.1整流线性单元及其扩展120
- 6.3.2logisticsigmoid与双曲正切函数121
- 6.3.3其他隐藏单元122
- 6.4架构设计123
- 6.4.1万能近似性质和深度.123
- 6.4.2其他架构上的考虑.126
- 6.5反向传播和其他的微分算法.126
- 6.5.1计算图127
- 6.5.2微积分中的链式法则.128
- 6.5.3递归地使用链式法则来实现反向传播128
- 6.5.4全连接MLP中的反向传播计算131
- 6.5.5符号到符号的导数.131
- 6.5.6一般化的反向传播.133
- 6.5.7实例:用于MLP训练的反向传播.135
- 6.5.8复杂化137
- 6.5.9深度学习界以外的微分137
- 6.5.10高阶微分138
- 6.6历史小记139
- 第7章深度学习中的正则化141
- 7.1参数范数惩罚142
- 7.1.1L2参数正则化142
- 7.1.2L1正则化144
- 7.2作为约束的范数惩罚146
- 7.3正则化和欠约束问题147
- 7.4数据集增强148
- 7.5噪声鲁棒性149
- 7.5.1向输出目标注入噪声.150
- 7.6半监督学习150
- 7.7多任务学习150
- 7.8提前终止151
- 7.9参数绑定和参数共享156
- 7.9.1卷积神经网络156
- 7.10稀疏表示.157
- 7.11Bagging和其他集成方法.158
- 7.12Dropout159
- 7.13对抗训练.165
- 7.14切面距离、正切传播和流形正切分类器167
- 第8章深度模型中的优化.169
- 8.1学习和纯优化有什么不同169
- 8.1.1经验风险最小化169
- 8.1.2代理损失函数和提前终止170
- 8.1.3批量算法和小批量算法170
- 8.2神经网络优化中的挑战173
- 8.2.1病态173
- 8.2.2局部极小值174
- 8.2.3高原、鞍点和其他平坦区域.175
- 8.2.4悬崖和梯度爆炸177
- 8.2.5长期依赖177
- 8.2.6非精确梯度178
- 8.2.7局部和全局结构间的弱对应178
- 8.2.8优化的理论限制179
- 8.3基本算法180
- 8.3.1随机梯度下降180
- 8.3.2动量181
- 8.3.3Nesterov动量.183
- 8.4参数初始化策略184
- 8.5自适应学习率算法187
- 8.5.1AdaGrad187
- 8.5.2RMSProp188
- 8.5.3Adam189
- 8.5.4选择正确的优化算法.190
- 8.6二阶近似方法190
- 8.6.1牛顿法190
- 8.6.2共轭梯度191
- 8.6.3BFGS193
- 8.7优化策略和元算法194
- 8.7.1批标准化194
- 8.7.2坐标下降196
- 8.7.3Polyak平均197
- 8.7.4监督预训练197
- 8.7.5设计有助于优化的模型199
- 8.7.6延拓法和课程学习.199
- 第9章卷积网络201
- 9.1卷积运算201
- 9.2动机203
- 9.3池化207
- 9.4卷积与池化作为一种无限强的先验210
- 9.5基本卷积函数的变体211
- 9.6结构化输出218
- 9.7数据类型219
- 9.8高效的卷积算法220
- 9.9随机或无监督的特征220
- 9.10卷积网络的神经科学基础221
- 9.11卷积网络与深度学习的历史226
- 第10章序列建模:循环和递归网络227
- 10.1展开计算图228
- 10.2循环神经网络230
- 10.2.1导师驱动过程和输出循环网络232
- 10.2.2计算循环神经网络的梯度233
- 10.2.3作为有向图模型的循环网络235
- 10.2.4基于上下文的RNN序列建模237
- 10.3双向RNN239
- 10.4基于编码-解码的序列到序列架构240
- 10.5深度循环网络242
- 10.6递归神经网络243
- 10.7长期依赖的挑战244
- 10.8回声状态网络245
- 10.9渗漏单元和其他多时间尺度的策略247
- 10.9.1时间维度的跳跃连接.247
- 10.9.2渗漏单元和一系列不同时间尺度247
- 10.9.3删除连接248
- 10.10长短期记忆和其他门控RNN248
- 10.10.1LSTM248
- 10.10.2其他门控RNN250
- 10.11优化长期依赖.251
- 10.11.1截断梯度251
- 10.11.2引导信息流的正则化252
- 10.12外显记忆253
- 第11章实践方法论256
- 11.1性能度量.256
- 11.2默认的基准模型258
- 11.3决定是否收集更多数据259
- 11.4选择超参数259
- 11.4.1手动调整超参数259
- 11.4.2自动超参数优化算法.262
- 11.4.3网格搜索262
- 11.4.4随机搜索263
- 11.4.5基于模型的超参数优化264
- 11.5调试策略.264
- 11.6示例:多位数字识别267
- 第12章应用.269
- 12.1大规模深度学习269
- 12.1.1快速的CPU实现269
- 12.1.2GPU实现269
- 12.1.3大规模的分布式实现.271
- 12.1.4模型压缩271
- 12.1.5动态结构272
- 12.1.6深度网络的专用硬件实现273
- 12.2计算机视觉274
- 12.2.1预处理275
- 12.2.2数据集增强277
- 12.3语音识别.278
- 12.4自然语言处理279
- 12.4.1n-gram.280
- 12.4.2神经语言模型281
- 12.4.3高维输出282
- 12.4.4结合n-gram和神经语言模型286
- 12.4.5神经机器翻译287
- 12.4.6历史展望289
- 12.5其他应用.290
- 12.5.1推荐系统290
- 12.5.2知识表示、推理和回答292
- 第3部分深度学习研究
- 第13章线性因子模型297
- 13.1概率PCA和因子分析297
- 13.2独立成分分析298
- 13.3慢特征分析300
- 13.4稀疏编码.301
- 13.5PCA的流形解释304
- 第14章自编码器306
- 14.1欠完备自编码器306
- 14.2正则自编码器307
- 14.2.1稀疏自编码器307
- 14.2.2去噪自编码器309
- 14.2.3惩罚导数作为正则.309
- 14.3表示能力、层的大小和深度310
- 14.4随机编码器和解码器.310
- 14.5去噪自编码器详解311
- 14.5.1得分估计312
- 14.5.2历史展望314
- 14.6使用自编码器学习流形314
- 14.7收缩自编码器317
- 14.8预测稀疏分解319
- 14.9自编码器的应用319
- 第15章表示学习321
- 15.1贪心逐层无监督预训练322
- 15.1.1何时以及为何无监督预训练有效有效323
- 15.2迁移学习和领域自适应326
- 15.3半监督解释因果关系.329
- 15.4分布式表示332
- 15.5得益于深度的指数增益336
- 15.6提供发现潜在原因的线索337
- 第16章深度学习中的结构化概率模型339
- 16.1非结构化建模的挑战.339
- 16.2使用图描述模型结构.342
- 16.2.1有向模型342
- 16.2.2无向模型344
- 16.2.3配分函数345
- 16.2.4基于能量的模型346
- 16.2.5分离和d-分离.347
- 16.2.6在有向模型和无向模型中转换350
- 16.2.7因子图352
- 16.3从图模型中采样353
- 16.4结构化建模的优势353
- 16.5学习依赖关系354
- 16.6推断和近似推断354
- 16.7结构化概率模型的深度学习方法.355
- 16.7.1实例:受限玻尔兹曼机356
- 第17章蒙特卡罗方法359
- 17.1采样和蒙特卡罗方法.359
- 17.1.1为什么需要采样359
- 17.1.2蒙特卡罗采样的基础.359
- 17.2重要采样.360
- 17.3马尔可夫链蒙特卡罗方法362
- 17.4Gibbs采样.365
- 17.5不同的峰值之间的混合挑战365
- 17.5.1不同峰值之间通过回火来混合367
- 17.5.2深度也许会有助于混合368
- 第18章直面配分函数369
- 18.1对数似然梯度369
- 18.2随机最大似然和对比散度370
- 18.3伪似然375
- 18.4得分匹配和比率匹配.376
- 18.5去噪得分匹配378
- 18.6噪声对比估计378
- 18.7估计配分函数380
- 18.7.1退火重要采样382
- 18.7.2桥式采样384
- 第19章近似推断385
- 19.1把推断视作优化问题.385
- 19.2期望最大化386
- 19.3最大后验推断和稀疏编码387
- 19.4变分推断和变分学习.389
- 19.4.1离散型潜变量390
- 19.4.2变分法394
- 19.4.3连续型潜变量396
- 19.4.4学习和推断之间的相互作用397
- 19.5学成近似推断397
- 19.5.1醒眠算法398
- 19.5.2学成推断的其他形式.398
- 第20章深度生成模型399
- 20.1玻尔兹曼机399
- 20.2受限玻尔兹曼机400
- 20.2.1条件分布401
- 20.2.2训练受限玻尔兹曼机.402
- 20.3深度信念网络402
- 20.4深度玻尔兹曼机404
- 20.4.1有趣的性质406
- 20.4.2DBM均匀场推断406
- 20.4.3DBM的参数学习408
- 20.4.4逐层预训练408
- 20.4.5联合训练深度玻尔兹曼机410
- 20.5实值数据上的玻尔兹曼机413
- 20.5.1Gaussian-BernoulliRBM413
- 20.5.2条件协方差的无向模型414
- 20.6卷积玻尔兹曼机417
- 20.7用于结构化或序列输出的玻尔兹曼机418
- 20.8其他玻尔兹曼机419
- 20.9通过随机操作的反向传播419
- 20.9.1通过离散随机操作的反向传播420
- 20.10有向生成网络.422
- 20.10.1sigmoid信念网络422
- 20.10.2可微生成器网络.423
- 20.10.3变分自编码器.425
- 20.10.4生成式对抗网络.427
- 20.10.5生成矩匹配网络.429
- 20.10.6卷积生成网络.430
- 20.10.7自回归网络430
- 20.10.8线性自回归网络.430
- 20.10.9神经自回归网络.431
- 20.10.10NADE432
- 20.11从自编码器采样433
- 20.11.1与任意去噪自编码器相关的马尔可夫链434
- 20.11.2夹合与条件采样.434
- 20.11.3回退训练过程.435
- 20.12生成随机网络.435
- 20.12.1判别性GSN436
- 20.13其他生成方案.436
- 20.14评估生成模型.437
- 20.15结论438
- 参考文献.439
- 索引486