编辑推荐
Python是一门通用型编程语言,也是一门相对容易学习的语言。因此,数据科学家在为中小规模的数据集制作原型、实现可视化和分析数据时,经常选择使用Python。本书填补了机器学习和Web开发之间的鸿沟。本书重点讲解在Web应用中实现预测分析功能的难点,重点介绍Python语言及相关框架、工具和库,展示了如何搭建机器学习系统。你将从本书学到机器学习的核心概念,学习如何将数据部署到用Django框架开发的Web应用;还将学到如何挖掘Web、文档和服务器端数据以及如何搭建推荐引擎。随后,你将进一步探索功能强大的Django框架,学习搭建一个简单、具备现代感的影评情感分析应用,它可是用机器学习算法驱动的!本书是写给正努力成为数据科学家的读者以及新晋的数据科学家的。读者应该具备一些机器学习经验。如果你对开发智能(具备预测功能的)Web应用感兴趣,或正在从事相关开发工作,本书非常适合你。掌握一定的Django知识,学习本书将会更加轻松。我们还希望读者具备一定的Python编程背景和扎实的统计学知识。通过阅读本书,你将能够:● 熟悉机器学习基本概念和机器学习社区使用的一些术语。● 用多种工具和技术从网站挖掘数据。● 掌握Django框架的核心概念。● 了解常用的聚类和分类技术,并用Python实现它们。● 掌握用Django搭建Web应用所需的所有bi备知识。● 用Python语言的Django库成功搭建和部署电影推荐系统。
内容简介
机器学习可用来处理由用户产生的、数量不断增长的Web数据。本书讲解如何用Python语言、Django框架开发一款Web商业应用,以及如何用一些现成的库和工具(sklearn、scipy、nltk和Django等)处理和分析应用所生成或使用的数据。本书不仅涉及机器学习的核心概念,还介绍了如何将数据部署到用Django框架开发的Web应用,包括Web、文档和服务器端数据的挖掘和推荐引擎的搭建方法。本书适合有志于成为或刚刚成为数据科学家的读者学习,也适合对机器学习、Web数据挖掘等技术实践感兴趣的读者参考阅读。
作者简介
Andrea Isoni博士是一名数据科学家、物理学家,他在软件开发领域有着丰富的经验,在机器学习算法和技术方面,拥有广博的知识。此外,他还有多种语言的使用经验,如Python、C C 、Java、JavaScript、C#、SQL、HTML。他还用过Hadoop框架。译者简介杜春晓,英语语言文学学士,软件工程硕士。其他译著有《Python数据挖掘入门与实践》《Python数据分析实战》和《电子达人——我的第一本Raspberry Pi入门手册》等。新浪微博:@宜_生。
目录
- 第1章 Python机器学习实践入门 1
- 1.1 机器学习常用概念 1
- 1.2 数据的准备、处理和可视化—NumPy、pandas和matplotlib教程 6
- 1.2.1 NumPy的用法 6
- 1.2.2 理解pandas模块 23
- 1.2.3 matplotlib教程 32
- 1.3 本书使用的科学计算库 35
- 1.4 机器学习的应用场景 36
- 1.5 小结 36
- 第2章 无监督机器学习 37
- 2.1 聚类算法 37
- 2.1.1 分布方法 38
- 2.1.2 质心点方法 40
- 2.1.3 密度方法 41
- 2.1.4 层次方法 44
- 2.2 降维 52
- 2.3 奇异值分解(SVD) 57
- 2.4 小结 58
- 第3章 有监督机器学习 59
- 3.1 模型错误评估 59
- 3.2 广义线性模型 60
- 3.2.1 广义线性模型的概率解释 63
- 3.2.2 k近邻 63
- 3.3 朴素贝叶斯 64
- 3.3.1 多项式朴素贝叶斯 65
- 3.3.2 高斯朴素贝叶斯 66
- 3.4 决策树 67
- 3.5 支持向量机 70
- 3.6 有监督学习方法的对比 75
- 3.6.1 回归问题 75
- 3.6.2 分类问题 80
- 3.7 隐马尔可夫模型 84
- 3.8 小结 93
- 第4章 Web挖掘技术 94
- 4.1 Web结构挖掘 95
- 4.1.1 Web爬虫 95
- 4.1.2 索引器 95
- 4.1.3 排序—PageRank算法 96
- 4.2 Web内容挖掘 97句法解析 97
- 4.3 自然语言处理 98
- 4.4 信息的后处理 108
- 4.4.1 潜在狄利克雷分配 108
- 4.4.2 观点挖掘(情感分析) 113
- 4.5 小结 117
- 第5章 推荐系统 118
- 5.1 效用矩阵 118
- 5.2 相似度度量方法 120
- 5.3 协同过滤方法 120
- 5.3.1 基于记忆的协同过滤 121
- 5.3.2 基于模型的协同过滤 126
- 5.4 CBF方法 130
- 5.4.1 商品特征平均得分方法 131
- 5.4.2 正则化线性回归方法 132
- 5.5 用关联规则学习,构建推荐系统 133
- 5.6 对数似然比推荐方法 135
- 5.7 混合推荐系统 137
- 5.8 推荐系统评估 139
- 5.8.1 均方根误差(RMSE)评估 140
- 5.8.2 分类效果的度量方法 143
- 5.9 小结 144
- 第6章 开始Django之旅 145
- 6.1 HTTP—GET和POST方法的基础 145
- 6.1.1 Django的安装和服务器的搭建 146
- 6.1.2 配置 147
- 6.2 编写应用—Django最重要的功能 150
- 6.2.1 model 150
- 6.2.2 HTML网页背后的URL和view 151
- 6.2.3 URL声明和view 154
- 6.3 管理后台 157
- 6.3.1 shell接口 158
- 6.3.2 命令 159
- 6.3.3 RESTful应用编程接口(API) 160
- 6.4 小结 162
- 第7章 电影推荐系统Web应用 163
- 7.1 让应用跑起来 163
- 7.2 model 165
- 7.3 命令 166
- 7.4 实现用户的注册、登录和登出功能 172
- 7.5 信息检索系统(电影查询) 175
- 7.6 打分系统 178
- 7.7 推荐系统 180
- 7.8 管理界面和API 182
- 7.9 小结 184
- 第8章 影评情感分析应用 185
- 8.1 影评情感分析应用用法简介 185
- 8.2 搜索引擎的选取和应用的代码 187
- 8.3 Scrapy的配置和情感分析应用代码 189
- 8.3.1 Scrapy的设置 190
- 8.3.2 Scraper 190
- 8.3.3 Pipeline 193
- 8.3.4 爬虫 194
- 8.4 Django model 196