《精通Scrapy网络爬虫》这本书是一本非常值得一读的网络爬虫技术书籍,在Scrapy这个流行的Python框架方面,书中详尽地介绍了相关技术及使用技巧,其案例丰富实践,代码注释也非常详细,非常适合那些已经掌握一定Python语言基础,想要学习并编写复杂网络爬虫的读者使用,如果你正在寻找一本深入系统介绍Scrapy技术且注重实践的书籍,那么这本书将会是一个不错的选择。
特意来回复,“清华大学出版社”的技术书,基本等于粗制烂制,但是这本,可以算是质量较佳了,我不知道内容出处,但是至少条理清洗,是一个整体,而不是很多国产技术书,东抄西拼的。依靠这本书,完全可以做到Scrapy入门,并且工作。我觉得可以一买。
1. 编著而非著作:这是一本编著书,想要看作者精彩的分析介绍的就不要买了。Scrapy 是最详尽的爬虫库,其官方文档就是最好的资料,之所以买这本书就是因为 Scrapy 的中文文档已经落后。但是这本书仅仅是收集资料而非作者的太多感悟,让我觉得有点失望。
2. 适合阅读了官方文档之后再来看这本书:我就是这样的,感觉上手特别快。看完前七章基本可以说 Scrapy 入门。
3. 不是一本经典书籍,但是是一本有用的实用书籍:关于选择器那块写的虽然枯燥,但是详尽,这块还是…
看了不到一星期读完了,总体来说,很不错,以实战来讲解,很不错,但没有以提供最后源码,是在讲解中说明的,注释很详细,但我还是推荐,应该提供最后源码,如果手误写错了,那初学者就做不对。另外一些走向高阶的内容讲的很少,比较笼统,所以这最适合懂一点爬虫,但没基础项目的人学习
本书特色
本书以应用为出发点,详细深入地介绍了Python流行框架Scrapy的核心技术及网络爬虫的开发技巧。本书分为基础篇和高级篇两部分,基础篇重点介绍Scrapy的核心元素,如spider、selector、item、link等;高级篇讲解如登录认证、文件下载、执行JavaScript、动态网页爬取、使用HTTP代理、分布式爬虫的编写等内容。为方便读者快速上手,本书还设计了大量项目案列,包括供练习用的网站的爬取以及如*、知乎、豆瓣、360等网站的爬取。本书很适合有一定Python语言基础,想学习编写复杂网络爬虫的读者使用。此外,书中涉及的关联知识很丰富,可以帮助读者拓展知识面,掌握更多实用技能。
内容简介
本书深入系统地介绍了Python流行框架Scrapy的相关技术及使用技巧。全书共14章,从逻辑上可分为基础篇和高级篇两部分,基础篇重点介绍Scrapy的核心元素,如spider、selector、item、link等;高级篇讲解爬虫的高级话题,如登录认证、文件下载、执行JavaScript、动态网页爬取、使用HTTP代理、分布式爬虫的编写等,并配合项目案例讲解,包括供练习使用的网站,以及*、知乎、豆瓣、360爬虫案例等。 本书案例丰富,注重实践,代码注释详尽,适合有一定Python语言基础,想学习编写复杂网络爬虫的读者使用。
目录
- 第1章 初识Scrapy 1
- 第2章 编写Spider 12
- 第3章 使用Selector提取数据 23
- 第4章 使用Item封装数据 41
- 第5章 使用ItemPipeline处理数据 48
- MongoDB 54
- 第6章 使用LinkExtractor提取链接 58
- 第7章 使用Exporter导出数据 66
- 第8章 项目练习 75
- 第9章 下载文件和图片 89
- ImagesPipeline 89
- 说明 90
- 说明 91
- 例子源码文件 92
- 第10章 模拟登录 110
- Cookie 128
- 源码分析 129
- Middleware 132
- 信息 133
- 第11章 爬取动态页面 136
- 中的名人名言 146
- 中的书籍信息 149
- 第12章 存入数据库 155
- 第13章 使用HTTP代理 174
- 信息 187
- 第14章 分布式爬取 199
- 部分 207
- 部分 214
- 布式爬取 217