当前位置:主页 > 计算机电子书 > 程序设计 > Scrapy下载
精通Scrapy网络爬虫

精通Scrapy网络爬虫 PDF 全书超清版

  • 更新:2024-03-31
  • 大小:17.69 MB
  • 类别:Scrapy
  • 作者:刘硕
  • 出版:清华大学出版社
  • 格式:PDF

  • 资源介绍
  • 相关推荐

精通Scrapy网络爬虫》这本书是一本非常值得一读的网络爬虫技术书籍,在Scrapy这个流行的Python框架方面,书中详尽地介绍了相关技术及使用技巧,其案例丰富实践,代码注释也非常详细,非常适合那些已经掌握一定Python语言基础,想要学习并编写复杂网络爬虫的读者使用,如果你正在寻找一本深入系统介绍Scrapy技术且注重实践的书籍,那么这本书将会是一个不错的选择。

特意来回复,“清华大学出版社”的技术书,基本等于粗制烂制,但是这本,可以算是质量较佳了,我不知道内容出处,但是至少条理清洗,是一个整体,而不是很多国产技术书,东抄西拼的。依靠这本书,完全可以做到Scrapy入门,并且工作。我觉得可以一买。

1. 编著而非著作:这是一本编著书,想要看作者精彩的分析介绍的就不要买了。Scrapy 是最详尽的爬虫库,其官方文档就是最好的资料,之所以买这本书就是因为 Scrapy 的中文文档已经落后。但是这本书仅仅是收集资料而非作者的太多感悟,让我觉得有点失望。
2. 适合阅读了官方文档之后再来看这本书:我就是这样的,感觉上手特别快。看完前七章基本可以说 Scrapy 入门。
3. 不是一本经典书籍,但是是一本有用的实用书籍:关于选择器那块写的虽然枯燥,但是详尽,这块还是…

看了不到一星期读完了,总体来说,很不错,以实战来讲解,很不错,但没有以提供最后源码,是在讲解中说明的,注释很详细,但我还是推荐,应该提供最后源码,如果手误写错了,那初学者就做不对。另外一些走向高阶的内容讲的很少,比较笼统,所以这最适合懂一点爬虫,但没基础项目的人学习

本书特色

本书以应用为出发点,详细深入地介绍了Python流行框架Scrapy的核心技术及网络爬虫的开发技巧。本书分为基础篇和高级篇两部分,基础篇重点介绍Scrapy的核心元素,如spider、selector、item、link等;高级篇讲解如登录认证、文件下载、执行JavaScript、动态网页爬取、使用HTTP代理、分布式爬虫的编写等内容。为方便读者快速上手,本书还设计了大量项目案列,包括供练习用的网站的爬取以及如*、知乎、豆瓣、360等网站的爬取。本书很适合有一定Python语言基础,想学习编写复杂网络爬虫的读者使用。此外,书中涉及的关联知识很丰富,可以帮助读者拓展知识面,掌握更多实用技能。 

内容简介

本书深入系统地介绍了Python流行框架Scrapy的相关技术及使用技巧。全书共14章,从逻辑上可分为基础篇和高级篇两部分,基础篇重点介绍Scrapy的核心元素,如spider、selector、item、link等;高级篇讲解爬虫的高级话题,如登录认证、文件下载、执行JavaScript、动态网页爬取、使用HTTP代理、分布式爬虫的编写等,并配合项目案例讲解,包括供练习使用的网站,以及*、知乎、豆瓣、360爬虫案例等。 本书案例丰富,注重实践,代码注释详尽,适合有一定Python语言基础,想学习编写复杂网络爬虫的读者使用。

目录

  • 第1章  初识Scrapy 1
  • 第2章  编写Spider 12
  • 第3章  使用Selector提取数据 23
  • 第4章  使用Item封装数据 41
  • 第5章  使用ItemPipeline处理数据 48
  • MongoDB 54
  • 第6章  使用LinkExtractor提取链接 58
  • 第7章  使用Exporter导出数据 66
  • 第8章  项目练习 75
  • 第9章  下载文件和图片 89
  • ImagesPipeline 89
  • 说明 90
  • 说明 91
  • 例子源码文件 92
  • 第10章  模拟登录 110
  • Cookie 128
  • 源码分析 129
  • Middleware 132
  • 信息 133
  • 第11章  爬取动态页面 136
  • 中的名人名言 146
  • 中的书籍信息 149
  • 第12章  存入数据库 155
  • 第13章  使用HTTP代理 174
  • 信息 187
  • 第14章  分布式爬取 199
  • 部分 207
  • 部分 214
  • 布式爬取 217

资源下载

资源下载地址1:https://pan.quark.cn/s/557c226fe112

相关资源

网友留言