当前位置：主页 > python教程 > python爬虫中线程池和进程池详解

python线程池和进程池功能与用法总结

发布：2019-06-04 08:47:02 143

给网友们整理python爬虫相关的编程文章，网友步敏智根据主题投稿了本篇教程内容，涉及到python爬虫、线程池、进程池、python爬虫中线程池和进程池详解相关内容，已被735网友关注，涉猎到的知识点内容可以在下方电子书获得。

python爬虫中线程池和进程池详解

本文实例讲述了python爬虫之线程池和进程池功能与用法。分享给大家供大家参考，具体如下：

一、需求

最近准备爬取某电商网站的数据，先不考虑代理、分布式，先说效率问题（当然你要是请求的太快就会被封掉，亲测，400个请求过去，服务器直接拒绝连接，心碎），步入正题。一般情况下小白的我们第一个想到的是for循环，这个可是单线程啊。那我们考虑for循环直接开他个5个线程，问题来了，如果有一个url请求还没有回来，后面的就干等，这么用多线程等于没用，到处贴创可贴。

二、性能考虑

确定要用多线程或者多进程了，那我们到底是用多线程还是多进程，有些人对多进程和多线程有一定的偏见，就因为python的GIL锁，下面我们说一下这两个东西的差别。

三、多线程：

一般情况下我们启动一个.py文件，就等于启动了一个进程，一个进程里面默认有一个线程工作，我们使用的多线程的意思就是在一个进程里面启用多个线程。但问题来了，为什么要使用多线程呢？我知道启动一个进程的时候需要创建一些内存空间，就相当于一间房子，我们要在这个房子里面干活，你可以想一个人就等于一个线程，你房子里面有10个人的空间跟有20个人的空间，正常情况下是不一样的，因为我们知道线程和线程之间默认是可以通信的（进程之间默认是不可以通信的，不过可以用技术实现，比如说管道）。可以多线程为了保证计算数据的正确性，所以出现了GIL锁，保证同一时间只能有一个线程在计算。GIL锁你可以基本理解为，比如在这个房间里要算一笔账，在同一时间内只能有一个人在算这笔账，想一个问题，如果这笔账5个人就能算清楚，我需要10平米的房间就行，那为什么要请10个人，花20平米呢？所以并不是开的线程越多越好。但是，但是，但是，注意大家不用动脑筋（CPU计算）算这笔账的时候可以去干别的事（比如说5个人分工，各算一部分），比如说各自把自己算完后的结果记录在账本上以便后面对账，这个的话每个人都有自己的账本，所以多线程适合IO操作，记住了就算是适合IO操作，也不代表说人越多越好，所以这个量还是得根据实际情况而定。

线程池示例：

import requests
from concurrent.futures import ThreadPoolExecutor
urls_list = [
  'https://www.baidu.com',
  'http://www.gaosiedu.com',
  'https://www.jd.com',
  'https://www.taobao.com',
  'https://news.baidu.com',
]
pool = ThreadPoolExecutor(3)
def request(url):
  response = requests.get(url)
  return response
def read_data(future,*args,**kwargs):
  response = future.result()
  response.encoding = 'utf-8'
  print(response.status_code,response.url)
def main():
  for url in urls_list:
    done = pool.submit(request,url)
    done.add_done_callback(read_data)
if __name__ == '__main__':
  main()
  pool.shutdown(wait=True)

四、多进程：

上面我们介绍了多线程（线程池），现在我们聊聊进程池，我们知道一个进程占用一个CPU，现在的配置CPU一般都是4核，我们启动两个进程就是分别在两个CPU里面（两个内核）各运行一个进程，我知道进程里面才有线程，默认是一个。但是有个缺点，按照上面的说法，开两个进程占用的内存空间是开一个进程占用内存空间的2倍。CPU就占用了2个核，电脑还得干别的事儿对吧，不能冒冒失失瞎用。开的太多是不是其他程序就得等着，我们思考一下，占用这么多的内存空间，利用了多个CPU的优点为了什么？CPU是用来做什么的？没错就是用来计算的，所以在CPU密集运算的情况下建议用多进程。注意，具体要开几个进程，根据机器的实际配置和实际生产情况而定。

进程池

import requests
from concurrent.futures import ProcessPoolExecutor
urls_list = [
  'https://www.baidu.com',
  'http://www.gaosiedu.com',
  'https://www.jd.com',
  'https://www.taobao.com',
  'https://news.baidu.com',
]
pool = ProcessPoolExecutor(3)
def request(url):
  response = requests.get(url)
  return response
def read_data(future,*args,**kwargs):
  response = future.result()
  response.encoding = 'utf-8'
  print(response.status_code,response.url)
def main():
  for url in urls_list:
    done = pool.submit(request,url)
    done.add_done_callback(read_data)
if __name__ == '__main__':
  main()
  pool.shutdown(wait=True)

总结：

1、多线程适合IO密集型程序

2、多进程适合CPU密集运算型程序

五、协程：

协程：又称微线程纤程。英文名Coroutine。那协程到底是个什么东西，通俗的讲就是比线程还要小的线程，所以才叫微线程。

主要作用：有人要问了，在python中线程是原子操作（意思就是说一句话或者一个动作就能搞定的操作或者计算），怎么还有个叫协程的呢？

优点：

1、使用高并发、高扩展、低性能的；一个CPU支持上万的协程都不是问题。所以很适合用于高并发处理。

2、无需线程的上下文切换开销（乍一看，什么意思呢？我们都知道python实际上是就是单线程，那都是怎么实现高并发操作呢，就是CPU高速的切换，每个任务都干一点，最后看上去是一起完事儿的，肉眼感觉就是多线程、多进程）

缺点：

1、无法利用CPU的多核优点，这个好理解，进程里面包含线程，而协程就是细分后的线程，也就是说一个进程里面首先是线程其后才是协程，那肯定是用不了多核了，不过可以多进程配合，使用CPU的密集运算，平时我们用不到。

一般情况下用的比较多的是asyncio或者是gevent这两个技术实现协程，asyncio是python自带的技术，gevent第三方库，个人比较喜欢gevent这个技术。

gevent：

安装：gevent需要安装greenlet，因为它是使用到了greenlet这个库。

pip3 install greenlet
pip3 install gevent

1、gevent的基本实现，按照下面的写法，程序启动后将会开启许许多多的协程，反而特别影响性能。

gevent+requests：

import requests
import gevent
from gevent import monkey
#把当前的IO操作，打上标记，以便于gevent能检测出来实现异步(否则还是串行）
monkey.patch_all()
def task(url):
  '''
  1、request发起请求
  :param url: 
  :return: 
  '''
  response = requests.get(url)
  print(response.status_code)
gevent.joinall([
  gevent.spawn(task,url='https://www.baidu.com'),
  gevent.spawn(task,url='http://www.sina.com.cn'),
  gevent.spawn(task,url='https://news.baidu.com'),
])

2、有一个改进版本，就是可以设置到底让它一次发起多少个请求（被忘了，协程=高并发现实之一）。其实里面就是利用gevnet下的pool模块里面的Pool控制每次请求的数量。

gevent+reqeust+Pool（控制每次请求数量）

import requests
import gevent
from gevent import monkey
from gevent.pool import Pool
#把当前的IO操作，打上标记，以便于gevent能检测出来实现异步(否则还是串行）
monkey.patch_all()
def task(url):
  '''
  1、request发起请求
  :param url:
  :return:
  '''
  response = requests.get(url)
  print(response.status_code)
#控制最多一次向远程提交多少个请求，None代表不限制
pool = Pool(5)
gevent.joinall([
  pool.spawn(task,url='https://www.baidu.com'),
  pool.spawn(task,url='http://www.sina.com.cn'),
  pool.spawn(task,url='https://news.baidu.com'),
])

3、还有一版本，每次我们都要装greenlet和gevent这肯定是没法子，但是，我们上面写的这个改进版还是有点麻烦，所以就有人写了100多行代码把它们给搞到了一起，对就是搞到了一起，叫grequests，就是前者两个技术的结合。

pip3 install grequests

这个版本是不是特别变态，直接把requests、greenlet、gevent、Pool都省的导入了，但是装还是要装的，有人说从下面代码中我没看到Pool的参数啊，grequests.map(request_list,size=5)，size就是你要同时开几个协程，还有参数你得点进去看，是不是很牛，很轻松

grequests：

import grequests
request_list = [
  grequests.get('https://www.baidu.com'),
  grequests.get('http://www.sina.com.cn'),
  grequests.get('https://news.baidu.com'),
]
# ##### 执行并获取响应列表 #####
response_list = grequests.map(request_list,size=5)
print(response_list)

结果返回一个列表，你可以再迭代一下就行了。

python爬虫之线程池和进程池功能与用法详解

更多关于Python相关内容可查看本站专题：《Python Socket编程技巧总结》、《Python正则表达式用法总结》、《Python数据结构与算法教程》、《Python函数使用技巧总结》、《Python字符串操作技巧汇总》、《Python入门与进阶经典教程》及《Python文件与目录操作技巧汇总》

希望本文所述对大家Python程序设计有所帮助。

上一篇：Flask上传文件到服务器的方法分享
下一篇：Python切片的误区与高级用法总结

参考资料

python爬虫实现校园网自动重连脚本的方法

发布：2020-02-10

下面小编就为大家分享一篇python爬虫_实现校园网自动重连脚本的教程，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧

Python爬虫程序中使用生产者与消费者模式时进程过早退出的问题

发布：2023-03-02

本文主要介绍了Python爬虫程序中使用生产者与消费者模式时进程过早退出的问题，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧

Python爬虫之对CSDN榜单进行分析

发布：2023-03-05

这篇文章主要介绍了Python爬虫之对CSDN榜单进行分析，文章有详细代码，简单易懂，小编觉得挺不错的，现在分享给大家，也给大家做个参考。一起跟随小编过来看看吧

python爬虫之线程池和进程池功能与用法详解

发布：2023-01-05

给大家整理一篇关于python爬虫的教程，这篇文章主要介绍了python爬虫之线程池和进程池功能与用法,结合实例形式分析了Python基于线程池与进程池的爬虫功能相关操作技巧与使用注意事项,需要的朋友可以参考下

Python爬取静态网页图片的原理方法

发布：2020-01-02

这篇文章主要介绍了Python使用爬虫爬取静态网页图片的方法,较为详细的说明了爬虫的原理,并结合实例形式分析了Python使用爬虫来爬取静态网页图片的相关操作技巧,需要的朋友可以参考下

QT通过C++线程池运行Lambda自定义函数流程详解

发布：2023-03-03

最近在接触公司的一个QT桌面项目，其中里面有一个模块是使用线程池去运行自定义函数的，自己潜心研究那个线程池代码一天，发现研究不透，看不懂，里面几乎都是使用C++11的新特性进行编写

java线程池使用后是否需要关闭

发布：2020-01-10

这篇文章主要给大家介绍了关于java线程池使用后到底要不要关闭的相关资料，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编

python识别爬虫的实例方法

发布：2019-11-02

输入式验证码，推荐使用python第三方库tesserocr；滑动式验证码，可使用seleniium;宫格验证码,使用selenium模拟即可。

网友讨论

最新更新

最近更新

05-29Go语言面试八股文大全
05-29MySQL 8.4中文手册
05-29华为OD机考100题(真题)
05-29Python+OpenCV入门计算机视觉实战项目52讲 v1.0
05-21敏捷软件测试实践指南
05-21编写可维护的JavaScript
05-21Modbus协议
05-21竹林蹊径：深入浅出Windows驱动开发
05-21PCIE规范合集(PCI_Express_Base 1.0/2.1/3.0/4.0/5.0/6.0)
05-21深入理解Rust并发编程

热门资源

python线程池和进程池功能与用法总结

python爬虫中线程池和进程池详解

参考资料

虫术Python绝技 PDF电子书

精通Python爬虫框架Scrapy PDF电子书

Python爬虫开发从入门到实战 PDF电子书

相关文章

python爬虫实现校园网自动重连脚本的方法

Python爬虫程序中使用生产者与消费者模式时进程过早退出的问题

Python爬虫之对CSDN榜单进行分析

python爬虫之线程池和进程池功能与用法详解

Python爬取静态网页图片的原理方法

QT通过C++线程池运行Lambda自定义函数流程详解

java线程池使用后是否需要关闭

python识别爬虫的实例方法

网友讨论