爬虫如何使用ip代理池
- 更新时间:2021-07-24 09:38:02
- 编辑:冯奇迈
我们帮大家精选了相关的编程文章,网友党彤彤根据主题投稿了本篇教程内容,涉及到代理、一个、随机、池中、选择相关内容,已被769网友关注,相关难点技巧可以阅读下方的电子资料。
参考资料
- 一个APP的诞生:从零开始设计你的手机应用 PDF 电子书 / 80.1 MB / Carol炒炒 推荐度:
- 概率论:数理统计与随机过程 课后答案 / 16.8 MB / 张帼奋 黄柏琴 张彩伢 推荐度:
- 随机过程及其应用(第二版) 课后答案 / 6.09 MB / 陆大絟 推荐度:
- Python大战机器学习:数据科学家的第一个小目标 PDF 电子书 / 76.8 MB / 华校专,王正林 推荐度:
- 做一个懒惰高效的Android程序员 / 355 KB / 码小辫 推荐度:
正文内容
给学习python的读者整理一篇《爬虫如何使用ip代理池》优秀文章,技术点分析的很透彻,增加了更多实例内容,看完如果觉得有用请记得收藏。
1、利用IP代理池技术,每次从IP代理池中随机选择一个IP代理来爬取数据。
import urllib.request import random #构建IP代理池 ip_pool = [ '58.221.55.58:808', '120.198.248.26:8088', '221.229.166.55:8080', '139.196.214.67:8080' ] def ip(ip_pool, url): #从IP代理池中随机选一个IP代理 ip = random.choice(ip_pool) print(ip) #格式化IP代理格 proxy = urllib.request.ProxyHandler({'http': ip}) #装入IP代理 opener = urllib.request.build_opener(proxy, urllib.request.HTTPHandler) return urllib.request.urlopen(url).read().decode('utf-8', 'ignore') data = ip(ip_pool, 'https://www.baidu.com/?tn=98010089_dg&ch=15') print(data)
2、使用IP代理池和用户代理的组合来增加访问量,更安全。利用ip代理的动态ip构建自己的代理ip池,可以保证ip的质量,因为ip代理的ip资源是独立有效的。
import urllib.request import random import urllib.error #自定义UA_IP类,用来随机得到 def UA_IP(thisUrl): #构建用户代理池 ua_pool = [ 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2272.89 Safari/537.36', 'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/535.1 (KHTML, like Gecko) Chrome/13.0.782.41 Safari/535.1 QQBrowser/6.9.11079.201', 'Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; WOW64; Trident/5.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; InfoPath.3; .NET4.0C; .NET4.0E)', 'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:6.0) Gecko/20100101 Firefox/6.0' ] #构建ip代理池 ip_pool = [ '139.196.196.74', '112.124.47.21', '61.129.70.109', '221.229.166.55' ] thisUA = random.choice(ua_pool) #从用户代理池中随机选择一个用户代理 thisIP = random.choice(ip_pool) #从IP代理池中随机选择一个IP代理 headers = ('User-Agent', thisUA) #构造报头 #将IP格式化 proxy = urllib.request.ProxyHandler({'http': thisIP}) #装入IP代理 opener = urllib.request.build_opener(proxy, urllib.request.HTTPHandler) #装入代理 opener.addheaders = [headers] #将opener设置为全局 urllib.request.install_opener(opener) #从网页爬取信息 data = urllib.request.urlopen(thisUrl).read().decode('utf-8', 'gnore') return data #网页池,后面从网页池中选择一个进行该网页信息的爬取 urls = [ 'https://mp.csdn.net/mdeditor/88323361#', 'https://mp.csdn.net/mdeditor/88144295#', 'https://mp.csdn.net/mdeditor/88144295#', 'https://mp.csdn.net/mdeditor/88081609#' ] #爬取1000次 for i in range(0, 1000): try: thisUrl = random.choice(urls) data = UA_IP(thisUrl) print(len(data)) except urllib.error.HTTPError as e: if hasattr(e, 'code'): print(e.code) if hasattr(e, 'reason'): print(e.reason)
以上就是爬虫使用ip代理池的方法,推荐大家使用品易http代理ip,千万ip资源百兆带宽,保证爬虫数据传输安全。提供高匿稳定代理ip服务,方便快捷获取网站数据,流量免费测试正在进行!python爬虫
相关教程
-
浅析pandas随机排列与随机抽样
这篇文章主要介绍了pandas随机排列与随机抽样的相关资料,帮助大家更好的利用pandas进行数据分析,感兴趣的朋友可以了解下
发布时间:2021-05-02
-
Python基于ThreadingTCPServer创建多线程代理的方法示例
这篇文章主要介绍了Python基于ThreadingTCPServer创建多线程代理的方法,结合实例形式分析了Python使用ThreadingTCPServer模块实现多线程代理功能进行网络请求响应的相关操作技巧,需要的朋友可以参考下
发布时间:2019-08-26