当前位置:主页 > python教程 > python构建基础的爬虫教学

python构建基础的爬虫知识点总结

发布:2019-06-19 09:22:31 195


给网友们整理相关的编程文章,网友逯水晶根据主题投稿了本篇教程内容,涉及到python、基础、爬虫、python构建基础的爬虫教学相关内容,已被124网友关注,如果对知识点想更进一步了解可以在下方电子资料中获取。

python构建基础的爬虫教学

爬虫具有域名切换、信息收集以及信息存储功能。

这里讲述如何构建基础的爬虫架构。

1、

 
urllib库:包含从网络请求数据、处理cookie、改变请求头和用户处理元数据的函数。是python标准库.urlopen用于打开读取一个从网络获取的远程对象。能轻松读取HTML文件、图像文件及其他文件流。

 

 

 
2、
 
beautifulsoup库:通过定位HTML标签格式化和组织复杂的网络信息,用python对象展现XML结构信息。不是标准库,可用pip安装。常用的对象是BeautifulSoup对象。
 

 

1、基础爬虫

爬虫需要首先import对象,然后打开网址,使用BeautifulSoup对网页内容进行读取。

python构建基础的爬虫教学

2、使用print输出打开的网址的内容。

python构建基础的爬虫教学

3、从输出中可以看出内容的结构为:

python构建基础的爬虫教学

4、输出内容中的html-body-h1的内容可使用四种语句。

python构建基础的爬虫教学

python构建基础的爬虫教学

5、

 
BeautifulSoup可提取HTML、XML文件的任意节点的信息,只需要目标信息旁边或附近有标记。
 

 

1、Error

 
在运行代码时,经常会出现错误,看懂错误出现的原因才能解决存在的问题。
 

 

2、

 
在html=urlopen('')中会发生两种错误:网页在服务器上不存在或服务器不存在
 

 

3、网页在服务器上不存在会出现HTTPError,可使用try语句进行处理。

当程序返回HTTPError错误代码时,会显示错误内容。

python构建基础的爬虫教学

4、服务器不存在时,urlopen会返回None.

可使用判断语句进行检测。

调用的标签不存在会出现None,调用不存在的标签下的子标签,就会出现AttributeError错误。

python构建基础的爬虫教学


参考资料

相关文章

  • Python实现数据可视化监控爬虫状态

    发布:2019-06-06

    今天主要是来说一下怎么可视化来监控你的爬虫的状态。文中通过实例代码给大家分析了Python实现数据可视化看如何监控你的爬虫状态,感兴趣的朋友一起看看吧


  • python爬虫被封的问题分析

    发布:2019-06-13

    这篇文章主要介绍了爬虫被封的问题,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧


  • Python爬虫解析方法和爬虫实现过程总结

    发布:2019-06-05

    本文想针对某一网页对 python 基础爬虫的两大解析库( BeautifulSoup 和 lxml )和几种信息提取实现方法进行分析,及同一网页爬虫的四种实现方式,需要的朋友参考下吧


网友讨论