给网友们整理相关的编程文章,网友逯水晶根据主题投稿了本篇教程内容,涉及到python、基础、爬虫、python构建基础的爬虫教学相关内容,已被124网友关注,如果对知识点想更进一步了解可以在下方电子资料中获取。
python构建基础的爬虫教学
爬虫具有域名切换、信息收集以及信息存储功能。
这里讲述如何构建基础的爬虫架构。
1、
1、基础爬虫
爬虫需要首先import对象,然后打开网址,使用BeautifulSoup对网页内容进行读取。
2、使用print输出打开的网址的内容。
3、从输出中可以看出内容的结构为:
4、输出内容中的html-body-h1的内容可使用四种语句。
5、
1、Error
2、
3、网页在服务器上不存在会出现HTTPError,可使用try语句进行处理。
当程序返回HTTPError错误代码时,会显示错误内容。
4、服务器不存在时,urlopen会返回None.
可使用判断语句进行检测。
调用的标签不存在会出现None,调用不存在的标签下的子标签,就会出现AttributeError错误。