python使用BeautSoup库爬取豆瓣电影
- 更新时间:2021-06-24 08:24:08
- 编辑:勾瀚海
给网友们整理相关的编程文章,网友瞿竹雨根据主题投稿了本篇教程内容,涉及到使用、内容、文档、搜索、字符相关内容,已被134网友关注,如果对知识点想更进一步了解可以在下方电子资料中获取。
参考资料
- Cmongo安装部署文档 / 15 KB / 码小辫 推荐度:
- Content Site Search Guru / 886 KB / 搜索 推荐度:
- vue3官方文档指南(带标签) / 89 MB / 码小辫 推荐度:
- 图解数据结构:使用C++ PDF 电子书 / 196 MB / 胡昭民、吴灿铭 推荐度:
- python实现多文本文档编辑器 / 29 KB / 码小辫 推荐度:
正文内容
今天在网上看到《python使用BeautSoup库爬取豆瓣电影》,感觉很有用处,把网友测试过的内容发布到这里,希望大家能有所收获。
一、python爬虫BeautSoup库简介
BeautifulSoup是将复杂HTML文档转换成一个复杂的树形结构,每个节点都是python对象。
BeautifulSoup四种对象
1、tag
2、NavigableString
3、BeautifulSoup
4、Comment
二、BeautSoup库爬取豆瓣电影
1、使用原理
from bs4 import BeautifulSoup import re file = open("./bs4使用.html","rb")#笔者已经事先在bs4使用.html文件夹里写入了指定网页的代码源 #file.write() html = file.read().decode("utf-8") bs = BeautifulSoup(html,"html.parser")#html.parser是解析器 print(bs.title) print("****") print(bs.title.string) #只打印里面的东西 即字符串
2、提取豆瓣电影指定内容
print(bs.a) print(bs.head) print(type(bs.head)) #Tag 标签及其内容:只能拿到第一个
3、文档遍历,使用正则表达式搜索
#文档遍历 print(bs.head.contents) print(bs.head.contents[1]) #文档的搜索 #字符串过滤:会查找与字符串完全匹配的内容 t_list = bs.find_all("a") #标签必须为a,才输出 #正则表达式搜索:使用search()方法来匹配内容 t_list = bs.find_all(re.compile("a")) #只要包含a这个字母,就都输出
相关教程
-
在windows下使用python进行串口通讯的方法
今天小编就为大家分享一篇在windows下使用python进行串口通讯的方法,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
发布时间:2019-09-08
-
详解关于element el-button使用$attrs的一个注意要点
这篇文章主要介绍了详解关于element el-button使用$attrs的一个注意要点,小编觉得挺不错的,现在分享给大家,也给大家做个参考。一起跟随小编过来看看吧
发布时间:2019-07-23