python使用BeautSoup库爬取豆瓣电影

更新时间：2021-06-24 08:24:08
编辑：勾瀚海

给网友们整理相关的编程文章，网友瞿竹雨根据主题投稿了本篇教程内容，涉及到使用、内容、文档、搜索、字符相关内容，已被134网友关注，如果对知识点想更进一步了解可以在下方电子资料中获取。

参考资料

Cmongo安装部署文档 / 15 KB / 码小辫推荐度：
Content Site Search Guru / 886 KB / 搜索推荐度：
vue3官方文档指南(带标签) / 89 MB / 码小辫推荐度：
图解数据结构:使用C++ PDF 电子书 / 196 MB / 胡昭民、吴灿铭推荐度：
python实现多文本文档编辑器 / 29 KB / 码小辫推荐度：

正文内容

今天在网上看到《python使用BeautSoup库爬取豆瓣电影》，感觉很有用处，把网友测试过的内容发布到这里，希望大家能有所收获。

一、python爬虫BeautSoup库简介

BeautifulSoup是将复杂HTML文档转换成一个复杂的树形结构，每个节点都是python对象。

BeautifulSoup四种对象

1、tag

2、NavigableString

3、BeautifulSoup

4、Comment

二、BeautSoup库爬取豆瓣电影

1、使用原理

from bs4 import BeautifulSoup
import re

file = open("./bs4使用.html","rb")#笔者已经事先在bs4使用.html文件夹里写入了指定网页的代码源
#file.write()
html = file.read().decode("utf-8")
bs = BeautifulSoup(html,"html.parser")#html.parser是解析器
print(bs.title)
print("****")
print(bs.title.string) #只打印里面的东西 即字符串

2、提取豆瓣电影指定内容

print(bs.a)
print(bs.head)
print(type(bs.head)) #Tag 标签及其内容：只能拿到第一个

3、文档遍历，使用正则表达式搜索

#文档遍历

print(bs.head.contents)
print(bs.head.contents[1])

#文档的搜索
#字符串过滤：会查找与字符串完全匹配的内容
t_list = bs.find_all("a") #标签必须为a，才输出

#正则表达式搜索：使用search（）方法来匹配内容
t_list = bs.find_all(re.compile("a")) #只要包含a这个字母，就都输出

用户留言

发布评论

python使用BeautSoup库爬取豆瓣电影

参考资料

正文内容

相关教程

在windows下使用python进行串口通讯的方法

详解关于element el-button使用$attrs的一个注意要点

用户留言

最新更新

热门推荐