Python 第三方库

First Post:

Last Update:

bs4 库

bs4: 网页数据抓取库

1
import bs4

BeautifulSoup 对象

构造参数:

BeautifulSoup(html文本, 解析器)

解析器 构造传参 特点
python 标准库 (html, “html.parser”) 速度中, 容错强
lxml HTMl (html, “lxml”) 速度快, 容错强
lxml XML (html, [“lxml”, “xml”]) 速度快, 支持 xml 解析
html5lib (html, “html5lib”) 以浏览器的方式解析文档, 生成 html5 文档

对象属性

  • name: 标签名

对象方法

find_all()

搜索当前 tag 的所有 tag 子节点
返回符合条件的结果集 bs4.Element.ResultSet

当循环结果集时, 每个结果为一个字典

1
2
3
4
tags = html.find_all("div")

for element in tags:
print(type(element))
find()

find("title") 等价于 find_all("title", limit=1)

返回一个页面元素