Python 第三方库
First Post:
Last Update:
Last Update:
bs4 库
bs4: 网页数据抓取库
1 |
|
BeautifulSoup 对象
构造参数:
BeautifulSoup(html文本, 解析器)
解析器 | 构造传参 | 特点 |
---|---|---|
python 标准库 | (html, “html.parser”) | 速度中, 容错强 |
lxml HTMl | (html, “lxml”) | 速度快, 容错强 |
lxml XML | (html, [“lxml”, “xml”]) | 速度快, 支持 xml 解析 |
html5lib | (html, “html5lib”) | 以浏览器的方式解析文档, 生成 html5 文档 |
对象属性
name
: 标签名
对象方法
find_all()
搜索当前 tag 的所有 tag 子节点
返回符合条件的结果集 bs4.Element.ResultSet
当循环结果集时, 每个结果为一个字典
1 |
|
find()
find("title")
等价于 find_all("title", limit=1)
返回一个页面元素