CSS 选择器:BeautifulSoup4
Beautiful Soup 也是一个HTML/XML的解析器,主要的功能也是如何解析和提取 HTML/XML 数据。
抓取工具 | 速度 | 使用难度 | 安装难度 | |
---|---|---|---|---|
正则 | 最快 | 困难 | 无(内置) | |
BeautifulSoup | 慢 | 最简单 | 简单 | |
lxml | 快 | 简单 | 一般 |
lxml 只会局部遍历,而Beautiful Soup 是基于HTML DOM的,会载入整个文档,解析整个DOM树,因此时间和内存开销都会大很多,所以性能要低于lxml。
官方文档:http://beautifulsoup.readthedocs.io/zh_CN/v4.4.0
使用
安装:
pip install beautifulsoup4
使用:
from bs4 import BeautifulSoup
text = “””
The Dormouse’s story—-2b
Once upon a time there were three little sisters; and their names were
Elsie–alice,
Lacie and
Tillie;
and they lived at the bottom of a well.
…
“””
# 创建beautifulsoup对象
soup = BeautifulSoup(text,’lxml’)
# 格式化输出
soup.prettify()
实例化对象
html_bs4 = BeautifulSoup(text,’lxml’)
格式化
print(html_bs4.prettify())
获取元素 只能获取第一个
print(html_bs4.div,type(html_bs4.div))
print(html_bs4.div[‘class’])
获取标签名
print(html_bs4.div.name)
获取文本内容
print(html_bs4.div.string,type(html_bs4.div.string))
print(html_bs4.p.string)
获取标签中的素有内容包括字标签内的内容
print(html_bs4.body.get_text)
获取属性的方法
print(html_bs4.p[‘id’])
获取当前标签所有的属性和值
print(html_bs4.p.attrs)
find()
find_all() 返回的是列表
print(html_bs4.find(‘p’))
print(html_bs4.find(id=’p1’))
print(html_bs4.find_all(‘p’))
print(html_bs4.find_all(id=’p1’))
print(html_bs4.find_all(data=”1”))
元素节点
print(html_bs4.body.contents)
chil = html_bs4.body.children
for item in chil:
print(item)
print(html_bs4.body.descendants)
css选择器
标签选择器
print(html_bs4.select(‘p’))
所有含类选择器title的
print(html_bs4.select(‘.title’))
同时获取id=p1的元素和 class=story 的标签
res = html_bs4.select(‘#p1,.story’)
print(res)
获取class属性为sister的按标签
print(html_bs4.select(‘a.sister’))
print(type(html_bs4.select(‘a.sister’)[0]))
查找只要满足选择器条件的 b 标签==组合查找,同时满足
res = html_bs4.select(‘p b’)
print(res)
获取 页面中所有p标签中的 直接子元素b标签==子类选择器
res = html_bs4.select(‘p>b’)
print(res)
查找包含指定属性的标签
print(soup.select(‘[name]’))
获取文本内容 text属性
get(属性名) 获取指定属性的值
res = html_bs4.select(‘a’)
print(res)
for i in res:
print(i.text)
print(i.get(‘href’))
获取标签和标签属性
tag = soup.p
获取标签名
tag.name
获取标签属性
tag = soup.p[‘class’] #返回指定属性的值
tag = soup.p.attrs # 返回当前标签的所有属性
获取所有的子节点
soup.body.contents # 返回列表形式
soup.body.children # 返回迭代器类型
soup.body.denscendants #返回所有后代元素
find_all()
soup.find_all(‘p’) # 获取所有的p元素
soup.find_all(‘p’,attrs = {‘class’:’title’}) # 获取所有class=title的p元素
选择器的用法 ***
soup.select(‘p.title’) # 获取class=title的素有p标签
soup.select(‘p .title’) # 获取p里面class=title的素有元素
soup.select(‘#p1’) # 获取id=p1的元素
soup.select(‘p > a’) # 获取p的子元素a
soup.select(‘p,div’)
soup.select(‘a[class=”item1”]’)
soup.select(‘a[class]’)
soup.select(‘a[class*=”o”]’) #模糊查询
soup.select(‘a[class^=”o”]’) # 限制开头
soup.select(‘a[class$=”0”]’) # 限制结尾
获取文本和属性的方法
.text()
.get(src)