0.安装BeautifulSoup
BeautifulSoup库是解析、遍历、维护“标签树”的功能库。
pip install BeautifulSoup4
在Python中使用的格式为:from bs4 import BeautifulSoup
不得不说Python对大小写异常敏感,因为没能注意到BeautifulSoup中的S大写,导致我一直报错,几近崩溃。
1.soup
soup=BeautifulSoup(demo,"html.parser")
print(soup.prettify())
2.Beautiful Soup库解析器
html.parser
lxml
xml
html5lib
3.Beautiful Soup类的基本元素
Tag
Name
Attributes(字典形式)<Tag>.attrs
NavigableString
Comment
4.遍历
下行遍历
.contents
.children
.descendants
上行遍历
.parent
.parents
平行遍历
.next_sibling
.previous_sibling
.next_siblings
.previous_siblings
5.信息标记
XML eXtensible Markup Language(可拓展性好,internet上的信息交互和传递)
JSON JaveScript Object Notation(有类型的键值对,适合程序处理,接口处理,无注释)
YAML YAML Ain't Markup Language(无类型的键值对,无双引号,靠缩进,系统配置文件)
6.信息提取
find_all(name,attrs,recursive,string,**kwargs)
返回列表类型
tip