Python网络爬虫技术与实战
上QQ阅读APP看书,第一时间看更新

3.5 Beautiful Soup库

Beautiful Soup是一个可以从HTML或XML文件中提取数据的Python库。它能够通过转换器来实现惯用的文档导航、查找及修改。Beautiful Soup是一个工具箱,通过解析文档为用户提供需要抓取的数据,因为简单,所以不需要多少代码就可以写出一个完整的应用程序。

Beautiful Soup自动将输入文档转换为Unicode编码,输出文档转换为utf-8编码。你不需要考虑编码方式,除非文档没有指定一个编码方式,这时Beautiful Soup就不能自动识别编码方式了。然后,我们仅仅需要说明一下原始编码方式就可以了。

Beautiful Soup已成为和lxml、html6lib一样出色的Python解释器,为用户灵活地提供不同的解析策略或强劲的速度。本节将介绍Beautiful Soup库的安装使用、HTML数据的提取以及CSS选择器。