一、概况
前两篇我们把网络库Requests大概的用法学了一遍,把网站上的每页数据请求下来是爬虫的第一步,接下来我们就需要把每页上对我们有用数据进行提取。提取数据的方式有很多,比如说正则、xpath、bs4等,我们今天就来学一下xpath的语法。
这是小编准备的Python学习资料,关注,转发。私信小编“01”即可免费获取拉!
二、Xpath
三、准备
pip3 install lxml
四、用法
XPath 使用路径表达式来选取 XML 文档中的节点或者节点集。这些路径表达式和我们在常规的电脑文件系统中看到的表达式非常相似。
案例
我们发现最后打印的值都是一个列表对象,如果想取值就可以遍历列表了。
选取未知节点 XPath 通配符可用来选取未知的 XML 元素。
案例
谓语的一些路径表达式
案例
五、函数
案例
以上是Xpath一些常用用法,如果想了解更多的语法可以参考 W3School
六、浏览器插件
我们可以在浏览器安装一些xpath插件,方便我们进行解析数据。
去浏览器扩展下载这些插件,会在浏览器左上角看到图标,如下
插件
大概使用方法:
使用方法
七、总结
我们把网络库、解析库,接下来我们就可以开始真正的爬虫之旅,后续的文章打算用Requests和Xpath爬取几个网站。