Python爬虫Xpath定位数据的两种方法
方法一:直接右键,将文章路径复制下来点击Copy full Xpath
使用selenium+lxml中的etree进行配合使用,使用etree解析html网页
import requests from lxml import etree import time import socket import csv from selenium import webdriver from configparser import ConfigParser from selenium.webdriver import Chrome from selenium.webdriver import ChromeOptions #禁止图片和css加载 chrome_options = webdriver.ChromeOptions() prefs = {"profile.managed_default_content_settings.images": 2} chrome_options.add_experimental_option("prefs", prefs) option = ChromeOptions() option.add_experimental_option('excludeSwitches', ['enable-automation']) # 如果想加载图片,就把下面第二句话改第一句话,删掉上面的“禁止图片和css加载”部分 # wb = Chrome(options=option) wb=webdriver.Chrome(options=chrome_options) #最大化窗口、输入网址、等待至网页加载完成(防止元素还没加载出来就开始爬了这样自然爬不到数据。如果一直加载不出就等10秒,加载好了就立刻结束等待) wb.maximize_window() wb.get("https://www.tianyancha.com/") wb.implicitly_wait(5)
然后获取网页数据,这里表明哪怕后面出错了,仍然可以延续wb的位置继续控制浏览器
data = wb.page_source time.sleep(3) data = wb.page_source time.sleep(3) page_all.append(data) html = etree.HTML(data) company = html.xpath('/html/body/div/div/div[2]/div/div[1]/div[1]/div[3]/div[1]/div[1]/div[1]/h1/text()') print(company )
方法二:使用@制定标签属性,搜索指定位置
这样的好处就是,对于批量处理的网页,有的标签位置不在同一个地方,那么我们就是不使用全Xpath路径,而使用相对路径,用@制定某种属性的标签,下载相关数据
"//div[@class='mainArea']/ul/li"
使用//div[@class=‘mainArea’]的意思是:从根部(//)查找 class值为 mainArea的Node.
所以,那么就很简单了 //某元素[@class=‘CLASS值’]
大家可以按照这个公式来查找 class的元素了。
剩下的 /ul/li 表示的是,继续查找 class='mainArea’的div包括的ul元素下面的li 节点集合。
到此这篇关于Python爬虫Xpath定位数据的方法的文章就介绍到这了,更多相关Python爬虫Xpath定位数据内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!
相关文章
python 安装库几种方法之cmd,anaconda,pycharm详解
在python项目开发的过程中,需要安装大大小小的库,本文会提供几种安装库的方法,通过实例截图给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友参考下2020-04-04Tensorflow之构建自己的图片数据集TFrecords的方法
本篇文章主要介绍了Tensorflow之构建自己的图片数据集TFrecords的方法,小编觉得挺不错的,现在分享给大家,也给大家做个参考。一起跟随小编过来看看吧2018-02-02关于python中readlines函数的参数hint的相关知识总结
今天给大家带来的是关于Python函数的相关知识,文章围绕着python中readlines函数的参数hint展开,文中有非常详细的介绍及代码示例,需要的朋友可以参考下2021-06-06
最新评论