scrapy_selenium爬取Ajax、JSON、XML网页：豆瓣电影

导语

在网络爬虫的开发过程中，我们经常会遇到一些动态加载的网页，它们的数据不是直接嵌入在HTML中，而是通过Ajax、JSON、XML等方式异步获取的。这些网页对于传统的scrapy爬虫来说，是很难直接解析的。那么，我们该如何使用scrapy_selenium来爬取这些数据格式的网页呢？本文将为你介绍scrapy_selenium的基本原理和使用方法，并给出一个实际的案例。

概述

scrapy_selenium是一个结合了scrapy和selenium的爬虫框架，它可以让我们在scrapy中使用selenium来控制浏览器，从而实现对动态网页的爬取。scrapy_selenium的主要特点有：

它提供了一个SeleniumRequest类，可以让我们在scrapy中发送selenium请求，而不是普通的HTTP请求。
它提供了一个SeleniumMiddleware类，可以让我们在scrapy中处理selenium响应，而不是普通的HTML响应。
它提供了一个SeleniumSpider类，可以让我们在scrapy中使用selenium来编写爬虫逻辑，而不是普通的scrapy.Spider类。

正文

要使用scrapy_selenium来爬取Ajax、JSON、XML等数据格式的网页，我们需要遵循以下几个步骤：

安装scrapy_selenium库。我们可以使用pip命令来安装scrapy_selenium库，如下所示：

pip install scrapy-selenium

配置scrapy_selenium设置。我们需要在settings.py文件中添加以下内容：

# 设置selenium驱动程序的路径SELENIUM_DRIVER_NAME = 'chrome'SELENIUM_DRIVER_EXECUTABLE_PATH = '/path/to/chromedriver'# 设置selenium驱动程序的选项SELENIUM_DRIVER_ARGUMENTS = ['--headless'] # 使用无头模式# 启用selenium中间件DOWNLOADER_MIDDLEWARES = {'scrapy_selenium.SeleniumMiddleware': 800}

编写selenium爬虫。我们需要继承SeleniumSpider类，并重写start_requests方法和parse方法，如下所示：

from scrapy_selenium import SeleniumRequest, SeleniumSpiderclass MySpider(SeleniumSpider):name = 'my_spider'def start_requests(self):# 发送selenium请求，指定回调函数和元数据yield SeleniumRequest(url='https://example.com', # 目标网址callback=self.parse, # 回调函数meta={'proxy': self.get_proxy()} # 元数据，包含代理信息)def parse(self, response):# 处理selenium响应，提取数据或跟进链接# response为一个SeleniumResponse对象，它包含了driver属性，即浏览器驱动对象driver = response.driver # 获取浏览器驱动对象data = driver.find_element_by_xpath('//div[@id="data"]') # 通过xpath定位数据元素print(data.text) # 打印数据内容def get_proxy(self):#设置亿牛云 爬虫加强版代理#获取代理信息，返回一个字符串，格式为'user:pass@host:port'proxyHost = "www.16yun.cn"proxyPort = "3111"proxyUser = "16YUN"proxyPass = "16IP"return f'{proxyUser}:{proxyPass}@{proxyHost}:{proxyPort}'

案例

为了演示scrapy_selenium如何爬取Ajax、JSON、XML等数据格式的网页，我们以豆瓣电影为例，爬取它的电影列表和详情页。我们可以发现，豆瓣电影的电影列表是通过Ajax异步加载的，而电影详情页是通过JSON格式返回的。我们的目标是爬取每部电影的名称、评分、简介和海报图片，并保存到本地。

首先，我们需要创建一个scrapy项目，并安装scrapy_selenium库：

scrapy startproject doubancd doubanpip install scrapy_selenium

然后，我们需要配置scrapy_selenium设置，修改settings.py文件如下：

# 设置selenium驱动程序的路径SELENIUM_DRIVER_NAME = 'chrome'SELENIUM_DRIVER_EXECUTABLE_PATH = '/path/to/chromedriver'# 设置selenium驱动程序的选项SELENIUM_DRIVER_ARGUMENTS = ['--headless'] # 使用无头模式# 启用selenium中间件DOWNLOADER_MIDDLEWARES = {'scrapy_selenium.SeleniumMiddleware': 800}# 设置图片管道ITEM_PIPELINES = {'scrapy.pipelines.images.ImagesPipeline': 300}# 设置图片存储路径IMAGES_STORE = 'images'

接着，我们需要编写selenium爬虫，创建douban/spiders/douban.py文件如下：

from scrapy_selenium import SeleniumRequest, SeleniumSpiderfrom douban.items import DoubanItemclass DoubanSpider(SeleniumSpider):name = 'douban'def start_requests(self):# 发送selenium请求，指定回调函数和元数据yield SeleniumRequest(url='https://movie.douban.com/', # 目标网址callback=self.parse, # 回调函数meta={'proxy': self.get_proxy()} # 元数据，包含代理信息)def parse(self, response):# 处理selenium响应，提取数据或跟进链接# response为一个SeleniumResponse对象，它包含了driver属性，即浏览器驱动对象driver = response.driver # 获取浏览器驱动对象movies = driver.find_elements_by_xpath('//div[@class="list"]/a') # 通过xpath定位电影元素列表for movie in movies: # 遍历每部电影元素item = DoubanItem() # 创建一个DoubanItem对象，用于存储数据item['name'] = movie.get_attribute('title') # 获取电影名称属性，并赋值给item['name']item['url'] = movie.get_attribute('href') # 获取电影详情页链接属性，并赋值给item['url']yield SeleniumRequest( # 发送selenium请求，请求电影详情页，并指定回调函数和元数据url=item['url'], callback=self.parse_detail, meta={'item': item, 'proxy': self.get_proxy()} # 元数据，包含item对象和代理信息)def parse_detail(self, response):# 处理selenium响应，提取数据或跟进链接# response为一个SeleniumResponse对象，它包含了driver属性，即浏览器驱动对象driver = response.driver # 获取浏览器驱动对象item = response.meta['item'] # 获取元数据中的item对象data = driver.find_element_by_xpath('//div[@id="info"]') # 通过xpath定位数据元素item['rating'] = data.find_element_by_xpath('.//strong').text # 获取评分元素的文本，并赋值给item['rating']item['summary'] = data.find_element_by_xpath('.//span[@property="v:summary"]').text # 获取简介元素的文本，并赋值给item['summary']item['image_urls'] = [data.find_element_by_xpath('.//img[@rel="v:image"]').get_attribute('src')] # 获取海报图片元素的链接，并赋值给item['image_urls']yield item # 返回item对象def get_proxy(self):#设置亿牛云 爬虫加强版代理#获取代理信息，返回一个字符串，格式为'user:pass@host:port' proxyHost = "www.16yun.cn"proxyPort = "3111"proxyUser = "16YUN"proxyPass = "16IP"return f'{proxyUser}:{proxyPass}@{proxyHost}:{proxyPort}'

结语

通过上面的介绍和案例，我们通过上面的介绍和案例，我们可以了解到scrapy_selenium是一个非常强大和灵活的爬虫框架，它可以让我们轻松地爬取Ajax、JSON、XML等数据格式的网页，而不需要编写复杂的JavaScript代码或使用其他的工具。scrapy_selenium也可以与scrapy的其他组件和功能相结合，如图片管道、代理中间件、数据存储等，从而提高爬虫的效率和质量。

scrapy_selenium爬取Ajax、JSON、XML网页：豆瓣电影

导语

概述

正文

案例

结语

最新关注

热文推荐

Fabric网络性能测试—–caliper

视觉识别数字、十字路口和T字路口，巡线于一体的基于openmv的解决方案（2021年电赛f题）

04-详解Eureka注册中心的作用,具体配置,服务注册和服务发现

【游戏开发实战】下载原神模型，PMX转FBX，导入到Unity中，卡通渲染，绑定人形动画（附Demo工程）

现有iOS工程引入flutter配置方式-记录问题和经验

Java医院智能3D导诊系统源码微信小程序源码

scrapy_selenium爬取Ajax、JSON、XML网页：豆瓣电影

导语

概述

正文

案例

结语

相关文章

最新关注

热文推荐