Scrapy 中如何在多个解析函数间传递变量值

11次阅读

在 scrapy 爬虫中，局部变量无法跨回调函数访问；若需将 parse() 中生成的日期（如 scrapedate）传递至深层解析函数（如 parse_race()），应通过 spider 实例属性（self.scrapedate）实现状态共享。

Scrapy 的请求-响应流程是异步且基于回调的：parse() 生成的 Request 对象在后续被调度执行时，会调用指定的回调函数（如 parse_date），但此时原始 parse() 的局部作用域已销毁，其中定义的变量（如 scrapedate）不可访问。因此，直接在 parse_race() 中引用 scrapedate 会导致 NameError: name ‘scrapedate’ is not defined。

正确做法是将该值提升为 Spider 实例的属性（即 self.scrapedate），使其在整个爬虫生命周期内可被任意回调方法读取。注意：由于 Scrapy 可能并发处理多个请求，不能简单地将 self.scrapedate 作为全局共享变量使用——必须确保每个请求链携带其对应的上下文。更健壮、推荐的方式是使用 cb_kwargs（Scrapy 1.7+ 支持），将参数显式传递给回调函数：

import scrapy from datetime import datetime, timedelta from dogscraper.items import Dogitem  racedate = '2024-01-25' days = 2 realdate = datetime.strptime(racedate, '%Y-%m-%d').date() scrape_list = [(realdate - timedelta(days=x)).strftime('%Y-%m-%d') for x in range(days)]  class DogspiderSpider(scrapy.Spider):     name = "dogspider"     allowed_domains = ["www.thedogs.com.au"]     start_urls = ["https://www.thedogs.com.au/racing/" + racedate]      def parse(self, response):         for scrapedate in scrape_list:             next_dateurl = 'https://www.thedogs.com.au/racing/' + scrapedate             # ✅ 推荐：使用 cb_kwargs 安全传递上下文             yield scrapy.Request(                 url=next_dateurl,                 callback=self.parse_date,                 cb_kwargs={'scrapedate': scrapedate}             )      def parse_date(self, response, scrapedate):  # ← 参数自动注入         nswmeetings = response.css('table.meeting-grid')[0].css('td.meetings-venues__name')         for meeting in nswmeetings:             meeting_url = meeting.css('a::attr(href)').get()             if meeting_url:                 nextmeeting = 'https://www.thedogs.com.au' + meeting_url                 yield scrapy.Request(                     url=nextmeeting,                     callback=self.parse_meeting,                     cb_kwargs={'scrapedate': scrapedate}  # 向下透传                 )      def parse_meeting(self, response, scrapedate):         races = response.css('a.race-box.race-box--result')         for race in races:             race_url = race.css('::attr(href)').get()             if race_url:                 nextrace = 'https://www.thedogs.com.au' + race_url                 yield scrapy.Request(                     url=nextrace,                     callback=self.parse_race,                     cb_kwargs={'scrapedate': scrapedate}  # 持续透传                 )      def parse_race(self, response, scrapedate):  # ← 最终接收         dogs = response.css('tr.accordion__anchor.race-runner')         for dog in dogs:             dog_item = DogItem()             dog_item['date'] = scrapedate  # ✅ 安全赋值             # ... 其他字段提取逻辑             yield dog_item

✅ 优势说明：

cb_kwargs 是 Scrapy 原生支持的线程安全机制，避免多请求间属性覆盖风险；
语义清晰，显式声明依赖，便于调试与维护；
符合函数式回调设计原则，不依赖隐式状态。

⚠️ 注意事项：

若仍选择 self.scrapedate = … 方式，请确保无并发请求冲突（例如禁用并发：custom_settings = {‘CONCURRENT_REQUESTS’: 1}），否则将导致数据错乱；
所有 cb_kwargs 传入的参数必须在对应回调函数签名中声明，否则抛出 TypeError；
始终校验 CSS 选择器结果（如 .get() 返回 None 时需跳过），避免 IndexError 或 AttributeError。

综上，优先使用 cb_kwargs 传递上下文变量，这是 Scrapy 官方推荐、高可靠、易扩展的最佳实践。

发表于：后端开发

2026-01-15

# ai # css # git # scrapy # 作用域 # 回调函数 # 对象 # 局部变量 # 并发 # 并发请求 # 异步 # 爬虫 # 线程 # 选择器

复制链接

如何在Golang中使用sort对切片排序

php怎么取换行符把数据变数组_php换行符拆分数组explode换行法【教程】

如何在Golang中实时监控文件变化_Golang fsnotify文件监听方法

c++23的std::ranges::zip_transform如何简化并行算法？ (多视图操作)

币安交易所APP下载安卓版币安Binance官方正版客户端安装入口

Scrapy 中如何在多个解析函数间传递变量值

如何实现数据导出功能_mysql查询导出思路

css过渡动画多次触发叠加怎么办_使用transition property限定单一属性

pandas 如何处理 pd.NA 与 np.nan 的混合运算行为

VSCode入门教程：如何快速安装与配置开发环境？【教程】

Binance币安官网账户注册入口币安交易App最新版v3.9.1 iOS下载

如何通过 jQuery 动态加载 PHP 文件到指定 Tab 中

如何正确嵌入结构体字段以避免编译错误

在 Django 模板中动态访问嵌套列表元素：自定义过滤器实现索引计算

如何解决 Axios 登录请求返回 404 错误的问题

Polars链式表达式中列名不可见问题的正确解决方法