使用 Selenium 高效提取网页表格中的多行文本数据

4次阅读

本文讲解如何用 selenium 正确遍历动态表格中的所有目标元素（如比赛对阵名称），避免因错误索引、重复点击和页面跳转导致的数据遗漏，推荐采用 find_elements + 直接解析的简洁可靠方案。

本文讲解如何用 selenium 正确遍历动态表格中的所有目标元素（如比赛对阵名称），避免因错误索引、重复点击和页面跳转导致的数据遗漏，推荐采用 find_elements + 直接解析的简洁可靠方案。

在使用 Selenium 自动化抓取网页结构化数据时，一个常见误区是：为获取表格中每行的文本内容，先计算行数、再拼接 XPath、逐个点击跳转页面、返回后再重复操作——这不仅效率低下，还极易因页面重载、元素失效或索引错位（如原文中误用 number_of_pages_to_enter 替代循环变量 i）导致只提取到单条数据。

更专业、健壮的做法是：定位到所有目标元素集合，一次性获取并解析。以目标网站 https://www.tippmix.hu/sportfogadas#?q=nba&page=1 为例，其 NBA 赛程列表位于

的

中，每场比赛标题链接位于

内的标签中，且完整信息（如 “Cleveland – Dallas”）已直接嵌入该链接的可见文本内（含换行符分隔），无需跳转详情页。

以下是优化后的标准实现：

from selenium import webdriver from selenium.webdriver.common.by import By from selenium.webdriver.support.ui import WebDriverWait from selenium.webdriver.support import expected_conditions as EC  url = 'https://www.tippmix.hu/sportfogadas#?q=nba&page=1' driver = webdriver.Chrome() driver.maximize_window() driver.get(url)  # 显式等待：确保所有比赛链接完全加载并可见 wait = WebDriverWait(driver, 10) game_links = wait.until(     EC.visibility_of_all_elements_located((By.XPATH, "//tbody/tr/td[@class='title']/a")) )  cimek = [] for link in game_links:     # 每个链接文本形如 "Kosárlabda, NBAnCleveland - Dallasn02.27. 18:00"     lines = link.text.strip().split("n")     if len(lines) >= 2:         opponent_pair = lines[1].strip()  # 取第二行：对阵双方         cimek.append(opponent_pair)         print(opponent_pair)  driver.quit()

✅ 关键改进点说明：

✅ 避免手动索引与 XPath 拼接：原逻辑中 for i in range(…) 却始终使用 number_of_pages_to_enter，导致循环体实际只处理最后一行；改用 find_elements 直接获取全部匹配元素，天然规避索引越界与逻辑错乱。
✅ 消除不必要的页面跳转：button.click() → browser.back() 不仅慢，还易触发反爬机制或状态丢失；而目标文本已在当前页 dom 中，直接 .text 即可。
✅ 增强健壮性：使用 visibility_of_all_elements_located 替代 presence_of_element_located，确保元素不仅存在，而且可见、可交互；配合 WebDriverWait 防止因加载延迟导致 NoSuchElementException。
✅ 安全解析文本：对 .text 结果做 strip() 和 split(“n”) 防御性处理，避免空行或格式异常引发 IndexError。

⚠️ 注意事项：

若页面使用前端路由（如本例中的 #?q=nba&page=1），需确认 Selenium 加载后 JavaScript 已完成渲染；必要时可添加 time.sleep(1) 或监听特定元素出现。
//tbody/tr/td[@class=’title’]/a 是相对稳定的选择器，但若网站改版，建议优先使用语义化属性（如 data-testid）或 CSS 选择器（如 table tbody td.title a）提升可维护性。
生产环境中应加入异常捕获（如 try/except StaleElementReferenceException），并在循环内对每个 link 做 .is_displayed() 校验。

综上，Selenium 数据提取的核心原则是：尽可能减少 DOM 状态变更（如点击、跳转），优先利用静态结构批量定位，辅以显式等待与防御性解析。这不仅能提升脚本稳定性与执行速度，也大幅降低后期维护成本。

发表于：数据库

近两天内

复制链接

Python日期时间进阶教程_时区转换与日期运算实践

如何实现点击单个 FAQ 问题仅展开对应答案（纯 CSS + 事件委托方案）

javascript如何实现音视频控制_有哪些媒体API【教程】

mysql如何修改列类型

C++如何通过协程优雅地改写传统回调风格的网络代码？（代码结构重构）

使用 Selenium 高效提取网页表格中的多行文本数据

Sublime如何启用行尾显示换行符类型？（LF/CRLF识别）

响应式会议日程表模板：基于 CSS Grid 的多地点时间轴设计

composer怎么在断网时保留composer.lock锁定的版本？

PHP变量比较有哪些方式_PHP变量比较方式汇总【汇总】

Django 中 SignupView 导入失败的正确解决方案

PHP 数组与数组之间的比较方式

C# gRPC反射服务方法 C#如何让gRPC服务支持动态发现

C++中如何利用std::atomic_ref优化外部数据的原子并发访问？（现代原子操作）

C++ int数组怎么去重 C++ unique函数用法教程【代码】

SVG与XML的关系可缩放矢量图形的XML语法基础