
zillow 页面内容大量依赖 javascript 动态渲染,使用 requests + beautifulsoup 无法获取真实 dom 结构,导致元素查找返回 none;需改用浏览器自动化工具(如 selenium)并配合显式等待,才能稳定提取价格历史等动态加载数据。
Zillow 是典型的反爬强度较高的房产平台:其价格历史、估价趋势、房源详情等关键数据均通过 react 或 Next.js 动态注入,原始 html 响应中几乎不包含这些内容。你遇到的 AttributeError: ‘NoneType’ Object has no attribute ‘find’ 正是典型表现——soup.find(…) 返回 None,说明 price_history_section 根本未被解析到,根本原因在于 response.content 中压根不存在你所 inspect 到的那些带 hdp__sc-… 类名的 div。
✅ 正确做法:使用 Selenium + ChromeDriver 模拟真实浏览器行为,并配合 WebDriverWait 等待目标元素加载完成:
from selenium import webdriver from selenium.webdriver.common.by import By from selenium.webdriver.support.ui import WebDriverWait from selenium.webdriver.support import expected_conditions as EC from selenium.webdriver.chrome.options import Options # 配置无头模式(可选,便于部署) chrome_options = Options() chrome_options.add_argument("--headless") chrome_options.add_argument("--no-sandbox") chrome_options.add_argument("--disable-dev-shm-usage") driver = webdriver.Chrome(options=chrome_options) wait = WebDriverWait(driver, 15) # 最多等待15秒 try: url = input('请输入 Zillow 房源链接:') driver.get(url) # 显式等待价格历史区域出现(使用更鲁棒的选择器) price_history_section = wait.until( EC.presence_of_element_located((By.XPATH, "//h2[contains(text(), 'Price history')]/ancestor::section")) ) # 查找表格(Zillow 表格结构可能变化,推荐用 role="table" 或 aria-label 定位) table = price_history_section.find_element(By.XPATH, ".//table[.//th[contains(text(), 'Date')]]") # 提取所有数据行(排除表头) rows = table.find_elements(By.XPATH, ".//tr[position()>1]") for row in rows: try: cells = row.find_elements(By.TAG_NAME, "td") if len(cells) >= 2: date = cells[0].text.strip() price = cells[1].text.strip().replace('$', '').replace(',', '') print(f"{date}: ${price}") except Exception as e: continue # 跳过异常行,增强鲁棒性 except Exception as e: print(f"抓取失败:{e}") finally: driver.quit()
⚠️ 注意事项:
- 类名不可靠:Zillow 使用 css-in-js,类名(如 hdp__sc-1j01zad-0)是哈希生成的,每次构建都可能变化,切勿硬编码 class 名;优先使用语义化定位(如 contains(text(), ‘Price history’)、role=”table”、aria-label 或层级关系)。
- 反爬风控:Zillow 会检测自动化行为。建议添加 user-agent、随机延时、禁用图片加载(prefs = {“profile.managed_default_content_settings.images”: 2})以降低被封概率。
- 法律与合规:请务必查阅 Zillow robots.txt 及其 Terms of Use,未经授权的大规模爬取可能违反服务条款。生产环境建议优先使用官方 API(如 Zillow API 或经授权的 MLS 数据源)。
- 备用方案:若 Selenium 不适用,可尝试 requests-html(支持 JS 渲染),但稳定性远低于 Selenium;或分析 Zillow 的 XHR 请求(如 /api/hdp/data/home-details/ 接口),需逆向 cookie 和 csrf Token,技术门槛高且易失效。
总结:静态解析(requests + BeautifulSoup)对 Zillow 无效;动态渲染内容必须借助浏览器自动化工具,并采用语义化、容错性强的选择策略。稳定性和合规性,永远比“能跑通”更重要。