Python爬虫批量提取新闻内容并进行文本分析的整体方案【教学】

25次阅读

python新闻爬虫与文本分析核心三步：稳抓内容（requests+beautifulsoup，注意robots.txt、headers、编码与延时）、干净清洗（去广告/模板/空白符，结构化存jsON Lines或sqlite）、有效分析（TextBlob/SnowNLP情感、TF-IDF/TextRank关键词、kmeans主题聚类+词云）。

用Python做新闻爬虫加文本分析，核心就三步：稳抓内容、干净清洗、有效分析。不靠复杂框架也能跑通，关键在结构清晰、每步可验证。

一、稳定获取新闻正文的实操要点

别一上来就写全站爬取，先聚焦单个新闻页的正文提取。主流方案是 requests + BeautifulSoup，scrapy适合中大型项目但学习成本高。

先确认目标网站是否允许爬虫（看 robots.txt，比如 news.qq.com/robots.txt）；部分媒体如新华社、人民日报官网有反爬机制，需加 headers 模拟浏览器访问
正文通常在 <article></article>、<div class="content"> 或带明显语义的 <code><section></section> 标签下，用 soup.select("article p") 或 soup.find("div", class_="post-body").find_all("p") 更可靠，比硬写 XPath 更易维护
注意编码问题：中文网站多为 UTF-8，但个别老站用 GBK，response.content.decode("gbk", errors="ignore") 可兜底
批量时加随机延时（time.sleep(random.uniform(1, 3))），避免被封IP；重要项目建议用代理池或 user-agent 轮换

二、新闻文本清洗与结构化存储

用正则清理无意义字符：re.sub(r"[ tnru3000]+", " ", text) 统一空白符；删掉“本文系作者独家投稿”“转载请注明出处”这类固定模板句（可用关键词+长度阈值过滤）
正文长度建议设上下限：太短（5000字）可能是整站转载，按需截断或打标存疑
结构化保存推荐 json Lines 格式（每行一个 JSON），字段至少含：title、url、publish_time（解析后转为 ISO 格式）、source、body_clean；小规模用 SQLite，字段加索引提速查询

三、轻量但实用的文本分析落地方式

不用上 bert 也能看出趋势和倾向——关键是选对工具、明确目标。

Notion Sites

Notion 推出的AI网站构建工具，允许用户将 Notion 页面直接发布为完整网站。

246

查看详情

立即学习“Python免费学习笔记（深入）”；

情感倾向：TextBlob（英文）或 SnowNLP（中文基础版）够用；若需更高准度，用 jieba 分词 + 自建情感词典（如知网 Hownet 或台湾大学 NTUSD），加权统计正负词频
关键词提取：TF-IDF 配合 sklearn.feature_extraction.text.TfidfVectorizer，停用词表必用（可基于哈工大停用词表精简）；也可试 TextRank（jieba.analyse.textrank），对长新闻更友好
主题聚类：把所有新闻向量化后，用 KMeans（K=5~10）粗分大类，再人工校验标签；配合词云（wordcloud 库）快速定位每类高频词

基本上就这些。重点不是堆技术，而是从一条新闻开始跑通全流程，再横向扩展网站、纵向加深分析。爬得稳、洗得净、看得懂，才是真落地。

发表于：后端开发

2025-12-17

# beautifulsoup # bert # class # js # json # kmeans # python # qq # scrapy # select # sklearn # sqlite # word # 堆 # 工具 # 浏览器 # 爬虫 # 知网 # 编码

复制链接

Golang并发HTTP服务器性能测试

c++中virtual关键字的作用_virtual关键字实现运行时多态

php8.4新特性final类常量是什么_php8.4finalconst用法说明【介绍】

C++中std::any怎么存储不同类型数据_C++17万能容器使用方法【解析】

VSCode的Peek Definition功能：代码导航利器

Python爬虫批量提取新闻内容并进行文本分析的整体方案【教学】

一、稳定获取新闻正文的实操要点

二、新闻文本清洗与结构化存储

三、轻量但实用的文本分析落地方式

如何使用Golang实现HTTP路由_Golang net/http ServeMux方法技巧

为什么mysql默认使用innodb_innodb优势解析

php判断字符串长度含希伯来文_php右到左文字测长【教程】

币安Binance苹果版怎么信任？币安iOS官方APP下载安装设置教程

如何提高选择器的复用性_通过类名规范和结构优化实现

C++ RapidXML库使用教程高性能C++ XML解析库

PHP拓展怎么安装_PHP7.4和PHP8.1装拓展区别在哪【说明】

C# ETW事件跟踪方法 C#如何使用EventSource和EventListener

Laravel怎么使用中间件 _ Laravel Middleware注册方法【技巧】

Android ADB 连接 LDPlayer 模拟器失败的完整解决方案