MediaCrawler：国产自媒体数据采集工具

这个项目叫 MediaCrawler，它是一个极其强大的国产自媒体数据采集工具，专门用来“搬空”小红书、抖音、B 站等主流平台的内容和评论。

一、这个项目能做什么？

MediaCrawler 是一个基于 Python 的爬虫神器。简单说，你只要给它一个关键词或博主 ID，它就能自动把相关的笔记、视频、评论和点赞数统统抓下来存进数据库。

项目团队：由开发者 NanmiCoder 及其社区贡献者维护。作者不仅懂技术，还非常了解自媒体运营的痛点，项目设计初衷就是为了方便数据分析和内容二创。

服务内容：支持小红书、抖音、快手、B 站、微博、百度贴吧、知乎等 7 大主流社交平台的数据采集。

技术优势： 2026 年最新版已经进化到了 MediaCrawlerPro（包含在主项目中），最大的亮点是解耦了 JS 签名逻辑，不再依赖沉重的 Playwright 浏览器模拟，运行速度极快且极度稳定。

核心能力：提供从“登录-采集-绕过风控-数据持久化”的一站式服务，还集成了 AI 内容拆解 Agent，能帮你分析爆款背后的逻辑。

二、Github项目代码库供那些人使用？

该项目在 GitHub 上极其火爆，目前已斩获约 45.5k 个 Star，Fork 数量接近 10k。

目标群体：

自媒体运营：需要批量采集爆款选题、拆解同行文案的人。

数据分析师：做社会化聆听、舆情分析或竞品研究的专业人士。

开发者：想要学习大型爬虫架构、验证码识别、JS 逆向的同学。

使用门槛：以前需要懂 Playwright，现在门槛降低了很多。只要你会简单的 Python 环境配置（pip install）和基础的命令行操作就能跑起来。

三、有哪些有亮点的特色功能和服务？

1. 自动化断点续爬：

详情：采集几万条数据中途断网或被封号？没关系，它能记录进度，换个号或恢复网络后接着爬。

效果：彻底解决了大规模采集任务“一断就得从头开始”的痛苦。

2. 多账号+IP代理池：

详情：支持自动切换账号登录和配置动态 IP 代理。

效果：极大地规避了平台的封禁风险，实现 7×24 小时高并发采集。

3. 自媒体内容拆解 Agent：

详情：集成了 AI 接口（如 Claude Code 或 OpenClaw），能自动把抓下来的评论转成情绪分析，把视频转成文字稿。

效果：采集完直接出分析报告，省去了人工筛选数据的时间。

4. WebUI 可视化管理：

详情：即使你不爱写代码，也可以在浏览器网页上勾选平台、输入关键词、点开始。

效果：像操作普通软件一样管理复杂的爬虫任务，实时查看日志。

四、如何使用工具和服务？

1、有没有演示网址？

没有公开的在线演示网址（为了防止 API 被刷爆），但它提供了一个名为 MediaCrawlerPro-Downloader 的桌面端下载器 UI，你可以部署在本地。

2、安装部署这个项目对环境有哪些要求？

操作系统：完美支持 Linux (Ubuntu/CentOS)、macOS 和 Windows。

环境要求：需要 Python 3.9+。如果使用旧版，需要安装 Playwright 环境；新版（Pro）则更推荐使用 Docker 部署。

3、如何安装部署？

流程非常清爽：

克隆代码： git clone https://github.com/NanmiCoder/MediaCrawler.git

安装依赖：进入目录运行 pip install -r requirements.txt。

配置环境：修改 config.py，填入你的账号 Cookie、数据库地址（MySQL/PostgreSQL/Redis）或代理 IP。

运行程序：运行 python main.py，然后根据提示选择平台和任务类型。

查看结果：数据会自动存入 /data 目录下的 CSV 或你配置的数据库中。

4、使用的大模型是什么？

它支持多种 AI 接入方式：

OpenClaw / Claude Code：用于自动化 Skill 调用。

自定义 API：你可以配置自己的 OpenAI 或 DeepSeek Key，用于对抓取的文字内容进行摘要、翻译或情感打分。

5、举例说明基本使用方法

场景：分析比特币在小红书的热度

在配置文件中设置 platform=”xhs”（小红书），type=”search”。

输入关键词 keywords=[“比特币”, “BTC”]。

运行程序。它会模仿手机用户搜索，把前 500 篇笔记的标题、内容、点赞数和评论区全部拉下来。

配合其自带的 wordcloud 插件，一键生成大家对比特币评价的词云图。

6、最近升级或者增加了哪些新的功能？

ContentRemixAgent：新上线的 AI 内容二创助手，抓完数据直接帮你生成新的视频脚本。

全栈下载器 UI：针对新手推出了更好看的可视化下载界面。

去除重度依赖：移除了对浏览器驱动的硬性依赖，大大减少了安装报错。

7、它还有哪些资源和工具？

CrawlerTutorial：官方配套的免费爬虫入门教程。

Redis 缓存支持：大规模任务下，利用 Redis 缓存指纹防止重复抓取。

五、需要哪些资源支持？

硬件：建议 2 核 4G 以上的 VPS 或云主机，挂载 Docker 运行最省心。

数据库：推荐 MySQL 或 PostgreSQL 存储海量数据。

部署平台：虽然可以本地跑，但为了稳定，建议部署在常驻服务器上。不适合部署在 Vercel（由于爬虫的长连接特性和 IP 限制）。

六、网友提出了哪些常见问题

问：为什么我刚爬几条就报错 RetryError？

答：通常是因为被小红书等平台风控了。建议增加请求间隔，或配置代理 IP。

问：爬取下来的视频带水印吗？

答：这取决于具体平台的协议，部分平台支持解析无水印原片地址。

问：必须要买代理 IP 吗？

答：小量测试不用，如果你要一天抓几万条，不买代理必封 IP。

问：为什么 B 站爬虫失败了？

答：B 站经常改签名算法，请确保你的代码是 git pull 后的最新版。

问：安装提示缺少 typer 模块？

答：因为你没执行 pip install -r requirements.txt，补上就好了。

七、用户评价怎么样？

正面 1： “目前市面上最全、最稳定的开源自媒体爬虫，没有之一，代码结构非常漂亮。”

正面 2： “Pro 版本的断点续爬救了命了，以前几万条数据断了想撞墙，现在无感恢复。”

正面 3： “社区活跃度很高，Issue 里的问题作者和热心网友回得都很快。”

正面 4： “把抓取和 AI Agent 结合是个神来之笔，直接完成了从数据到情报的闭环。”

负面 1： “对于完全不懂 Python 的纯小白来说还是有点难，环境配置那一关得折腾半天，希望能出个一键安装包。”

八、与同类型项目对比有哪些亮点和不足？

对比项	MediaCrawler	XHS-Downloader	SpiderKeeper
亮点	全平台通杀。一个工具搞定抖音、小红书等 7 大平台，且支持 AI 分析。	专注小红书，对单个平台的解析极深。	传统的通用爬虫管理平台，不带平台业务逻辑。
优势	集成化程度极高。自带登录管理、风控绕过、数据库存储和可视化界面。	简单好用，适合只想下载几张图的轻度用户。	适合管理成百上千个不同的爬虫脚本。
不足	由于太火，更容易被平台针对。需要频繁更新代码以应对平台的反爬升级。	功能太单一，无法做跨平台数据关联分析。	需要自己写所有的爬取逻辑，门槛最高。

去官方网站了解更多

暂无评论

暂无评论...

MediaCrawler：国产自媒体数据采集工具最新版