这个项目叫 MediaCrawler,它是一个极其强大的国产自媒体数据采集工具,专门用来“搬空”小红书、抖音、B 站等主流平台的内容和评论。
一、这个项目能做什么?
MediaCrawler 是一个基于 Python 的爬虫神器。简单说,你只要给它一个关键词或博主 ID,它就能自动把相关的笔记、视频、评论和点赞数统统抓下来存进数据库。
项目团队: 由开发者 NanmiCoder 及其社区贡献者维护。作者不仅懂技术,还非常了解自媒体运营的痛点,项目设计初衷就是为了方便数据分析和内容二创。
服务内容: 支持小红书、抖音、快手、B 站、微博、百度贴吧、知乎等 7 大主流社交平台的数据采集。
技术优势: 2026 年最新版已经进化到了 MediaCrawlerPro(包含在主项目中),最大的亮点是解耦了 JS 签名逻辑,不再依赖沉重的 Playwright 浏览器模拟,运行速度极快且极度稳定。
核心能力: 提供从“登录-采集-绕过风控-数据持久化”的一站式服务,还集成了 AI 内容拆解 Agent,能帮你分析爆款背后的逻辑。
二、Github项目代码库供那些人使用?
该项目在 GitHub 上极其火爆,目前已斩获约 45.5k 个 Star,Fork 数量接近 10k。
目标群体:
自媒体运营: 需要批量采集爆款选题、拆解同行文案的人。
数据分析师: 做社会化聆听、舆情分析或竞品研究的专业人士。
开发者: 想要学习大型爬虫架构、验证码识别、JS 逆向的同学。
使用门槛: 以前需要懂 Playwright,现在门槛降低了很多。只要你会简单的 Python 环境配置(pip install)和基础的命令行操作就能跑起来。
三、有哪些有亮点的特色功能和服务?
1. 自动化断点续爬:
详情: 采集几万条数据中途断网或被封号?没关系,它能记录进度,换个号或恢复网络后接着爬。
效果: 彻底解决了大规模采集任务“一断就得从头开始”的痛苦。
2. 多账号+IP代理池:
详情: 支持自动切换账号登录和配置动态 IP 代理。
效果: 极大地规避了平台的封禁风险,实现 7×24 小时高并发采集。
3. 自媒体内容拆解 Agent:
详情: 集成了 AI 接口(如 Claude Code 或 OpenClaw),能自动把抓下来的评论转成情绪分析,把视频转成文字稿。
效果: 采集完直接出分析报告,省去了人工筛选数据的时间。
4. WebUI 可视化管理:
详情: 即使你不爱写代码,也可以在浏览器网页上勾选平台、输入关键词、点开始。
效果: 像操作普通软件一样管理复杂的爬虫任务,实时查看日志。
四、如何使用工具和服务?
1、有没有演示网址?
没有公开的在线演示网址(为了防止 API 被刷爆),但它提供了一个名为 MediaCrawlerPro-Downloader 的桌面端下载器 UI,你可以部署在本地。
2、安装部署这个项目对环境有哪些要求?
操作系统: 完美支持 Linux (Ubuntu/CentOS)、macOS 和 Windows。
环境要求: 需要 Python 3.9+。如果使用旧版,需要安装 Playwright 环境;新版(Pro)则更推荐使用 Docker 部署。
3、如何安装部署?
流程非常清爽:
克隆代码: git clone https://github.com/NanmiCoder/MediaCrawler.git
安装依赖: 进入目录运行 pip install -r requirements.txt。
配置环境: 修改 config.py,填入你的账号 Cookie、数据库地址(MySQL/PostgreSQL/Redis)或代理 IP。
运行程序: 运行 python main.py,然后根据提示选择平台和任务类型。
查看结果: 数据会自动存入 /data 目录下的 CSV 或你配置的数据库中。
4、使用的大模型是什么?
它支持多种 AI 接入方式:
OpenClaw / Claude Code: 用于自动化 Skill 调用。
自定义 API: 你可以配置自己的 OpenAI 或 DeepSeek Key,用于对抓取的文字内容进行摘要、翻译或情感打分。
5、举例说明基本使用方法
场景:分析比特币在小红书的热度
在配置文件中设置 platform=”xhs”(小红书),type=”search”。
输入关键词 keywords=[“比特币”, “BTC”]。
运行程序。它会模仿手机用户搜索,把前 500 篇笔记的标题、内容、点赞数和评论区全部拉下来。
配合其自带的 wordcloud 插件,一键生成大家对比特币评价的词云图。
6、最近升级或者增加了哪些新的功能?
ContentRemixAgent: 新上线的 AI 内容二创助手,抓完数据直接帮你生成新的视频脚本。
全栈下载器 UI: 针对新手推出了更好看的可视化下载界面。
去除重度依赖: 移除了对浏览器驱动的硬性依赖,大大减少了安装报错。
7、它还有哪些资源和工具?
CrawlerTutorial: 官方配套的免费爬虫入门教程。
Redis 缓存支持: 大规模任务下,利用 Redis 缓存指纹防止重复抓取。
五、需要哪些资源支持?
硬件: 建议 2 核 4G 以上的 VPS 或云主机,挂载 Docker 运行最省心。
数据库: 推荐 MySQL 或 PostgreSQL 存储海量数据。
部署平台: 虽然可以本地跑,但为了稳定,建议部署在常驻服务器上。不适合部署在 Vercel(由于爬虫的长连接特性和 IP 限制)。
六、网友提出了哪些常见问题
问:为什么我刚爬几条就报错 RetryError?
答:通常是因为被小红书等平台风控了。建议增加请求间隔,或配置代理 IP。
问:爬取下来的视频带水印吗?
答:这取决于具体平台的协议,部分平台支持解析无水印原片地址。
问:必须要买代理 IP 吗?
答:小量测试不用,如果你要一天抓几万条,不买代理必封 IP。
问:为什么 B 站爬虫失败了?
答:B 站经常改签名算法,请确保你的代码是 git pull 后的最新版。
问:安装提示缺少 typer 模块?
答:因为你没执行 pip install -r requirements.txt,补上就好了。
七、用户评价怎么样?
正面 1: “目前市面上最全、最稳定的开源自媒体爬虫,没有之一,代码结构非常漂亮。”
正面 2: “Pro 版本的断点续爬救了命了,以前几万条数据断了想撞墙,现在无感恢复。”
正面 3: “社区活跃度很高,Issue 里的问题作者和热心网友回得都很快。”
正面 4: “把抓取和 AI Agent 结合是个神来之笔,直接完成了从数据到情报的闭环。”
负面 1: “对于完全不懂 Python 的纯小白来说还是有点难,环境配置那一关得折腾半天,希望能出个一键安装包。”
八、与同类型项目对比有哪些亮点和不足?
| 对比项 | MediaCrawler | XHS-Downloader | SpiderKeeper |
| 亮点 | 全平台通杀。一个工具搞定抖音、小红书等 7 大平台,且支持 AI 分析。 | 专注小红书,对单个平台的解析极深。 | 传统的通用爬虫管理平台,不带平台业务逻辑。 |
| 优势 | 集成化程度极高。自带登录管理、风控绕过、数据库存储和可视化界面。 | 简单好用,适合只想下载几张图的轻度用户。 | 适合管理成百上千个不同的爬虫脚本。 |
| 不足 | 由于太火,更容易被平台针对。需要频繁更新代码以应对平台的反爬升级。 | 功能太单一,无法做跨平台数据关联分析。 | 需要自己写所有的爬取逻辑,门槛最高。 |
