MediaCrawler:国产自媒体数据采集工具

MediaCrawler:国产自媒体数据采集工具最新版

官方版无广告9

更新日期:2026年3月12日分类标签: 语言:中文平台:没限制

0 人已下载 手机查看

这个项目叫 MediaCrawler,它是一个极其强大的国产自媒体数据采集工具,专门用来“搬空”小红书、抖音、B 站等主流平台的内容和评论。

一、这个项目能做什么?

MediaCrawler 是一个基于 Python 的爬虫神器。简单说,你只要给它一个关键词或博主 ID,它就能自动把相关的笔记、视频、评论和点赞数统统抓下来存进数据库。

项目团队: 由开发者 NanmiCoder 及其社区贡献者维护。作者不仅懂技术,还非常了解自媒体运营的痛点,项目设计初衷就是为了方便数据分析和内容二创。

服务内容: 支持小红书、抖音、快手、B 站、微博、百度贴吧、知乎等 7 大主流社交平台的数据采集。

技术优势: 2026 年最新版已经进化到了 MediaCrawlerPro(包含在主项目中),最大的亮点是解耦了 JS 签名逻辑,不再依赖沉重的 Playwright 浏览器模拟,运行速度极快且极度稳定。

核心能力: 提供从“登录-采集-绕过风控-数据持久化”的一站式服务,还集成了 AI 内容拆解 Agent,能帮你分析爆款背后的逻辑。

二、Github项目代码库供那些人使用?

该项目在 GitHub 上极其火爆,目前已斩获约 45.5k 个 Star,Fork 数量接近 10k。

目标群体:

自媒体运营: 需要批量采集爆款选题、拆解同行文案的人。

数据分析师: 做社会化聆听、舆情分析或竞品研究的专业人士。

开发者: 想要学习大型爬虫架构、验证码识别、JS 逆向的同学。

使用门槛: 以前需要懂 Playwright,现在门槛降低了很多。只要你会简单的 Python 环境配置(pip install)和基础的命令行操作就能跑起来。

三、有哪些有亮点的特色功能和服务?

1. 自动化断点续爬:

详情: 采集几万条数据中途断网或被封号?没关系,它能记录进度,换个号或恢复网络后接着爬。

效果: 彻底解决了大规模采集任务“一断就得从头开始”的痛苦。

2. 多账号+IP代理池:

详情: 支持自动切换账号登录和配置动态 IP 代理。

效果: 极大地规避了平台的封禁风险,实现 7×24 小时高并发采集。

3. 自媒体内容拆解 Agent:

详情: 集成了 AI 接口(如 Claude Code 或 OpenClaw),能自动把抓下来的评论转成情绪分析,把视频转成文字稿。

效果: 采集完直接出分析报告,省去了人工筛选数据的时间。

4. WebUI 可视化管理:

详情: 即使你不爱写代码,也可以在浏览器网页上勾选平台、输入关键词、点开始。

效果: 像操作普通软件一样管理复杂的爬虫任务,实时查看日志。

四、如何使用工具和服务?

1、有没有演示网址?

没有公开的在线演示网址(为了防止 API 被刷爆),但它提供了一个名为 MediaCrawlerPro-Downloader 的桌面端下载器 UI,你可以部署在本地。

2、安装部署这个项目对环境有哪些要求?

操作系统: 完美支持 Linux (Ubuntu/CentOS)、macOS 和 Windows。

环境要求: 需要 Python 3.9+。如果使用旧版,需要安装 Playwright 环境;新版(Pro)则更推荐使用 Docker 部署。

3、如何安装部署?

流程非常清爽:

克隆代码: git clone https://github.com/NanmiCoder/MediaCrawler.git

安装依赖: 进入目录运行 pip install -r requirements.txt。

配置环境: 修改 config.py,填入你的账号 Cookie、数据库地址(MySQL/PostgreSQL/Redis)或代理 IP。

运行程序: 运行 python main.py,然后根据提示选择平台和任务类型。

查看结果: 数据会自动存入 /data 目录下的 CSV 或你配置的数据库中。

4、使用的大模型是什么?

它支持多种 AI 接入方式:

OpenClaw / Claude Code: 用于自动化 Skill 调用。

自定义 API: 你可以配置自己的 OpenAI 或 DeepSeek Key,用于对抓取的文字内容进行摘要、翻译或情感打分。

5、举例说明基本使用方法

场景:分析比特币在小红书的热度

在配置文件中设置 platform=”xhs”(小红书),type=”search”。

输入关键词 keywords=[“比特币”, “BTC”]。

运行程序。它会模仿手机用户搜索,把前 500 篇笔记的标题、内容、点赞数和评论区全部拉下来。

配合其自带的 wordcloud 插件,一键生成大家对比特币评价的词云图。

6、最近升级或者增加了哪些新的功能?

ContentRemixAgent: 新上线的 AI 内容二创助手,抓完数据直接帮你生成新的视频脚本。

全栈下载器 UI: 针对新手推出了更好看的可视化下载界面。

去除重度依赖: 移除了对浏览器驱动的硬性依赖,大大减少了安装报错。

7、它还有哪些资源和工具?

CrawlerTutorial: 官方配套的免费爬虫入门教程。

Redis 缓存支持: 大规模任务下,利用 Redis 缓存指纹防止重复抓取。

五、需要哪些资源支持?

硬件: 建议 2 核 4G 以上的 VPS 或云主机,挂载 Docker 运行最省心。

数据库: 推荐 MySQL 或 PostgreSQL 存储海量数据。

部署平台: 虽然可以本地跑,但为了稳定,建议部署在常驻服务器上。不适合部署在 Vercel(由于爬虫的长连接特性和 IP 限制)。

六、网友提出了哪些常见问题

问:为什么我刚爬几条就报错 RetryError?

答:通常是因为被小红书等平台风控了。建议增加请求间隔,或配置代理 IP。

问:爬取下来的视频带水印吗?

答:这取决于具体平台的协议,部分平台支持解析无水印原片地址。

问:必须要买代理 IP 吗?

答:小量测试不用,如果你要一天抓几万条,不买代理必封 IP。

问:为什么 B 站爬虫失败了?

答:B 站经常改签名算法,请确保你的代码是 git pull 后的最新版。

问:安装提示缺少 typer 模块?

答:因为你没执行 pip install -r requirements.txt,补上就好了。

七、用户评价怎么样?

正面 1: “目前市面上最全、最稳定的开源自媒体爬虫,没有之一,代码结构非常漂亮。”

正面 2: “Pro 版本的断点续爬救了命了,以前几万条数据断了想撞墙,现在无感恢复。”

正面 3: “社区活跃度很高,Issue 里的问题作者和热心网友回得都很快。”

正面 4: “把抓取和 AI Agent 结合是个神来之笔,直接完成了从数据到情报的闭环。”

负面 1: “对于完全不懂 Python 的纯小白来说还是有点难,环境配置那一关得折腾半天,希望能出个一键安装包。”

八、与同类型项目对比有哪些亮点和不足?

对比项 MediaCrawler XHS-Downloader SpiderKeeper
亮点 全平台通杀。一个工具搞定抖音、小红书等 7 大平台,且支持 AI 分析。 专注小红书,对单个平台的解析极深。 传统的通用爬虫管理平台,不带平台业务逻辑。
优势 集成化程度极高。自带登录管理、风控绕过、数据库存储和可视化界面。 简单好用,适合只想下载几张图的轻度用户。 适合管理成百上千个不同的爬虫脚本。
不足 由于太火,更容易被平台针对。需要频繁更新代码以应对平台的反爬升级。 功能太单一,无法做跨平台数据关联分析。 需要自己写所有的爬取逻辑,门槛最高。

相关软件

暂无评论

暂无评论...