Pixelle-Video 是一款由阿里国际(AIDC)开源的AI短视频全自动化引擎,通过“LLM + ComfyUI”双核驱动,支持从脚本撰写到视频合成的全流程自动化,是极客与开发者实现视频流水线生产的理想工具。
一、这个软件能做什么?
Pixelle-Video 是一个旨在解决“短视频生产力瓶颈”的开源项目。在传统的视频制作流中,文案、分镜、画面生成、配音和剪辑往往需要在四五个不同的软件间切换。Pixelle-Video 将这一复杂链条封装成了一个“一键式”的自动化工厂。
团队背景: 该项目出自 AIDC-AI(阿里国际数字商业集团) 技术团队之手。这并非一个草台班子的练手作,而是背靠阿里强大的电商与内容技术积累。该团队近期在开源社区极为活跃,致力于将大模型能力落地到实际的内容生产(AIGC)场景中。
核心能力(Pain Points Solved): 它主要解决的是**“从想法到成品视频”的自动化链路断层**问题。
全自动脚本:你只需输入一个主题(如“为什么咖啡让人清醒?”),它会自动调用大模型(GPT-4, Qwen等)写出分镜脚本。
视觉工业化:不同于其他工具只能调用单一绘图模型,Pixelle-Video 的核心引擎是 ComfyUI。这意味着你可以利用 ComfyUI 庞大的开源生态,随意更换生成模型(如 FLUX.1, Wan2.1, Stable Video Diffusion 等),实现真正的工业级视觉控制。
智能合成:自动处理语音合成(TTS)、字幕对齐和背景音乐混音,最后导出一个完整的 .mp4 文件。
目标市场:
内容矩阵号主:需要批量生产科普、故事、营销类短视频的创作者。
AI 应用开发者:希望基于此架构二次开发,构建垂直领域视频工具的工程师。
ComfyUI 玩家:希望将自己精心调试的工作流(Workflow)转化为自动化生产线的极客。
技术护城河: 其最大的护城河在于 “ComfyUI Native” 架构。大多数竞品(如剪映AI、MoneyPrinterTurbo早期版本)通常内置固定的绘图接口,用户很难干预画面风格。而 Pixelle-Video 允许用户直接挂载自定义的 .json ComfyUI 工作流,这使得它的画质上限直接等同于当前开源界的最强模型上限。
二、都是谁在用这个app?
1. 批量短视频创作者(TikTok/Shorts/Reels)
场景:你需要每天发布 5 条关于“未解之谜”或“冷知识”的视频。
用法:输入 5 个不同的主题,配置好一次,挂机运行。下班时,文件夹里已经躺好了 5 个带配音、字幕和 AI 原创画面的视频,稍作人工微调即可发布。
2. 全栈 AI 开发者
场景:公司需要一个内部工具,让运营同事输入商品链接就能自动生成推广视频。
用法:利用 Pixelle-Video 的 API 接口和模块化设计,将其后端接入到公司的 CMS 系统中,定制一个电商专用的视频生成工作流。
3. ComfyUI 炼丹师
场景:你设计了一个效果炸裂的“水墨风视频” ComfyUI 工作流,但每次只能手动生成一个片段,效率太低。
用法:将你的 ComfyUI 工作流导出为 API 格式,导入 Pixelle-Video,配合 LLM 的脚本控制,实现该风格视频的批量化生产。
门槛评估: 中等偏高(对于本地部署) / 低(对于云端部署)。
如果你选择本地运行,需要具备一定的 Python 环境配置能力(懂 conda, pip),且最好熟悉 ComfyUI 的基本原理。
如果你只是使用者,官方也提供了对接云端算力(RunningHub)的方案,无需本地显卡,门槛大幅降低。
三、这个app有哪些有亮点的特色功能和服务?
1. 工作流即插件(Workflow as a Plugin)
技术原理:Pixelle-Video 不硬编码绘图逻辑,而是解析 ComfyUI 的 API 格式(JSON)。
实际效果:这意味着今天流行 FLUX 模型,你只需要下载一个 JSON 文件放进去,你的视频画质就立刻升级到 FLUX 水平;明天出了 Sora 开源替代品,你也能无缝切换。这彻底解决了“工具过时”的焦虑。
2. MCP 协议深度集成(Pixelle-MCP)
技术原理:支持 Model Context Protocol (MCP),这是一种新兴的标准协议,旨在连接大模型与外部工具。
实际效果:你可以让 Claude Desktop 或 Cursor 等 AI 助手直接“操控”你的 Pixelle-Video。比如你在编辑器里对 AI 说:“帮我把这个视频的风格改成赛博朋克”,AI 就能直接调用底层的 ComfyUI 节点进行修改。
3. 多模态混合生成
技术原理:支持“文生图”和“图生视频”的混合编排。
实际效果:在同一个视频里,它可以先用 FLUX 生成高清静态图作为关键帧,再调用 Wan2.1 或 SVD 将其转化为动态视频,保证了画面的连贯性和美学质量,远超单纯的“PPT式”视频生成。
四、如何使用该app提供的工具和服务?
前言:该工具目前主要以 GitHub 源码形式分发,上手需要一点极客精神,但回报是巨大的。
1、安装这个app对环境有哪些要求?
系统兼容性:
最佳:Windows 10/11(因为 ComfyUI 在 Windows 上生态最完善)。
支持:Linux (Ubuntu 20.04+)。
Mac:支持 Apple Silicon (M1/M2/M3),但生成速度受限于 Metal 性能,不如 N 卡快。
硬件要求:
本地运行(Local Host):这也是该工具的灵魂所在。强烈建议配置 NVIDIA 显卡,显存(VRAM)至少 8GB(仅生成图片)或 16GB+(如果你想跑 Wan2.1 等视频生成模型)。
内存:建议 32GB RAM。
云端运行:如果本地电脑配置低,可以仅运行轻量级的 Web UI,将繁重的计算任务通过 API 转发给 RunningHub 等云端算力平台(无需本地显卡)。
2、如何安装这个app?
保姆级教程:
环境准备:确保安装了 Python 3.10+ 和 Git。强烈推荐安装 uv(一个极速的 Python 包管理器),官方脚本依赖它。
克隆代码:
Bash
git clone https://github.com/AIDC-AI/Pixelle-Video.git
cd Pixelle-Video
安装依赖:
Bash
# 官方推荐使用 uv 安装,速度飞快
pip install uv
uv sync
配置 ComfyUI: 你需要在本地启动一个 ComfyUI 实例(默认监听 8188 端口)。确保你的 ComfyUI 已经安装了项目所需的节点(如 ComfyUI-VideoHelperSuite 等)。
配置 API Key: 复制 .env.example 为 .env,填入你的 LLM Key(如 OpenAI sk-… 或 阿里云 Qwen 的 Key)。如果使用本地 Ollama,则填入 Ollama 地址。
3、举例说明如何使用这个app
实战演示:制作一个“赛博朋克风”的短视频
Step 1:启动 Web UI 运行启动脚本(Windows下通常是 run_web.bat 或在终端输入 uv run streamlit run web/app.py)。浏览器会自动打开操作界面。
Step 2:内容设置(左侧栏)
主题:输入 Cyberpunk city at night, neon lights, rain。
生成模式:选择 AI Generate Content(AI自动写脚本)。
视频比例:选择 9:16(适合手机竖屏)。
Step 3:视觉设置(核心步骤)
ComfyUI Workflow:在下拉菜单中选择一个支持 FLUX 风格的 JSON 模板(例如 t2i_flux_dev.json)。
提示:如果你懂技术,可以在这里上传你自己修改过的 ComfyUI 工作流文件。
Step 4:一键生成 点击 Generate Video。
[此处应插入图片:Pixelle-Video 运行时的 WebUI 界面,显示进度条正在滚动]
后台日志会显示:Generating Script… -> Audio Synthesizing… -> ComfyUI Prompt Queued…。
大约 3-10 分钟后(取决于显卡),视频会自动预览播放。
4、这个app使用了哪些大模型?
文本/脚本模型:高度解耦,支持 OpenAI (GPT-4o)、Qwen (通义千问)、DeepSeek 以及本地运行的 Ollama (Llama 3)。
图像/视频模型:这取决于你挂载的 ComfyUI 工作流。官方预置或兼容的模型包括:
FLUX.1(目前最强的开源生图模型)。
Wan2.1 (万象) / SVD (Stable Video Diffusion) 用于图生视频。
SDXL(老牌稳定模型)。
5、最近升级或者增加了哪些新的功能?
支持 ComfyUI API Key:增强了安全性,适应云端部署的鉴权需求。
Nano Banana 模型支持:增加了一种新的模型调用方式。
“Sora”风格图生视频模版:新增了模拟高质量视频生成的预设工作流(注:非 OpenAI Sora 官方接口,而是指同类高质感效果)。
绝对路径与跨平台修复:修复了在 Windows 和 Linux 间路径解析的 Bug,稳定性大幅提升。
6、有关这个app还有哪些资源和工具?
GitHub 仓库:github.com/AIDC-AI/Pixelle-Video
配套项目 Pixelle-MCP:用于将 ComfyUI 转化为 AI Agent 工具。
推荐 ComfyUI 管理器:ComfyUI-Manager(这是使用 Pixelle 的前置必修课)。
五、这个app收费吗?有哪些收费的套餐或者功能?
Pixelle-Video 本身是完全免费、开源的(Apache-2.0 协议)。 你不需要付给 AIDC 团队任何软件费用。你的成本主要来自“算力”和“API调用”。
| 成本项 | 免费方案 (Free Tier) | 付费方案 (Pro Tier) |
| 软件授权 | 免费 | 免费 |
| 大模型 (LLM) | 0元 (使用本地 Ollama/Llama3) | 按量付费 (OpenAI / Qwen API) |
| 图像/视频算力 | 0元 (使用本地显卡生成) | 按量付费 (使用 RunningHub 云端算力) |
| 适用人群 | 有 3060/4090 显卡的学生/极客 | 无显卡用户或企业批量生产 |
促销信息:如果你使用阿里云的 Qwen 模型(通义千问),目前 API 价格极低,甚至有大量免费 Token 额度,是性价比最高的搭配。
六、网友对这个app提出了哪些常见问题(FAQ)
Q1:Pixelle-Video 和 MoneyPrinterTurbo 有什么区别?
A:MoneyPrinterTurbo 更适合不需要关心画图细节的用户,开箱即用但画风较固定。Pixelle-Video 是为极客设计的,核心是 ComfyUI,画风上限极高,但也更难配置。
Q2:没有 N 卡(NVIDIA GPU)能用吗?
A:本地运行非常困难。建议使用其提供的“云端模式”,或者租用一台云服务器(如 AutoDL)来部署后端。
Q3:生成的视频能商用吗?
A:Pixelle-Video 代码本身是 Apache-2.0 协议,不仅可以商用,还可以闭源魔改。但生成的视频版权取决于你使用的底模(例如 FLUX.1 Dev 版本仅限非商用,Schnell 版本可商用)。
Q4:为什么我的 ComfyUI 连接失败?
A:常见原因是 ComfyUI 没有添加 –listen 参数,或者端口号(默认8188)被占用。请检查启动命令。
Q5:支持中文文案和配音吗?
A:完美支持。通过配置 Qwen 模型写中文脚本,再配合 Edge-TTS 或 CosyVoice 等插件,中文效果非常自然。
七、用户对这个app的评价怎么样?
正面评价:
“ComfyUI 工作流的集成简直是神来之笔!以前只能用那一两个固定模型,现在我可以把我在 Civitai 上下载的任何模型都用在自动化视频里了。” —— Reddit 用户
“架构非常清晰,代码写得很规范,这就是大厂开源项目的素质。对于想要二次开发的程序员来说非常友好。” —— Github Issue 评论
“Pixelle-MCP 的概念很超前,让 AI Agent 直接调用绘图工具,这可能是未来的方向。” —— Twitter 科技博主
“生成的视频一致性比那些单纯拼接图片的工具好太多了,因为可以控制 Seed 和风格参数。”
负面/中性评价:
“对小白太不友好了。如果你不懂 ComfyUI,不懂节点报错是什么意思,你可能连第一步都跑不通。希望能出个真正的‘一键安装包’。” —— 初级用户反馈
八、与同类型app对比有哪些亮点和不足?
我们将 Pixelle-Video 与目前市面上流行的竞品进行对比:
| 维度 | Pixelle-Video | MoneyPrinterTurbo | 商业闭源软件 (如剪映AI) |
| 核心架构 | ComfyUI 编排 (灵活) | MoviePy + 固定API (稳定) | 黑盒算法 (易用) |
| 画质上限 | ⭐⭐⭐⭐⭐ (取决于工作流) | ⭐⭐⭐ (受限于接口) | ⭐⭐⭐⭐ (一般较好) |
| 上手难度 | ⭐⭐⭐⭐⭐ (极高,需懂技术) | ⭐⭐ (较低,有一键包) | ⭐ (极低,有手就行) |
| 扩展性 | 无限 (支持任意 ComfyUI 节点) | 有限 (支持特定接口) | 无 (无法干预) |
| 成本 | 免费 (需硬件) | 免费 (需硬件) | 订阅制 (月费昂贵) |
亮点 (Pros):
ComfyUI 生态的“寄生”优势:它不需要自己去卷绘图模型,只要 ComfyUI 社区出新东西,它就能立刻用上。这是它最大的杀手锏。
完全掌控权:从脚本提示词到每一个绘图参数,开发者拥有 100% 的控制权。
不足 (Cons):
使用门槛劝退:它不是给普通用户设计的“傻瓜软件”。它更像是一个给工程师用的“开发框架”。
依赖管理复杂:ComfyUI 自身的节点冲突问题经常会波及到 Pixelle-Video 的运行。
