【AI 英文奏折】2026年05月18日
共收录 10 篇深度内容
📋 今日内容速览
快速浏览,点击感兴趣的推文查看详细分析
- Rohan Paul: 结合事件背景的预测模型优于仅分析历史数据。
- Rimsha Bhardwaj: 别把高级AI工程师当API工具用。
- Rimsha Bhardwaj: Claude隐藏教学模式通过提问促思考而非直接给答案。
- Amira Zairi: 黏土动画风格的快乐婴儿角色,手工制作,温暖迷人。
- Rohan Paul: AI交互迈向实时全双工微轮转新模式。
- Bearly AI: 半导体行业需要丰富经验和人脉,年轻人难以胜任创始人角色。
- Pierrick Chevallier | IA: 改装肌肉车在爆炸追逐中狂飙突围的惊险场景
- Rohan Paul: 小型设备模型实现高效离线运行与先进性能。
- Hasan Toor: 开源语音引擎Supertonic高效本地运行,无需依赖云服务。
- Rohan Paul: 代理设计决定grep与向量检索的效能差异
📖 详细内容
Rohan Paul @rohanpaul_ai
Compiling in real-time, the race towards AGI. The Largest Show on X for AI. | 影响力: 0万粉丝
💡 核心观点: 结合事件背景的预测模型优于仅分析历史数据。
可信度: 10/10 – 2项声明可直接验证;2项需进一步确认;1项为观点陈述
事实核查:
- ◐ 部分可验证: Nexus框架在Zillow测试中,基于Claude的版本将平均MAPE降低了86.6% (需查阅Google论文或官方测试报告以确认具体数据,但若论文未公开详细实验设置或数据来源,则无法完全验证。)
- ✓ 可验证: Nexus通过多代理分工(事件提取、宏观分析、局部冲击追踪等)改进预测 (若Google论文或官方文档描述了Nexus的具体架构和工作流程,则可直接验证;否则需依赖第三方复现或作者进一步说明。)
- ◦ 观点: 传统时间序列模型擅长模式识别但无法解释因果关系 (此为对现有模型的普遍性评价,属于主观观点,但若引用具体文献或对比实验(如论文中)可提升可验证性。)
原文内容:
谷歌最新论文:预测需要背景信息,而非仅凭历史数据。 某些模式由事件驱动,而非时间因素。Nexus将预测重构为推理问题,要求事件与数据相互印证。 该研究指出,当模型能解读数据背后的现实情境而不仅是数字本身时,预测精度将显著提升。在Zillow的测试中,基于Claude的某个版本相比直接思维链提示,平均绝对百分比误差降低了86.6%。 这一突破至关重要——传统时间序列模型虽擅长识别模式,却对成因缄默不语。住房库存曲线可能同时反映季节性波动、房贷压力、人口迁移、裁员潮和区域供应,而股价则受制于财报、监管、市场炒作和恐慌情绪。 Nexus采用分工机制替代全能提示:一个智能体将杂乱历史文本整理为清晰事件时间线,一个解读宏观态势,另一个追踪局部冲击,最后由合成器结合误差校准进行整合。 其价值不仅在于证明背景信息有效,更在于通过结构化设计让语言模型运用上下文时仍能保持时间序列特性。当前证据仍具局限性——仅涵盖Zillow房源数据、七支股票、截断后数据集和单次评估,尚不能视为预测领域的普适法则。 但方向已然明确:未来的预测系统不仅会推演曲线走势,更将深度解析曲线背后的驱动因素。 ---- 论文链接:arxiv.org/abs/2605.14389 论文标题:《Nexus:时序预测的智能体框架》
⏰ 19:46 | ❤️ 286点赞 | 📝 238词 | 查看原文 →
Rimsha Bhardwaj @heyrimsha
Helping you master AI daily with step by step AI guides, & practical tools • AI Educator & Writer • DM for Collab | 影响力: 23.09k万粉丝
💡 核心观点: 别把高级AI工程师当API工具用。
可信度: 6/10 – 1项声明可直接验证;1项需进一步确认;1项为观点陈述
事实核查:
- ◦ 观点: Stop telling Claude, “call the LLM.” (这是对用户行为的建议或批评,属于主观观点,无客观事实依据,无法验证其正确性或普遍性。)
- ◐ 部分可验证: You’re treating a billion-dollar AI engineer like a wrapper around an API call. (部分可验证,需实测或进一步确认。例如,可以分析Claude的功能是否远超简单API调用,但“billion-dollar AI engineer”是夸张表述,无法量化验证。)
- ✓ 可验证: Here are 11 insane LLM engineering prompts you can copy-paste right now:
原文内容:
别再对Claude说"调用大语言模型"了。 别再对Claude说"写个提示词"了。 别再对Claude说"让AI功能生效"了。 你们正在把一个价值十亿美元的AI工程师当成API调用的封装层来用。 以下是11个可以直接复制粘贴的顶级大语言模型工程提示词:
⏰ 20:59 | ❤️ 50点赞 | 📝 47词 | 查看原文 →
Rimsha Bhardwaj @heyrimsha
Helping you master AI daily with step by step AI guides, & practical tools • AI Educator & Writer • DM for Collab | 影响力: 23.09k万粉丝
💡 核心观点: Claude隐藏教学模式通过提问促思考而非直接给答案。
可信度: 6/10 – 1项声明可直接验证;2项需进一步确认;1项为观点陈述
事实核查:
- ◐ 部分可验证: Claude有一个隐藏的苏格拉底导师模式,会拒绝直接回答问题并引导用户思考 (需通过实际测试提供的5个提示词(未在推文中完整列出)验证该模式是否存在,但缺乏官方公开文档支持,属于用户发现的潜在功能。)
- ◐ 部分可验证: 使用特定5个提示词可激活Claude的隐藏模式 (若推文作者提供了完整提示词,用户可实测验证;但若提示词未公开或效果因人而异,则验证受限。)
- ◦ 观点: Claude直接回答问题是一个问题(需被改进) (此为主观评价,反映作者对AI交互方式的偏好,无客观事实依据。)
原文内容:
如果你向Claude提问,它会直接给出答案。这正是问题所在。 它其实隐藏着一种苏格拉底式的导师模式——拒绝直接回答,而是促使你思考,直到真正理解。 以下是激活该模式的5个提示:
⏰ 19:14 | ❤️ 26点赞 | 📝 40词 | 查看原文 →
Amira Zairi @azed_ai
AI Educator & Creator | Ambassador @Adobe @LeonardoAi & @tripoai | Partner with leading brands | Collaboration → [email protected] | 影响力: 57.13k万粉丝
💡 核心观点: 黏土动画风格的快乐婴儿角色,手工制作,温暖迷人。
可信度: 8/10 – 2项声明可直接验证;1项需进一步确认;1项为观点陈述
事实核查:
- ✓ 可验证: 推文提供了一个关于黏土动画风格(claymation)的提示(prompt) (该声明可直接通过查看推文内容验证,明确提到了黏土动画风格的提示描述。)
- ✓ 可验证: 提示中描述了具体的角色特征(如“chubby features, visible fingerprints”)和场景设置(如“set against a [background]”) (这些描述均可在推文中直接找到,属于具体的事实性内容,无需额外验证。)
- ◐ 部分可验证: 推文建议查看ATLs以获取灵感 (“ATLs”的具体含义或链接未明确说明,需进一步确认其指向(如是否为某个资源库、账号或术语),因此仅部分可验证。)
原文内容:
提示词分享:黏土动画风格 提示词: 一个顽皮的婴儿[主体],采用黏土动画风格,身着[颜色1]与[颜色2]手工制作的[物件]。角色拥有圆润的造型,雕塑上可见指纹痕迹,表情欢快。背景设置为[背景],整个场景散发着温暖、迷人且充满手工趣味的奇想气息。 可参考ATLs获取灵感
⏰ 18:58 | ❤️ 99点赞 | 📝 51词 | 查看原文 →
Rohan Paul @rohanpaul_ai
Compiling in real-time, the race towards AGI. The Largest Show on X for AI. | 影响力: 0万粉丝
💡 核心观点: AI交互迈向实时全双工微轮转新模式。
可信度: 10/10 – 2项声明可直接验证;2项需进一步确认;1项为观点陈述
事实核查:
- ◐ 部分可验证: Thinking Machines Lab (TML) 展示了全双工时间对齐微轮转(Full-Duplex Time-aligned micro-turn)技术,使AI交互从回合制变为连续式 (需查阅TML官方发布的演示视频、技术文档或论文,但推文未提供直接链接。若存在公开资料(如GitHub代码或报告)可部分验证,但实际效果需实测确认。)
- ✓ 可验证: MiniCPM-o 4.5通过Omni-Flow框架实现了时间对齐的感知与响应,支持同时看、听、说 (OpenBMB的Omni-Flow框架及MiniCPM-o 4.5的代码、权重和报告已开源(如GitHub仓库),其技术细节和性能可通过公开资源直接验证。)
- ◐ 部分可验证: 该模型(9B参数)在边缘设备上部署需低于12GB RAM,且超越Qwen3-Omni-30B-A3B的全模态能力 (模型参数和部署需求可通过代码仓库或技术报告验证,但与Qwen3-Omni-30B-A3B的对比需依赖第三方评测或基准测试数据,推文未提供具体指标来源。)
原文内容:
就在几天前,思维机器实验室(TML)展示了一种突破性的AI交互方式——"全双工时间对齐微轮转"技术,将传统回合制对话升级为持续交互模式。 这预示着未来AI语音视频对话将实现近乎实时的新"交互范式"。 而MiniCPM-o 4.5已通过OpenBMB的Omni-Flow框架实现了相同核心理念:用时间对齐的感知响应取代旧式回合制聊天。这个90亿参数的全双工多模态模型能同步实现视觉处理、听觉感知与语音输出。 Omni-Flow将交互视为时间轴上的连续流,将视觉输入、音频输入与语音/文本输出对齐到统一的时间区块,使模型能边响应边感知。这彻底打破了"用户说话-模型等待-模型回复"的传统对讲机式交互。 这不仅是概念演示:开源模型包含完整代码、权重、技术报告,可在12GB内存设备边缘部署。其多模态能力与语音生成质量甚至超越Qwen3-Omni-30B-A3B模型。 OpenBMB已将这一架构落地为真正的全双工多模态系统:视频标记、音频标记、大语言模型隐藏状态、语音标记与波形生成全部同步至统一时间轴——这正是AI交互层长期缺失的关键突破。
⏰ 02:28 | ❤️ 75点赞 | 📝 212词 | 查看原文 →
Bearly AI @bearlyai
Privacy-first AI research tool with access to ChatGPT, Grok, Claude, Gemini and DeepSeek in one app. Try it at http://Bearly.AI | 影响力: 0万粉丝
💡 核心观点: 半导体行业需要丰富经验和人脉,年轻人难以胜任创始人角色。
可信度: 6/10 – 1项声明可直接验证;2项需进一步确认;1项为观点陈述
事实核查:
- ◦ 观点: “The silicon industry is not a place for 25yo CEOs, no matter how smart you are. The returns to having built parts before [10-15x] are enormous.” (这是Andrew Feldman对半导体行业年轻CEO的普遍性评价,属于主观观点,无法通过客观数据直接验证其准确性或普遍适用性。)
- ◐ 部分可验证: “The number of relationships you need [in the semiconductor industry] are extraordinary and can only come from experience and connections in the industry (fabs, IP, EDA toolmakers, etc.).” (半导体行业对供应链和合作关系的依赖是公开事实(如台积电、ASML等企业的合作模式可查),但“需要的关系数量”和“仅能通过经验积累”属于经验性论断,需结合行业案例间接验证。)
- ◐ 部分可验证: “Many software startups are different as young founders work in markets and build for consumers they are similar age to.” (软件行业年轻创始人比例较高(如扎克伯格、Snap创始人等案例可查),但“面向同龄消费者”的因果关系属于推测性关联,需具体企业数据支持。)
原文内容:
Cerebras首席执行官安德鲁·费尔德曼谈及为何年轻半导体芯片创始人如此稀少: "硅产业不是25岁CEO的舞台,无论你多么聪明。在这个行业,拥有零部件制造经验带来的回报[10-15倍]是极其巨大的。" 他指出"所需建立的关系网络规模"非同寻常,这些资源只能来自行业内的经验积累与人脉(晶圆厂、知识产权、EDA工具商、云服务提供商、后端工程师、逻辑工程师等)。 许多软件初创公司则不同,年轻创始人可以在同龄人市场中为相似年龄的消费者开发产品。 现年54岁的费尔德曼深耕科技硬件领域数十年。他将上一家初创公司SeaMicro出售给AMD,并担任数年总经理职务,随后于2016年创立Cerebras(其余四位联合创始人均来自SeaMicro,被收购后曾在AMD工作)。
⏰ 00:32 | ❤️ 405点赞 | 📝 130词 | 查看原文 →
Pierrick Chevallier | IA @charaspowerai
AI VFX Artist & Photoshop Editor for House of David Saison 2 for Amazon | AI Artist & Formateur | 影响力: 0万粉丝
💡 核心观点: 改装肌肉车在爆炸追逐中狂飙突围的惊险场景
可信度: 10/10 – 2项声明可直接验证;2项需进一步确认;1项为观点陈述
事实核查:
- ◐ 部分可验证: 推文描述了一个用于Seedance 2的Powerful Muscle car提示 (可通过查看Seedance 2或Higgsfield的官方文档或社区论坛确认是否存在该提示,但需实测或进一步确认具体内容是否一致。)
- ✓ 可验证: 提示中描述了黑色肌肉车、发光底盘、爆炸追逐等具体场景细节 (此为创意性文本描述,无法通过公开渠道验证其真实性,除非有官方发布的实际画面或代码实现。)
- ✓ 可验证: 推文标注了#Higgsfield标签,暗示与Higgsfield平台相关 (可通过搜索Higgsfield官方或社区内容验证该标签是否与其平台或项目关联。)
原文内容:
#Higgsfield内《Seedance 2》强力肌肉车提示词 **提示词** 一辆经过重度改装的黑色肌肉车,底盘泛着幽光,引擎剧烈震颤,排气管喷吐着火舌,由眼神凌厉的无畏街头车手驾驶,双手充满侵略性地紧握方向盘。 在装甲车发射爆炸物的追击下,这辆猛兽冲破正在坍塌的高速公路,以疯狂的速度在车流中漂移,粉碎一切障碍物。 夕阳下的巨型城市高架桥上,爆炸撕裂车道,车辆翻滚,浓烟与火花充斥天空。 开场采用驾驶舱特写:展现换挡操作与车手眼中跳动的火焰倒影,通过挡风玻璃急速变焦转为超低角度跟拍旋转车轮,在激烈漂移时进行速度渐变,爆炸与惊险闪避时采用快速摇镜,以第一人称视角穿越崩塌的车流,碎片与火花不断撞击镜头,采用橙蓝交织的爆米花大片式强光,最终以慢镜头呈现肌肉车冲破火墙,从损毁的高速公路飞跃而起,身后整个车队连环爆炸,摄像机环绕悬浮的车辆旋转,在爆炸达到顶峰时切至黑屏。
⏰ 22:30 | ❤️ 21点赞 | 📝 176词 | 查看原文 →
Rohan Paul @rohanpaul_ai
Compiling in real-time, the race towards AGI. The Largest Show on X for AI. | 影响力: 0万粉丝
💡 核心观点: 小型设备模型实现高效离线运行与先进性能。
可信度: 10/10 – 2项声明可直接验证;2项需进一步确认;1项为观点陈述
事实核查:
- ✓ 可验证: @adrgrondin在iPhone 17 Pro上运行Google的Gemma 4 E2B模型 (iPhone 17 Pro尚未发布,且未提供实际运行视频或官方文档佐证,无法确认其真实性。)
- ◐ 部分可验证: 运行速度达到约40 tokens/秒(tk/s),且通过MLX针对Apple Silicon优化 (若Gemma 4 E2B和MLX优化工具公开,可通过实测验证性能,但需相同硬件环境;当前缺乏独立测试数据。)
- ◐ 部分可验证: 在移动端实现SOTA(最先进)的编程与数学能力,支持128K上下文 (需对比公开基准测试数据,但“SOTA”需明确比较对象;“128K上下文”若模型开源可验证,否则依赖官方披露。)
原文内容:
设备端小模型潜力无限。 @adrgrondin 正在 iPhone 17 Pro 上运行谷歌 Gemma 4 E2B 模型。 通过 MLX 针对苹果芯片优化,实现每秒约40个token的处理速度 移动端128K上下文支持,带来顶尖的编程与数学能力。完全离线运行,支持思考模式。
⏰ 21:53 | ❤️ 176点赞 | 📝 37词 | 查看原文 →
Hasan Toor @hasantoxr
AI & Tech Educator • Sharing insights on AI, Tech Tools, & practical ways to use AI & Tech Tools for you & your daily business • Founder & Writer @theprohumanai | 影响力: 0万粉丝
💡 核心观点: 开源语音引擎Supertonic高效本地运行,无需依赖云服务。
可信度: 8/10 – 2项声明可直接验证;1项需进一步确认;1项为观点陈述
事实核查:
- ◐ 部分可验证: Supertone开源了一个无需GPU即可实时运行的设备端语音引擎(Supertonic) (可通过检查Supertone的GitHub仓库或官网确认是否开源及技术描述,但“实时运行”需实测性能数据验证,且“无需GPU”可能依赖具体硬件条件。)
- ✓ 可验证: Supertonic提供多语言运行时支持(Swift/Kotlin/Rust等)和ONNX模型,默认完全隐私且无网络调用 (技术栈支持(如编程语言列表)和ONNX模型可通过代码仓库或文档直接验证;隐私声明需检查代码是否本地处理数据,但“完全隐私”需法律条款补充确认。)
- ◦ 观点: 当前语音AI存在延迟、隐私泄露、无法离线使用等问题 (属于对行业现状的主观概括,部分问题(如API延迟)可实测验证,但“隐私泄露”等指控需具体案例支持,整体缺乏统一客观标准。)
原文内容:
你们的TTS计费简直是诈骗。 Supertone开源了一款设备端语音引擎,无需GPU即可实现超实时运行,并且支持几乎所有语言的运行时环境。 它叫Supertonic。 当你停下来细想,当前的语音AI技术栈简直荒谬。你需要按字符支付API费用。你的文本要在别人的服务器上往返传输。延迟让你的智能体显得迟钝。用户的语音数据存储在陌生人的机器上。你无法实现离线部署。你无法保障隐私性。你无法控制成本。 Supertonic终结了这种妥协。 → 可在手机CPU上实时运行的ONNX模型 → 提供Swift、Kotlin、Rust、C++、Python和JavaScript的原生示例 → 零网络请求,默认完全隐私保护 → Apache 2.0协议,无使用限制 这就是所有语音API暗自希望不要免费的东西。
⏰ 21:36 | ❤️ 59点赞 | 📝 143词 | 查看原文 →
Rohan Paul @rohanpaul_ai
Compiling in real-time, the race towards AGI. The Largest Show on X for AI. | 影响力: 0万粉丝
💡 核心观点: 代理设计决定grep与向量检索的效能差异
可信度: 6/10 – 1项声明可直接验证;2项需进一步确认;1项为观点陈述
事实核查:
- ◐ 部分可验证: 在LongMemEval任务中,grep-style搜索在恢复长对话历史中的事实时表现优于向量检索 (需查阅论文原文或实验数据以确认具体测试设置、任务细节和结果对比,但若论文公开则可通过学术渠道验证。)
- ✓ 可验证: 当答案基于字面证据(如名称、日期、文件路径等)时,grep为模型提供了明确的机械优势 (可通过分析论文中针对字面证据任务的实验设计(如输入输出案例)验证此结论,或复现实验。)
- ◐ 部分可验证: 向量数据库因嵌入的语义容错性可能引入无关信息,影响检索精度 (需依赖论文对向量检索错误案例的分析或对比实验,但若缺乏具体数据则难以完全验证。)
原文内容:
你真的只需要Grep吗? 真正出人意料的并非grep本身有多强大,而是代理(agent)的设计机制放大了它的威力。 论文的核心观点并非grep优于向量检索,而是代理系统的成败取决于其控制框架(harness)的设计。 这个细微差别看似微不足道,直到你审视实验设计才见分晓。 研究者在LongMemEval任务中对比了grep式搜索与向量检索——该任务要求代理从充满干扰项的长对话历史中准确提取事实。在主实验的所有框架-模型组合中,内联grep检索均击败内联向量检索,有时优势显著。 表面结论可能是:向量数据库对编程代理而言过度设计了。 但更精准的解读是:当答案依赖字面证据(如名称、日期、文件路径、函数名、错误字符串、用户偏好)时,grep能为模型提供纯粹的机械优势。 嵌入(embeddings)本是为容忍语义改写设计的,但这种宽容需要代价。它们可能引入语义相近的干扰项,尤其当代理查询语句简短模糊时。 grep则呈现相反的失效模式。它愚钝、廉价且局限,但当代理明确知道要搜索的目标字符串时,这种愚钝反而成为优势。 更深层的发现是:检索系统不能孤立地评测。同一搜索方法会因结果注入方式(内联/写入文件/CLI路由/自定义代理循环)而表现迥异。 因此关键问题不是"我们还需要向量数据库吗?" 而是:你的代理要解决的是语义发现问题,还是证据定位问题? 对编程代理而言,大量工作本质是证据定位:查找符号、追踪调用、检查差异、阅读失败测试、定位具体代码行。 向量检索在大规模模糊概念搜索中仍有价值,但本文动摇了"所有严肃代理系统必以嵌入为起点"的惯性思维。 有时升级不在于更智能的索引。 而在于为模型配备原始工具、整洁文件、规范上下文,以及能让精确搜索发挥所长的控制框架。 ---- 论文链接:arxiv.org/abs/2605.15184 论文标题:《你真的只需要Grep吗?代理控制框架如何重塑智能搜索》
⏰ 20:49 | ❤️ 135点赞 | 📝 361词 | 查看原文 →
Rohan Paul
Rimsha Bhardwaj
Amira Zairi
Bearly AI
Pierrick Chevallier | IA
Hasan Toor