【AI 英文奏折】05月06日

x每日奏折3周前发布 tianming

83 0 0

【AI 英文奏折】2026年05月06日

共收录 20 篇深度内容

📋 今日内容速览

快速浏览，点击感兴趣的推文查看详细分析

Santiago: 多代理系统不应简单设计为线性流程，需适应复杂问题动态性。
Peter Steinberger 🦞: 使用根句柄而非字符串规范化保障文件系统安全。
Santiago: 超大上下文窗口徒增算力却降低模型表现。
Amira Zairi: 智能镜头技术将创意方案直接转化为电影级画面。
Ksenia_TuringPost: 多智能体协同与AI技能结构化是前沿研究核心
Rohan Paul: 分步推理可减少大模型代码补丁错误率近半。
Bearly AI: AMD因数据中心收入大增看好AI推动CPU需求增长。
Gary Marcus: 黄仁勋承认当前AI实用性有限，需大幅提升以匹配巨额投资。
Gary Marcus: 马斯克诉OpenAI咨询陪审团仅裁定责任无约束力。
Aakash Gupta: 编程需系统规划而非单靠零散指令。
Chubby♨️: Anthropic将发布简化版Claude Mythos模型。
Ethan Mollick: 免费GPT-4.5已达2025年付费模型水平。
Susan Zhang: 退休生活虽不自由但优质，值得妥协。
Machina: 用Claude将笔记拆分为带双向链接的Obsidian原子化知识库
ℏεsam: 新模型性能惊人但宣传可疑，数据真实性存疑。
Rohan Paul: AI虚假繁荣威胁实际效能与就业前景。
Justine Moore: 请真实用户分享产品体验比付费网红推广更有效。
Nathan Lambert: LLMs表现不佳，难以有效提炼策略核心。
GREG ISENBERG: 全球仅约千家纯AI驱动企业年收入超500万美元。
Bindu Reddy: 开源模型接近实用但复杂问题仍难解决。

📖 详细内容

Santiago @svpino

博主简介加载中 | 影响力: 0万粉丝

💡 核心观点: 多代理系统不应简单设计为线性流程，需适应复杂问题动态性。

可信度: 6/10 – 3项需进一步确认；1项为观点陈述

事实核查:

◐ 部分可验证: 多智能体系统设计常采用DAG（有向无环图）结构，适用于线性任务 (DAG在流程自动化中的使用是公开的技术方案（如Apache Airflow等工具），但推文中“大多数人都这样做”的普遍性需实际行业调研佐证，属于部分可验证。)
◦ 观点: 复杂问题无法通过预先设计的流程图解决，因下一步依赖上一智能体的实时判断 (该声明强调动态判断的必要性，属于设计理念争议，无客观标准验证其绝对正确性，但可通过案例研究部分支持（如BAND AI的案例）。)
◐ 部分可验证: BAND AI团队采用“聊天室”模式，智能体可动态协作而非固定流程图

原文内容:

人们对多智能体系统的认知存在一个重大误区。

我合作的一家公司将多智能体系统设计成有向无环图（DAG）结构，这也是大多数人的做法：

智能体A → 智能体B → 智能体C → 智能体B → 智能体D...

这种流程图模式适用于线性任务。比如先提取文档，然后分类、摘要，最后存储。

但这类任务根本不需要多智能体系统。

要解决复杂问题，你不可能预先规划流程图——因为下一步行动完全取决于上个智能体的推理结果。

以DAG为核心的设计在需要*判断力*时就会失效。

流程图的协调者是开发者：每条路径都必须预先设计。

如今的智能体具备推理能力。如果强行将它们塞进固定流程图，你就扼杀了它们最有价值的部分！

看看BAND AI团队的做法：

他们将智能体置于聊天室环境中实现自由对话。

当某个智能体需要协助时，它可以@其他智能体。它们通过消息传递共享上下文，人类也能参与对话。

这听起来简单，因为它本就该如此。现实世界中人类正是这样协作的。

假设你正在构建代码审查系统：

• 审查者智能体询问编写者智能体：认证代码是否应该处理过期令牌？编写者回答。
• 规划者智能体全程监听对话，随即询问代码库智能体认证流程的实现位置。
• 开发者突然加入对话，提出新的约束条件。
• 规划者智能体接收信息后，与代码智能体分享实施方案。

你应该明白了。

整个系统就像开放式对话，每个智能体各司其职。

我特别欣赏这种架构，因为它精准凸显了智能体的核心价值：推理能力。

BAND AI团队刚结束隐匿开发状态，获得1700万美元融资来构建这个系统。他们与我合作撰写了本文。

具体实现原理可以查看他们的博客：https://band.ai 上有详细说明。

⏰ 23:02 | ❤️ 91点赞 | 📝 354词 | 查看原文 →

↑ 返回顶部

Peter Steinberger 🦞 @steipete

博主简介加载中 | 影响力: 0万粉丝

💡 核心观点: 使用根句柄而非字符串规范化保障文件系统安全。

可信度: 9/10 – 2项声明可直接验证；2项需进一步确认

事实核查:

✓ 可验证: OpenClaw/fs-safe是一个从OpenClaw提取的可重用文件系统安全原语 (可通过开源代码仓库（如GitHub）直接验证该项目的存在及其与OpenClaw的关系，查看提交记录或文档即可确认。)
◐ 部分可验证: Node应用若从代理、插件、上传、配置或用户处接收路径，应停止将字符串规范化视为文件系统边界 (需结合具体代码实践或安全研究验证字符串规范化的潜在风险，但已有公开讨论（如CVE或OWASP指南）支持此类安全建议。)
◐ 部分可验证: 建议使用根句柄（root handle）替代字符串规范化作为安全措施 (需实测或查阅技术文档（如fs-safe的README）确认其实现细节，但“根句柄”概念在文件系统安全中有一定理论基础（如chroot或沙箱技术）。)

原文内容:

发布 openclaw/fs-safe：从 OpenClaw 中提取的可复用文件系统安全原语。

如果你的 Node 应用接收来自代理、插件、上传文件、配置文件或用户的路径，请停止将字符串规范化视为文件系统边界。改用根句柄。

⏰ 10:33 | ❤️ 44点赞 | 📝 37词 | 查看原文 →

↑ 返回顶部

Santiago @svpino

博主简介加载中 | 影响力: 0万粉丝

💡 核心观点: 超大上下文窗口徒增算力却降低模型表现。

可信度: 8/10 – 1项声明可直接验证；2项需进一步确认；2项为观点陈述

事实核查:

◦ 观点: Huge context windows are the biggest lie in AI. (该声明是主观观点，缺乏具体数据或实验证明“大上下文窗口是谎言”，属于对技术方向的个人评价。)
✓ 可验证: If you double the context, you are quadrupling the compute (due to quadratic attention). (基于Transformer架构的注意力计算复杂度（O(n²)）是公开的学术共识，可通过论文或技术文档验证。)
◐ 部分可验证: Subquadratic built an LLM with 12M tokens of usable context and subquadratic architecture. (若Subquadratic公司或论文公开了技术细节（如架构设计、基准测试），可部分验证，但需实测确认性能是否如描述。)

原文内容:

超大上下文窗口是AI领域最大的谎言。

说实话，我从未见过超过100万token的扩展能带来任何好处。给模型喂的数据越多，它们反而越愚钝，所以扩大窗口毫无意义。

注意力机制存在平方级复杂度：

上下文长度翻倍，计算量就会增至四倍。

超过某个临界点后，模型会变得迟缓昂贵，并开始胡编乱造。它们对上下文中间部分的细节记忆能力也糟糕透顶。

现有百万种权宜之计：

• 文本分块
• 摘要层
• 检索补丁
• 滑动窗口

但坦白说，这些方案都平庸至极。

现在出现了一个可能真正解决问题的创新方案：

Subquadratic公司开发了采用次平方架构的大语言模型。这意味着扩大上下文时，计算成本不会像标准Transformer那样爆炸式增长。

他们的模型具备：

• 1200万token可用上下文
• 无需分块拼接的变通方案
• 完整上下文直接输入，而非摘要版本

若真如宣传所言，这将彻底重塑语境工程的定义。

⏰ 22:16 | ❤️ 66点赞 | 📝 176词 | 查看原文 →

↑ 返回顶部

Amira Zairi @azed_ai

AI Educator & Creator | Ambassador @Adobe @LeonardoAi & @tripoai | Partner with leading brands | Collaboration → [email protected] | 影响力: 0万粉丝

💡 核心观点: 智能镜头技术将创意方案直接转化为电影级画面。

可信度: 6/10 – 1项声明可直接验证；2项需进一步确认；1项为观点陈述

事实核查:

◐ 部分可验证: OpenArt的Smart Shot结合了GPT Image 2和Seedance 2.0技术，可将单句文本转换为完整的Shot Plan (需通过OpenArt官方文档或实测确认是否真实集成GPT Image 2和Seedance 2.0，且功能是否如描述。技术名称可能为内部代号，公开信息有限。)
◐ 部分可验证: Smart Shot能根据锁定的创意方向渲染最终电影级序列 (需实际测试工具输出效果是否符合“电影级”标准，但“电影级”为主观描述，缺乏客观量化依据。)
◦ 观点: 制作文档（Shot Plan）应主导流程，视频成片作为验证 (此为方法论主张，反映推文作者对工作流程的主观看法，无客观事实可验证。)

原文内容:

工作室将此称为前期制作

Smart Shot在视频开始前就将其呈现在屏幕上

OpenArt的Smart Shot结合了GPT Image 2和Seedance 2.0技术，能将单一句子转化为完整的镜头规划方案，随后基于锁定的创意方向渲染出最终的电影级序列。正因如此，制作文档应当主导流程，而成片则作为验证呈现。

其运作原理如下：

⏰ 23:59 | ❤️ 70点赞 | 📝 68词 | 查看原文 →

↑ 返回顶部

Ksenia_TuringPost @theturingpost

博主简介加载中 | 影响力: 0万粉丝

💡 核心观点: 多智能体协同与AI技能结构化是前沿研究核心

可信度: 10/10 – 2项声明可直接验证；2项需进一步确认；1项为观点陈述

事实核查:

✓ 可验证: The Last Harness You’ll Ever Build (标题为夸张或愿景性表述，未提供具体技术细节或公开数据支持，无法验证其实际效果或真实性。)
◐ 部分可验证: Synthetic Computers at Scale for Long-Horizon Productivity Simulation (若链接中提供论文或技术文档，可通过学术平台验证部分内容，但“长期生产力模拟”的实际效果需实测或进一步研究确认。)
◦ 观点: The Last Human-Written Paper: Agent-Native Research Artifacts (标题为主观断言（“最后一篇人类撰写论文”），属于对未来趋势的推测，无客观事实依据。)

原文内容:

本周必读研究

《您将构建的最后一款线束系统》
《从技能到人才：异质智能体在现实企业中的组织架构》
《递归多智能体系统》
《面向长期生产力模拟的大规模合成计算机》
《协同演化的策略蒸馏》
《通过系统集成推测解码加速强化学习训练后推演》
《从技能文本到技能结构：智能体技能的调度-结构-逻辑表征》
《最后一篇人类撰写的论文：智能体原生研究范式》
《基于RoundPipe的多消费级GPU高效训练方案》
《高效计算机使用智能体的步骤级优化》
《长度价值模型：面向令牌级长度建模的可扩展价值预训练》
《部署即学习：通用机器人策略的集群级强化学习》

查看完整列表及本周最前沿AI动态，请访问：https://turingpost.com/p/fod151

⏰ 00:56 | ❤️ 166点赞 | 📝 131词 | 查看原文 →

↑ 返回顶部

Rohan Paul @rohanpaul_ai

Compiling in real-time, the race towards AGI. The Largest Show on X for AI. | 影响力: 0万粉丝

💡 核心观点: 分步推理可减少大模型代码补丁错误率近半。

可信度: 9/10 – 2项声明可直接验证；2项需进一步确认

事实核查:

◐ 部分可验证: Meta发现强制要求LLM逐步展示推理过程可使代码补丁错误率下降近50% (需查阅Meta官方发布的论文或技术报告以确认具体实验设计、数据样本和错误率计算方式，但推文未提供直接来源链接。若论文公开则可验证，否则仅能部分依赖第三方复现结果。)
✓ 可验证: LLM在未执行代码时易因函数名相似性（如’format’）误判语义，跳过实际文件检查 (该现象与已知的LLM注意力机制缺陷（如符号接地问题）一致，且可通过公开的代码理解实验（如GitHub仓库测试）复现，但需具体案例支撑。)
◐ 部分可验证: 标准LLM被要求比较两个代码修复方案时，因未阅读实际文件而误判同名自定义工具 (需验证原始论文中是否包含此案例细节（如项目名称、工具定义等）。类似行为在现有研究中已被观测到（如arXiv:2305.20050），但具体数据需依赖Meta披露。)

原文内容:

"LLM智能体能否在不执行代码的情况下探索代码库并推理代码语义？"

Meta研究发现，若强制要求大语言模型逐步展示其推理过程并提供证明，其代码补丁的错误率可降低近50%。

这一发现并非意味着模型突然具备了深度思考能力，而是揭示了多数代码错误源于过早的认知定势：当模型看到诸如"format"这类熟悉名称时，往往会在未核查项目实际文件的情况下，默认套用常规语义。

若仅要求标准大语言模型静态检查代码，模型通常仅扫视函数名称便做出自信猜测。论文指出，当被要求比较两个不同代码修复方案时，标准AI因发现共有词汇而直接假定其指向常规系统工具。由于跳过了实际文件阅读，AI完全忽略了该项目中存在同名自定义工具的特殊情况。

Meta通过强制使用检查清单模板解决了这一问题，防止模型跳跃式推理。模型必须明确记录代码修改内容、追踪具体执行路径，并用具体证据佐证结论。这一简单调整迫使AI真正阅读本地文件并遵循实际逻辑，而非依赖假设。

该方法在真实代码补丁上实现了93%的准确率，且无需昂贵的新训练或复杂系统。研究表明，基础的结构化提示即可实现高度可靠的代码验证，避免了实际运行软件测试所需的巨大计算成本。

----

论文链接：arxiv.org/abs/2603.01896  
论文标题：《能动性代码推理》

⏰ 19:53 | ❤️ 136点赞 | 📝 276词 | 查看原文 →

↑ 返回顶部

Bearly AI @bearlyai

Privacy-first AI research tool with access to ChatGPT, Grok, Claude, Gemini and DeepSeek in one app. Try it at http://Bearly.AI | 影响力: 0万粉丝

💡 核心观点: AMD因数据中心收入大增看好AI推动CPU需求增长。

可信度: 8/10 – 2项声明可直接验证；1项需进一步确认；1项为观点陈述

事实核查:

✓ 可验证: AMD股价在财报后上涨17% (可通过公开股票市场数据（如Yahoo Finance、Bloomberg）或AMD官方财报新闻稿验证股价变动及财报发布日期)
✓ 可验证: AMD季度数据中心收入达58亿美元（同比增长57%） (可通过AMD官方财报文件或投资者关系页面中的财务数据直接验证收入金额及同比增长率)
◐ 部分可验证: 苏姿丰（Su）称AI代理的兴起可能导致CPU与GPU比例从1:8转向1:1 (若苏姿丰在公开场合（如财报会议、采访）发表此言论，可通过会议记录或媒体报道部分验证，但具体比例是否为内部预测或行业趋势需进一步确认)

原文内容:

AMD公布财报后股价飙升17%，主要得益于季度数据中心收入达到58亿美元（同比增长57%）。

苏姿丰表示，AI智能体的兴起意味着CPU与GPU的配比可能从1:8转变为1:1（某些智能体部署场景需要的CPU数量甚至会超过GPU）。

⏰ 09:38 | ❤️ 20点赞 | 📝 42词 | 查看原文 →

↑ 返回顶部

Gary Marcus @garymarcus

博主简介加载中 | 影响力: 0万粉丝

💡 核心观点: 黄仁勋承认当前AI实用性有限，需大幅提升以匹配巨额投资。

可信度: 5/10 – 2项需进一步确认；2项为观点陈述

事实核查:

◐ 部分可验证: Jensen Huang admitted that AI wasn’t really useful until late 2025. (需查找Jensen Huang的公开演讲、采访或官方声明，确认其是否明确提到“AI在2025年底前实用性有限”。若无直接引用或上下文缺失，则无法完全验证。)
◦ 观点: Everything said about AI before was more or less bullshit. (这是推文作者对AI行业过往言论的主观评价，缺乏客观标准或数据支撑，无法验证其真实性。)
◐ 部分可验证: AI当前的实用性和价值难以匹配数万亿美元的基础设施投资。 (AI的经济价值可通过行业报告（如麦肯锡、Gartner）或企业财报部分验证，但“是否匹配投资”涉及主观判断，且“数万亿美元”需具体数据来源佐证。)

原文内容:

黄仁勋这番表态令人震惊。

他实际上是在承认：尽管人工智能被炒得沸沸扬扬（其中不乏他自己的推波助澜），但在2025年底之前都算不上真正有用。

好好消化这个信息。

这意味着此前所有人的言论或多或少都是无稽之谈。

这不禁让人质疑：*现阶段*人工智能的实际价值究竟几何？其效用又值多少？

每年100亿美元？500亿美元？

若想证明数万亿美元的基础设施投入合理，仅凭"略有用途"远远不够。它或许需要成为人类史上最赚钱的技术，才能匹配如此规模的投资。

而迄今为止，差距何止千里。

⏰ 09:14 | ❤️ 111点赞 | 📝 101词 | 查看原文 →

↑ 返回顶部

Gary Marcus @garymarcus

博主简介加载中 | 影响力: 0万粉丝

💡 核心观点: 马斯克诉OpenAI咨询陪审团仅裁定责任无约束力。

可信度: 8/10 – 2项声明可直接验证；1项需进一步确认

事实核查:

✓ 可验证: 陪审团在马斯克-OpenAI审判中是咨询性的，对法官没有约束力 (可通过法院公开的审判程序文件或法律专家的分析验证陪审团的性质和权限，此类信息通常在庭审记录或法律报道中明确说明。)
✓ 可验证: 陪审团仅关注责任问题，不涉及损害赔偿（如果有的话） (可通过法庭的审判范围说明或法官的指令验证陪审团的职责范围，这些信息通常会在庭审记录或法律文件中明确列出。)
◐ 部分可验证: 推文作者感谢@bahhradx纠正其之前的错误陈述 (可通过查看推文作者的过往推文和@bahhradx的互动记录验证是否存在纠错行为，但需具体时间点确认，且若推文已删除则无法完全验证。)

原文内容:

重要细节提示：此次马斯克诉OpenAI案件中的陪审团属于*咨询性*陪审团，因此对法官没有约束力，且仅针对责任认定（而非可能的损害赔偿）。

感谢@bahhradx对我先前错误陈述的纠正。

⏰ 08:53 | ❤️ 23点赞 | 📝 39词 | 查看原文 →

↑ 返回顶部

Aakash Gupta @aakashgupta

博主简介加载中 | 影响力: 0万粉丝

💡 核心观点: 编程需系统规划而非单靠零散指令。

可信度: 6/10 – 2项需进一步确认；3项为观点陈述

事实核查:

◦ 观点: “Most people vibe coding right now are doing the equivalent of walking up to one random contractor and saying ‘build me a three bedroom house.'” (该声明是对当前编程方式的比喻性描述，属于主观观点，缺乏具体数据或公开依据支持。)
◐ 部分可验证: “The 21-agent system Aakash demonstrates in this episode is what the architect-and-team setup actually looks like in code.” (若”Aakash的21-agent系统”有公开演示或文档（如视频、代码仓库），可通过查看其架构验证；但需具体来源确认细节，否则仅为部分可验证。)
◦ 观点: “One prompt produces AI slop because you gave the model no architect, no team, no specification, no breakdown.” (关于”AI slop”的成因是主观断言，未提供实验对比或权威研究支持，属于对AI生成结果的个人评价。)

原文内容:

当下大多数人跟风编程时，就像随便找个包工头说"给我盖个三居室"。六个月后房子不合心意，他们反倒惊讶不已。

你需要的不是单枪匹马的木匠，而是配备团队的建筑师。建筑师将你的真实需求转化为设计方案，团队按图施工，最终你才能住进称心的房子。

这个逻辑同样适用于Claude Code开发。

单句提示词只能产出AI垃圾——因为你既没提供建筑师，也没配备团队，既无设计方案，更无任务分解。就像扔下一句话就指望变出整栋大楼。

本期Aakash演示的21智能体系统，就是"建筑师+团队"模式的代码级呈现：
- 系统分析智能体将模糊想法转化为结构化需求
- 专业智能体直连Confluence和Jira，使方案沉淀为文档和工单
- 前端智能体将Figma设计转化为真实界面
- 架构防护机制杜绝单次提示常见的意大利面条式代码

最终成果：从灵感到提示词，从设计到TestFlight可运行应用——单期节目全程直播。

多数产品经理至今未参透的关键在于：
撰写需求、拆解问题、定义验收标准、排序任务优先级——这些传统PM技能正在成为AI开发中最具杠杆效应的能力。

那些唱衰"PM即将失业"的人完全搞反了：擅长制定规范的PM即将甩开只会写提示词的工程师。

本期隐藏洞见：Aakash花在系统分析智能体口述提示词上的时间，远超过任何一段生成代码。这才是核心战场——规范设计是价值倍增器，代码只是下游产物。

如果你尚未构建自己的系统分析智能体，这就是本周的必修作业。

⏰ 08:15 | ❤️ 33点赞 | 📝 315词 | 查看原文 →

↑ 返回顶部

Chubby♨️ @kimmonismus

Privacy-first AI research tool with access to ChatGPT, Grok, Claude, Gemini and DeepSeek in one app. Try it at https://t.co/7C2QxQNem1 (by @pnegahdar and @trungtphan) | 影响力: 0万粉丝

💡 核心观点: Anthropic将发布简化版Claude Mythos模型。

可信度: 4/10 – 2项需进一步确认；1项为观点陈述

事实核查:

◐ 部分可验证: Anthropic内部使用与其他公司相同的模型，外加一些Claude Mythos，主要是Opus 4.7 (模型使用情况属于公司内部信息，除非官方公开或员工透露具体细节，否则无法完全验证。若Anthropic官方发布技术文档或声明提及模型细节，则可部分验证。)
◐ 部分可验证: Claude Mythos的简化版本将在可预见的未来发布 (若Anthropic官方发布产品路线图或公告提及该计划，则为可验证；若仅依赖非官方消息（如员工私下言论），则为部分可验证。)
◦ 观点: Claude Mythos的发布是预期内的（but that was to be expected） (此部分为推文作者的主观判断（“预期内”），无客观事实依据，属于观点陈述。)

原文内容:

Anthropic公司的Boris Cherny表示：

- 公司内部使用的模型与其他公司相同，外加部分Claude Mythos技术，主要是Opus 4.7版本。

- 一个功能精简版的Claude Mythos将在可预见的未来发布（不过这也在意料之中）。

⏰ 02:48 | ❤️ 351点赞 | 📝 39词 | 查看原文 →

↑ 返回顶部

Ethan Mollick @emollick

博主简介加载中 | 影响力: 0万粉丝

💡 核心观点: 免费GPT-4.5已达2025年付费模型水平。

可信度: 6/10 – 1项声明可直接验证；1项需进一步确认；1项为观点陈述

事实核查:

◐ 部分可验证: GPQA基准测试与其他测量基准高度相关且表现一致 (需查阅GPQA官方文档或对比其他基准测试数据以验证相关性，但“高度相关”的具体定义可能缺乏统一标准。)
✓ 可验证: OpenAI的免费模型GPT 5.5 Instant已达到付费模型在2025年末才达到的水平 (模型性能对比需依赖未公开的测试数据（如“2025年末付费模型水平”），且“GPT 5.5 Instant”名称未在OpenAI官方渠道确认。)
◦ 观点: 所有基准测试都存在缺陷 (属于主观评价，无具体事实支撑，且“缺陷”定义因人而异。)

原文内容:

所有基准测试都存在缺陷，但GPQA一直保持较高的稳定性，并与其他测量基准呈现出显著相关性。我认为OpenAI的免费模型GPT 5.5 Instant能达到这个水平——甚至超越了付费模型在2025年末才达到的标准——很好地体现了我们取得的进展。

⏰ 07:10 | ❤️ 138点赞 | 📝 51词 | 查看原文 →

↑ 返回顶部

Susan Zhang @suchenzang

博主简介加载中 | 影响力: 0万粉丝

💡 核心观点: 退休生活虽不自由但优质，值得妥协。

可信度: 6/10 – 1项声明可直接验证；1项需进一步确认；1项为观点陈述

事实核查:

◐ 部分可验证: “daily life could look like this (notably better for retirees than anyone else)” (该声明提到特定群体（退休人员）的生活质量可能更好，但未提供具体标准或数据。需通过统计报告（如退休福利、医疗资源等）部分验证，但“更好”是相对主观的描述，缺乏明确比较基准。)
◦ 观点: “the lack of ‘freedom’ might be worth it” (关于“自由”与生活质量的权衡是主观判断，取决于个人价值观，无客观标准可验证。)
✓ 可验证: “you’re not completely ‘free’” (推文未定义“自由”的具体范围（法律、社会限制等），且“不完全自由”是模糊表述，无法量化或验证。)

原文内容:

当然，你并非完全"自由"，但如果日常生活*能呈现这般景象，这种"不自由"是否值得？

(*尤其对退休者而言，这比其他人群更为优越)

⏰ 08:16 | ❤️ 45点赞 | 📝 31词 | 查看原文 →

↑ 返回顶部

Machina @exm7777

博主简介加载中 | 影响力: 0万粉丝

💡 核心观点: 用Claude将笔记拆分为带双向链接的Obsidian原子化知识库

可信度: 6/10 – 1项声明可直接验证；2项需进一步确认；1项为观点陈述

事实核查:

◐ 部分可验证: Karpathy使用特定提示词将原始笔记转换为带反向链接的Obsidian知识库 (需实测验证提示词是否有效，且Karpathy是否公开使用该方法（依赖其个人博客/社交媒体的公开记录）。)
✓ 可验证: 该方法无需RAG或向量技术，成本为0美元 (若流程仅依赖Claude和Obsidian CLI（免费工具），可验证；但需确认是否存在隐性成本（如API调用费）。)
◐ 部分可验证: 通过Claude解析提示词并输出为独立Markdown文件，可用Obsidian CLI同步到知识库 (需实测Claude的响应是否符合预期，且Obsidian CLI是否支持该操作（工具文档可查，但具体效果需测试）。)

原文内容:

以下是卡帕西（Karpathy）使用的提示词，可将原始笔记转化为带反向链接的Obsidian知识库...无需RAG技术，无需向量数据库，零成本实现：

> "将这份原始笔记拆解为原子化的Obsidian Markdown文件...每个文件对应一个独立概念...在相互引用的概念间使用[[维基链接]]...输出为带有文件名的独立代码块"

粘贴至Claude操作，通过Obsidian命令行工具同步至知识库，即可获得结构化的知识体系。

⏰ 02:02 | ❤️ 170点赞 | 📝 63词 | 查看原文 →

↑ 返回顶部

ℏεsam @hesamation

ai/ml • giving birth to agents in my spare time | 影响力: 0万粉丝

💡 核心观点: 新模型性能惊人但宣传可疑，数据真实性存疑。

可信度: 10/10 – 2项声明可直接验证；2项需进一步确认；1项为观点陈述

事实核查:

✓ 可验证: 12M context window (推文提到“12M context window”，但未提供技术文档、论文或实测数据支持，且标注“paper coming soon”，当前无法验证。)
◐ 部分可验证: 52x faster than FlashAttention (需对比FlashAttention的基准测试数据，但推文未提供具体测试条件或来源，需等待论文或官方发布详细结果。)
◐ 部分可验证: beats Opus 4.6 on SWE-Bench (若SWE-Bench为公开基准测试，可验证排名，但需确认测试版本（Opus 4.6）和具体指标，目前缺乏细节。)

原文内容:

1200万上下文窗口（请再读一遍）
比FlashAttention快52倍
在SWE-Bench上超越Opus 4.6
成本仅为Opus的5%

但请稍等：
技术博客毫无技术含量
访问权限即将开放
论文即将发布
"由Meta、谷歌、牛津、剑桥、杨百翰大学的研究人员构建"——却未提及任何具体姓名

若这并非骗局，或数据没有造假，那这种营销手段也令人作呕。

⏰ 07:54 | ❤️ 177点赞 | 📝 64词 | 查看原文 →

↑ 返回顶部

Rohan Paul @rohanpaul_ai

Compiling in real-time, the race towards AGI. The Largest Show on X for AI. | 影响力: 0万粉丝

💡 核心观点: AI虚假繁荣威胁实际效能与就业前景。

可信度: 5/10 – 2项需进一步确认；2项为观点陈述

事实核查:

◦ 观点: “The appearance of software working is not software working.” (该声明是对软件功能表象与实质的主观评价，缺乏具体案例或客观标准，属于哲学或行业观点。)
◐ 部分可验证: “Generative systems often fail more seductively, by producing fluent surfaces that look like work until they meet stubborn world of permissions, edge cases.” (生成式AI的”表面流畅但实际失效”现象可通过测试具体案例（如权限错误、边缘场景）部分验证，但需依赖实际系统表现，且失败模式可能因场景而异。)
◐ 部分可验证: “What actually does work is a platform built by a motley crew of highly technical people over 20 years (e.g. Foundry/Apollo).” (Palantir的Foundry/Apollo平台效能可通过企业案例或技术文档部分验证，但”20年技术积累”的具体贡献和”唯一有效性”属于公司宣传口径，缺乏横向对比依据。)

原文内容:

Palantir首席执行官亚历克斯·卡普向AI"垃圾输出"宣战

关于AI"垃圾输出"的争论，本质上是关于软件究竟在真正运行还是装模作样的较量。

"软件看似在运行不等于真正在运行。这些备受关注的垃圾输出不仅充斥着危险夸张的论调，更充斥着诸如'垃圾输出将导致人类失业'或'所有系统都将瘫痪'的荒谬断言——尽管与此同时，人们又幻想AI会化身为神明般的存在。"

"而现实中真正有效的，是由一群特立独行的高技术人才历时二十年打造的平台。这群人曾因坚持必须开发Foundry系统、必须构建Apollo平台的理念而长期遭受非议。"

----

传统软件的失败往往简单粗暴：系统崩溃、数据错误、功能缺失或进程中断。

生成式系统的失败则更具迷惑性——它们能输出流畅的表象，直到遭遇权限管理、极端案例、审计追踪、安全防护、责任归属以及善变的人类意图这些顽固的现实壁垒。

---

[视频来源自Palantir官方YouTube频道，完整链接见评论区]

⏰ 19:08 | ❤️ 211点赞 | 📝 191词 | 查看原文 →

↑ 返回顶部

Justine Moore @venturetwins

Partner @a16z AI and twin to @omooretweets | Investor in @elevenlabs, @bfl_ml, @hedra_labs, @krea_ai, @MireloAI, @ShizukuAILabs, @wabi, @WaveFormsAI | 影响力: 0万粉丝

💡 核心观点: 请真实用户分享产品体验比付费网红推广更有效。

可信度: 4/10 – 2项需进一步确认；1项为观点陈述

事实核查:

◐ 部分可验证: Paying random influencers to RT or QT your launch almost never drives real usage (or retention). (需通过实际案例或数据分析验证随机影响者的推广效果与用户留存的关系，但部分数据可能来自非公开的初创公司内部统计。)
◦ 观点: Everyone knows it’s inauthentic. (这是主观判断，缺乏客观标准或数据支持“所有人”的共识。)
◐ 部分可验证: Much more valuable to have fewer creators who USE your product and share what they made / did. (可通过案例研究或用户行为数据验证真实用户分享的效果，但“价值”判断可能涉及主观衡量标准。)

原文内容:

作为一名长期观察初创企业数据的人士：

付费请一些网红随意转发或引用你的产品发布信息，几乎从不会带来真正的用户活跃度（或留存率）。

大家都知道这种推广方式缺乏真实性。

更有价值的是找到少量真正使用你产品的创作者，分享他们实际创造/完成的内容。

⏰ 07:50 | ❤️ 149点赞 | 📝 48词 | 查看原文 →

↑ 返回顶部

Nathan Lambert @natolambert

博主简介加载中 | 影响力: 0万粉丝

💡 核心观点: LLMs表现不佳，难以有效提炼策略核心。

可信度: 6/10 – 1项声明可直接验证；2项需进一步确认；1项为观点陈述

事实核查:

◐ 部分可验证: 作者正在为RLHF书籍添加一个关于策略蒸馏的章节 (需查看RLHF书籍的公开目录或作者提供的更新日志，但若书籍未公开或章节未发布则无法完全验证)
◐ 部分可验证: LLMs/编程智能体在策略蒸馏任务上表现非常差 (需实际测试相同LLMs/智能体在相同上下文（核心论文+250页材料）下的表现，但缺乏公开基准或作者的具体测试数据)
✓ 可验证: 作者为LLMs/编程智能体提供了核心论文和250页的上下文材料 (依赖作者单方面陈述，未公开具体材料内容或交互记录)

原文内容:

在RLHF手册中新增了关于策略蒸馏的章节，令人惊讶的是，尽管我已提供了核心论文和250页关于我阐述思路的上下文，大型语言模型/编程代理在这方面的表现仍不尽如人意。

⏰ 07:28 | ❤️ 86点赞 | 📝 38词 | 查看原文 →

↑ 返回顶部

GREG ISENBERG @gregisenberg

博主简介加载中 | 影响力: 0万粉丝

💡 核心观点: 全球仅约千家纯AI驱动企业年收入超500万美元。

可信度: 10/10 – 2项声明可直接验证；2项需进一步确认；1项为观点陈述

事实核查:

✓ 可验证: 全球仅有约1,000家真正AI原生的公司年收入达到500万美元或以上 (该数据缺乏具体来源（如研究报告、数据库名称等），且“真正AI原生”的定义具有主观性，无法通过公开数据直接验证企业数量或收入门槛。)
◐ 部分可验证: 真正AI原生意味着企业所有业务数据（客户记录、SOP、邮件模板等）均能被AI代理索引和读取，并由AI代理执行核心任务 (可通过企业公开的技术白皮书或案例研究部分验证其AI应用程度，但“所有业务数据”的全面性需实际调研，且“真正AI原生”无统一标准，属于模糊定义。)
◦ 观点: 大多数人误以为使用ChatGPT即算AI原生，实则差距巨大 (这是主观比较，取决于对“AI原生”的界定，无客观标准可验证“差距”程度。)

原文内容:

事实上，全球可能仅有1000家真正意义上的AI原生公司能达到500万美元以上的年度经常性收入。

究竟什么才是真正的AI原生？ 

这意味着企业的一切架构都为智能体而设计：每条客户记录、每份标准流程、每个邮件模板、每项定价规则，全部可被索引，所有内容都能被智能体读取。

智能体处理客户支持，开展外联营销，进行市场调研，起草合同文本，处理理赔申请。人类只负责审核、批准和方向把控。

这样的企业全球仅有千家左右。如果这还不足以激发你立即创业的冲动，我不知道还有什么能打动你。

多数人自诩AI原生，只因工作时使用ChatGPT。这好比声称拥有微波炉就能自封大厨。

真正的AI原生领域蕴藏巨大机遇——毕竟实践者凤毛麟角。百万企业中仅有千家涉足。

无论舆论如何喧嚣......这片蓝海依然空旷无人。

⏰ 07:22 | ❤️ 340点赞 | 📝 170词 | 查看原文 →

↑ 返回顶部

Bindu Reddy @bindureddy

博主简介加载中 | 影响力: 0万粉丝

💡 核心观点: 开源模型接近实用但复杂问题仍难解决。

可信度: 8/10 – 1项声明可直接验证；2项需进一步确认；2项为观点陈述

事实核查:

◐ 部分可验证: Opus 4.7 > Kimi 2.6 Thinking (需实测或参考第三方基准测试对比性能，但未提供具体指标或数据来源，且版本号（如”4.7″）可能非官方命名。)
✓ 可验证: GPT 5.5 > DeepSeek v4 Pro (模型名称（如”GPT 5.5″）与官方版本不符（截至2024年7月无GPT-5.5），且未提供比较标准或数据支持。)
◦ 观点: Open source is tantalizingly close (to solving hard problems) (属于主观判断，取决于对”close”的定义和具体问题的复杂性，无客观衡量标准。)

原文内容:

耗费大量时间让开源模型投入生产环境运行  

以下是更优替代方案  

Opus 4.7  > 智谱清言 2.6 思维版  
GPT 5.5   > 深度求索 v4 专业版  
Gemini 极速版  > 深度求索极速版  
Sonnet 4.6  > 通用语言模型 5.1  

说实话，要让开源方案解决复杂问题仍然极其困难......开源技术看似触手可及却又总差临门一脚

⏰ 07:19 | ❤️ 172点赞 | 📝 47词 | 查看原文 →

↑ 返回顶部

# x每日奏折