【AI 英文奏折】04月18日

x每日奏折3个月前发布 tianming

173 0 0

【AI 英文奏折】2026年04月18日

共收录 20 篇深度内容

📋 今日内容速览

快速浏览，点击感兴趣的推文查看详细分析

Aakash Gupta: Anthropic强势进军AI原型和幻灯片两大高增长领域。
Rimsha Bhardwaj: ClickUp推出全天候自动执行任务的AI助手Super Agents。
Aakash Gupta: 后发者Ramp收入反超先行者Brex，市场竞争格局逆转。
Ethan Mollick: AI模型持续快速提升经济任务表现且无放缓迹象。
Machina: 用户个人体验良好，认为负面评价多属夸大。
AshutoshShrivastava: OpenAI多名高管短期内接连离职。
Riley Brown: Codex功能全面高效，满足多样化创作需求。
Alex Prompter: 浙大研究让AI实时压缩思考，降低推理成本。
Ethan Mollick: 应规范但理性看待AI审稿，建议使用企业版或关闭训练功能。
Ethan Mollick: GDPval-AA基准无效，应停止使用。
Ethan Mollick: GDPval是重要AI能力基准，但需更好替代方案。
Ethan Mollick: 当前AI能力评估指标缺乏可信度且易被操纵。
SemiAnalysis: Sonnet 3能处理前端和底层技术，引发硅谷初创企业反思。
Aakash Gupta: Anthropic绕过微软直接接入Word，摆脱其控制。
klöss: Claude设计产品不及Gemini，Figma仍受专业设计师青睐。
Santiago: 过度追捧代理化需回归工程常识与合理设计。
Anthony Pompliano 🌪: Silvia的Radar功能可自定义监控财务事项并发送提醒。
Artificial Analysis: Claude Opus 4.7与GPT-5.4和Gemini 3.1 Pro并列AI榜首。
Aakash Gupta: Salesforce转向无界面API模式，按席位收费模式已过时。
Aakash Gupta: 善用AI的员工比AI本身更具价值。

📖 详细内容

Aakash Gupta @aakashgupta

博主简介加载中 | 影响力: 0万粉丝

💡 核心观点: Anthropic强势进军AI原型和幻灯片两大高增长领域。

可信度: 8/10 – 1项声明可直接验证；2项需进一步确认；2项为观点陈述

事实核查:

◐ 部分可验证: Prototypes. Lovable hit $400M ARR with 146 employees. Cursor is valued at $29.3B. (Lovable和Cursor的财务数据（如ARR、估值）需通过公司官方公告或可信第三方报告（如Crunchbase）验证，但未提供直接来源链接。员工数量可能通过LinkedIn等平台部分核实，但估值数据若未公开披露则难以确认。)
◐ 部分可验证: Gamma hit $100M ARR with 52 employees at a $2.1B valuation, 70 million users, profitable. (Gamma的ARR、估值和用户数需依赖公司官方声明或权威媒体报道（如TechCrunch）。盈利状态需通过财报或高管访谈验证，但未提供具体来源。员工数量可通过LinkedIn估算，但精确数据需官方确认。)
✓ 可验证: Claude Design ships prototypes, slides, and one-pagers in one product, powered natively by Opus 4.7. (可通过Anthropic官网或产品发布公告直接验证Claude Design的功能描述（如集成原型、幻灯片制作）及底层模型（Opus 4.7）信息。)

原文内容:

Anthropic刚刚强势切入AI领域增长最快的两大产品类别，并宣告"这里由我们接管"。

原型设计领域。Lovable以146名员工实现4亿美元年度经常性收入；Cursor估值达293亿美元；Bolt、v0、Replit Agent等玩家共同构建起规模超480亿美元的氛围编程赛道——这一切完全建立在基础模型推理之上。

幻灯片与单页文档领域。Gamma仅52名员工就达成1亿美元年度经常性收入，估值21亿美元，拥有7000万用户且实现盈利；Tome、Beautiful.ai以及Canva的AI幻灯片生成器都在同一赛道展开角逐。

Claude Design将原型设计、幻灯片和单页文档功能整合于单一产品，原生搭载Opus 4.7引擎驱动。

AI应用外壳模式的经济逻辑曾行之有效：基础模型实验室专注提升模型质量，将用户体验层开放给市场。这个间隙就是整个商业模式——以标价采购计算代币，将其嵌入工作流，再以十倍溢价收费。

当供应商转变为竞争者时，仅剩三个护城河：实验室入场前建立的品牌分销体系、实验室短期内不会优先投入的工作流深度、以及实验室无法快速响应的企业级客户关系。其余优势都将被碾压。

Gamma的7000万用户与正向现金流是真正的壁垒。Lovable在财富500强的部署规模是真正的壁垒。那些在种子轮鼓吹"更好的Gamma"或"更好的Lovable"的新入场者，刚刚失去了他们唯一的套利空间。

这个模式与微软和AWS的发展轨迹如出一辙：掌控横向智能层，逐个垂直领域收割。去年是代码工具，今天是设计产品，六个月后推出的任何新品其实早已在路线图中。

⏰ 00:11 | ❤️ 260点赞 | 📝 243词 | 查看原文 →

↑ 返回顶部

Rimsha Bhardwaj @heyrimsha

Helping you master AI daily with step by step AI guides, & practical tools • AI Educator & Writer • DM for Collab | 影响力: 0万粉丝

💡 核心观点: ClickUp推出全天候自动执行任务的AI助手Super Agents。

可信度: 6/10 – 1项声明可直接验证；2项需进一步确认

事实核查:

✓ 可验证: ClickUp推出名为Super Agents的AI代理，可24/7不间断工作 (可通过ClickUp官网或官方公告直接验证产品发布信息及功能描述。)
◐ 部分可验证: Super Agents具备短期记忆、工作记忆、长期记忆和情景记忆架构 (需实测或查阅官方技术文档确认具体记忆功能实现，部分细节（如“情景记忆”如何运作）可能未完全公开。)
◐ 部分可验证: Super Agents可连接50+应用并执行跨应用企业搜索，且权限控制与用户一致 (应用集成数量可通过官网验证，但权限同步机制需实测或依赖官方技术说明。)

原文内容:

我刚看到ClickUp推出了能24/7全天候工作且永不倦怠的AI智能体。

它们被称为"超级智能体"，这个概念既让人感觉简单直接又令人不寒而栗。

我只需描述工作内容，ClickUp就能构建出对应的智能体。我可以像分配任务给初级员工那样指派工作给它。它会立即投入工作——发送邮件、安排会议、更新任务、给我的团队发消息。它能日夜不停地运转，完全不需要我插手。

真正让它实用（而非又一个聊天机器人外壳）的是其记忆架构：

→ 短期记忆：记录当前对话的即时信息
→ 工作记忆：处理正在执行的任务
→ 长期记忆：持续存储关于团队和工作流程的学习成果
→ 情景记忆：记住过往互动并根据我的反馈不断优化

它还能连接50多个应用程序，在保持权限设置的前提下进行跨平台企业搜索。如果我无权查看某个文件，智能体也同样无法访问。

我还注意到Codegen的CEO称其为"企业梦寐以求的终极解决方案"。

有报道显示目前已经创建了1000万个这样的智能体。

链接见评论区。

⏰ 21:57 | ❤️ 408点赞 | 📝 206词 | 查看原文 →

↑ 返回顶部

Aakash Gupta @aakashgupta

博主简介加载中 | 影响力: 0万粉丝

💡 核心观点: 后发者Ramp收入反超先行者Brex，市场竞争格局逆转。

可信度: 10/10 – 2项声明可直接验证；3项需进一步确认

事实核查:

✓ 可验证: Capital One bought Brex for $5.15 billion ten days ago. (收购金额和时间可通过Capital One或Brex的官方公告、新闻稿或权威财经媒体（如Bloomberg、Reuters）报道直接验证。)
◐ 部分可验证: Ramp is telling investors they’ll hit $1.4B in revenue heading into an IPO. (若Ramp已向投资者披露该数据，需通过公司官方文件（如招股书）或投资者会议记录验证，但非公开信息可能无法直接获取。)
✓ 可验证: Brex had a $12.3B peak valuation before Ramp had even broken $1B in ARR. (Brex的历史估值和Ramp的ARR数据可通过Crunchbase、PitchBook等融资数据库或公司公开声明验证。)

原文内容:

十日前，第一资本以51.5亿美元收购了Brex。而Ramp正告诉投资者其IPO前年收入将突破14亿美元。

同属企业信用卡赛道。Brex创立于2017年，为初创企业定义了公司信用卡标准；Ramp迟至2019年入场，彼时市场格局已定。Brex享有常规的先发优势：品类认知度、Anthropic和Robinhood等企业客户、在Ramp尚未实现1亿美元年度经常性收入（ARR）时就已达到123亿美元的估值峰值。

如今Ramp年化收入达14亿美元。Brex出售时ARR约7亿美元。Ramp以双倍营收规模、更快的增速及正向自由现金流持续领跑。

最被低估的是变化速率。Ramp在约六个月内将ARR从10亿提升至14亿，相当于半年净增4亿美元ARR，日均新增约220万美元。Brex耗时八年才达成7亿美元ARR，而Ramp最近一个7亿美元ARR增量仅用一年。

估值轨迹同样说明问题。Brex在2022年触及123亿美元峰值后，最终以51.5亿美元于2026年退出；Ramp仅在2025年就完成四轮融资，估值从130亿→160亿→225亿→320亿美元阶梯式攀升。按盈利金融科技公司50%增速的公开市场倍数计算，14亿美元ARR将助推其IPO估值突破400亿美元。

相同赛道，同期玩家，同一市场。一位创始人以不到私募峰值估值一半的价格出售公司，另一位则将以三倍于对手峰值的估值上市。

最终独立壮大的，竟是后来者。

⏰ 09:56 | ❤️ 21点赞 | 📝 226词 | 查看原文 →

↑ 返回顶部

Ethan Mollick @emollick

博主简介加载中 | 影响力: 0万粉丝

💡 核心观点: AI模型持续快速提升经济任务表现且无放缓迹象。

可信度: 8/10 – 2项声明可直接验证；1项需进一步确认

事实核查:

◐ 部分可验证: Opus 4.7相比Opus 4.6在 economically important tasks 上有 measurable improvement (需查看官方发布的基准测试数据或第三方评测报告，但若未公开具体任务类型、指标或对比数据，则无法完全验证。)
✓ 可验证: 模型性能提升的速度未见放缓迹象（no signs of slowdown） (此声明涉及对未来趋势的判断，需长期跟踪多个版本的数据才能验证，当前缺乏公开的长期性能增长曲线支持。)
✓ 可验证: 关于实现方式和个性的争论很多（a lot of arguments about implementation choices and personality） (该描述为主观观察，未提供具体争论案例或数据，无法客观验证争议的存在或程度。)

原文内容:

从Opus 4.7版本中获得的一个重要启示是：尽管在实现方案和个人风格上存在诸多争议，但每个新版本（距Opus 4.6发布仅两个月）都在经济价值显著的任务上持续取得可量化的进步，且未见放缓迹象。

⏰ 09:31 | ❤️ 158点赞 | 📝 45词 | 查看原文 →

↑ 返回顶部

Machina @exm7777

博主简介加载中 | 影响力: 0万粉丝

💡 核心观点: 用户个人体验良好，认为负面评价多属夸大。

可信度: 10/10 – 2项声明可直接验证；2项需进一步确认；1项为观点陈述

事实核查:

✓ 可验证: 90% of issues people complain about on X, the author has never experienced them once (该声明基于作者个人主观体验，缺乏具体问题列表或统计数据的支持，无法通过公开渠道验证其普遍性。)
◐ 部分可验证: Opus 4.6的服务体验很好，除了服务器宕机问题 (服务器宕机问题可通过历史宕机记录或用户反馈部分验证，但“体验很好”是主观评价，依赖个人使用场景，无法完全客观验证。)
✓ 可验证: Claude Code应用运行流畅且未遇到任何bug (流畅性和无bug的声明基于个人使用体验，未提供具体测试条件或第三方数据，无法独立验证。)

原文内容:

X绝对是个泡沫制造者  

我在这里看到90%的抱怨问题，自己一次都没遇到过  

人们把Opus 4.6喷了好几周……除了服务器宕机次数确实多了点，我的体验其实棒极了  

有人吐槽新版Claude代码应用，我却觉得流畅至极，至今没碰到一个bug  

还有人抱怨Claude方案的限制——可只有当我连续5小时不停开发时才会触达时限，这本身就不太正常  

别听风就是雨，自己判断吧

⏰ 03:34 | ❤️ 161点赞 | 📝 92词 | 查看原文 →

↑ 返回顶部

AshutoshShrivastava @ai_for_success

| 影响力: 7.7万粉丝

💡 核心观点: OpenAI多名高管短期内接连离职。

可信度: 6/10 – 1项声明可直接验证；2项需进一步确认

事实核查:

◐ 部分可验证: CTO of B2B Applications is leaving OpenAI. (可通过OpenAI官网、官方公告或可信媒体报道（如LinkedIn职位变动、公司声明）验证该高管离职信息，但需确认具体职位名称（如“B2B Applications”是否为官方表述）。)
◐ 部分可验证: This is the third high profile person leaving OpenAI in less than 12 hours. (需核实12小时内是否有其他高管离职记录，可通过新闻聚合平台或公司公告交叉验证，但“high profile”的定义可能带有主观性。)
✓ 可验证: When is Sam Altman leaving OpenAI? Asking for a friend. (该句为调侃或推测性提问，无事实依据；Sam Altman的离职时间若未发生则无法验证，若为假设性问题则属主观观点。)

原文内容:

又一位高管离职：OpenAI企业应用部门首席技术官宣布将离开公司。  
这已是12小时内第三位从OpenAI离职的高层人士。  

"萨姆·奥尔特曼什么时候会离开OpenAI？帮朋友问问。"

⏰ 09:38 | ❤️ 33点赞 | 📝 31词 | 查看原文 →

↑ 返回顶部

Riley Brown @rileybrown

博主简介加载中 | 影响力: 0万粉丝

💡 核心观点: Codex功能全面高效，满足多样化创作需求。

可信度: 10/10 – 3项声明可直接验证；2项需进一步确认

事实核查:

◐ 部分可验证: Codex 5.4 Xhigh用于大多数任务，Opus 4.7用于终端中的一些设计和视频工作 (可通过查看Codex和Opus的官方文档或版本更新日志来验证版本号的存在和功能描述，但“用于大多数任务”和“一些设计和视频工作”属于个人使用偏好，无法完全验证。)
✓ 可验证: Remotion插件、Vercel插件、iOS-app-builder插件、Powerpoint技能、Docx技能 (可通过官方插件商店或相关开发文档验证这些插件和技能的存在及其功能描述。)
◐ 部分可验证: Codex Web预览效果很好，组件选择和注释很容易，可以打开几乎所有类型的文档 (部分功能（如支持的文档类型）可通过官方文档验证，但“预览效果很好”和“组件选择和注释很容易”属于主观体验，无法完全验证。)

原文内容:

我的Codex配置无可匹敌

> 常规任务首选Codex 5.4 Xhigh版
> 终端内的设计与视频处理用Opus 4.7

Remotion插件支持
移动应用设计技能（今日新增）
Vercel插件（即时部署）
iOS应用构建插件
PowerPoint文档处理技能
Word文档处理技能

- Codex网页预览功能强大
- 组件选择与批注操作简便
- 支持打开几乎所有我想创建的文档类型

已集成邮箱/Slack/Linear/Notion
感觉无所不能

（正在制作2-3小时完整配置教程视频，周日YouTube发布）

⏰ 09:08 | ❤️ 223点赞 | 📝 88词 | 查看原文 →

↑ 返回顶部

Alex Prompter @alex_prompter

Marketing + AI = $$$
@godofprompt (co-founder)
https://ytscribe.ai (co-founder) | 影响力: 0万粉丝

💡 核心观点: 浙大研究让AI实时压缩思考，降低推理成本。

可信度: 10/10 – 2项声明可直接验证；3项需进一步确认

事实核查:

◐ 部分可验证: Zhejiang University researchers taught AI models to compress and manage their own thinking in real time (需查阅浙江大学相关研究论文或官方发布的技术报告，但推文未提供具体文献或项目链接，需进一步检索确认。)
✓ 可验证: For Qwen-32B, once context hits 10,000 tokens, the KV cache occupies as much memory as the entire model (可通过Qwen-32B的官方技术文档或开源代码库（如Hugging Face）验证其KV缓存与模型内存占用的关系，具体数值需依赖公开参数计算。)
✓ 可验证: Computational cost of attention grows quadratically with context length (基于Transformer架构的公开理论（如原始论文或权威教材）可验证注意力计算复杂度为O(n²)，属广泛认可的结论。)

原文内容:

浙江大学研究人员刚刚教会AI模型实时压缩管理自身思维过程，其成果彻底改变了我们对推理成本的认知。

现代推理模型面临的问题极其严峻且日益恶化。

每当诸如o1或DeepSeek-R1这类AI处理复杂问题时，就会生成数千个中间推理标记（tokens）。这些推理数据必须存储在某个地方。

以Qwen-32B模型为例，当上下文达到10,000个标记时，仅KV缓存占用的内存就与整个模型相当。而注意力机制的计算成本随上下文长度呈平方级增长——推理链越长，每个新标记的生成代价就越高。这正是当前推理模型遭遇的瓶颈。

现有解决方案多从外部入手：
• H2O根据注意力分数淘汰标记
• SepLLM保留标点符号处的标记
这些方法虽减少内存占用，却增加了延迟——H2O因需实时评估每个标记的淘汰价值，反而使推理速度降低51%-72%。

浙江大学团队另辟蹊径：他们不进行外部修剪，而是训练模型从内部自主管理记忆。由此诞生了LightThinker和LightThinker++两套系统。

基础版LightThinker工作原理：
每次推理步骤后，模型将完整思维压缩为7-9个特殊标记组成的精简表达，随后丢弃原始数据。后续推理基于压缩版本继续推进。通过定制注意力掩码设计，模型自主掌握压缩时机与方法。这如同AI在每一步后自动整理草稿，仅保留要点。

Qwen模型搭载LightThinker的实测效果：
→ 峰值标记用量：-70%
→ 推理时间：-26%
→ 准确率下降：仅1%
→ 同等内存预算下：速度提升2.5倍

这意味着用1%准确率代价换取70%内存节省，同时速度提升150%。但研究人员发现了局限：当面对真正复杂的推理时，不可逆压缩会导致问题。一旦思维被压缩，原始细节便永久丢失。模型若需回溯特定中间数值或逻辑步骤，将无能为力。

研究记录了一个典型案例：模型在中间步骤正确计算出14,000块巧克力，却因压缩过程中丢失了8,000这个关键数字，最终输出错误答案18,000。这种"信息蒸发"现象并非边缘案例，而是不可逆压缩的根本缺陷。

因此他们开发了LightThinker++。该系统赋予模型三项显式记忆操作：
> 提交（commit）：将推理步骤存档为摘要，同时保留原始版本可检索
> 展开（expand）：遭遇逻辑瓶颈时调取完整细节
> 折叠（fold）：提取所需信息后重新压缩

模型自主学习操作策略：
• 在MMLU等简单任务中，85.2%操作为直接提交
• 仅5.8%操作涉及展开/折叠
• 在GPQA等高难度推理中，展开/折叠操作比例跃升至21.5%

LightThinker++的突破性表现：
→ 同等准确率下峰值内存降低69.9%
→ 严格上下文限制下准确率反升2.42%，同时内存节省45%
→ GPQA任务中准确率提升5.73%，峰值内存降低40.5%
→ 复杂任务实现15倍压缩率，简单任务8.6倍

反直觉发现：经过压缩的高信号上下文，表现优于未经管理的冗长上下文。更多上下文并不总是更好——充满噪声的中间推理反而损害模型表现。剔除噪声仅保留逻辑锚点，能让模型更有效聚焦关键信息。

在AI研究智能体的长程深度研究任务中，传统方法表现惨淡：普通智能体在50-60轮网页浏览后，上下文会膨胀至约100,000个标记，随即陷入"迷失中间"效应，开始幻觉输出并提前终止。而LightThinker++在80轮后仍能保持30,000-40,000标记，实现全程稳定维持60-70%的上下文缩减。

智能体基准测试对比（vs标准SFT基线）：
→ xBench-DeepSearch：通过率38.3%→44.0%
→ BrowseComp-ZH：31.5%→36.9%
→ BrowseComp-EN：16.0%→18.1%
→ 基线几乎全败的高难度实例：通过率提升3倍
→ 用2.5倍少的搜索动作达到基线峰值性能

随着任务难度和交互时长增加，差距持续扩大。传统智能体因信息冗余陷入瓶颈，而LightThinker++通过持续提纯信号保持进步——模型的推理寿命现在由任务复杂度决定，而非上下文爆炸。

这项研究更深层的启示在于对"思考成本"的重新定义。o1和DeepSeek-R1等模型的推理能力源自长链中间思维，但这些链条充满语言填充、冗余复述和为流畅性服务的修饰词。LightThinker++本质上剔除了流畅性保留逻辑核心，并在需要验证特定步骤时重新调取完整表达，这比以往任何方法都更接近人类工作记忆的运作方式。

对规模化部署推理模型的企业而言，其影响直接而深刻：KV缓存目前是生产部署中最昂贵的组件之一。峰值标记用量减少70%不仅是效率提升，更是成本结构的变革。而在严格上下文限制下准确率反而提升的事实表明，这甚至不是权衡取舍——我们同时获得了更优推理、更低成本与更小 footprint。

⏰ 17:57 | ❤️ 42点赞 | 📝 949词 | 查看原文 →

↑ 返回顶部

Ethan Mollick @emollick

博主简介加载中 | 影响力: 0万粉丝

💡 核心观点: 应规范但理性看待AI审稿，建议使用企业版或关闭训练功能。

可信度: 4/10 – 1项需进一步确认；2项为观点陈述

事实核查:

◦ 观点: 所有AI模型都会窃取你的数据是非常2023年的观点 (该声明是对AI数据隐私问题的主观评价，反映了作者对过去观点的看法，无具体事实依据或公开数据支持)
◐ 部分可验证: 应要求人们使用企业账户或关闭训练功能的模型 (部分可验证，因某些AI服务（如企业版ChatGPT）确实提供数据隔离或训练禁用功能，但具体实施规则需依赖平台政策，需进一步核实)
◦ 观点: 在同行评审中设置AI使用规则（包括披露）有非常合理的理由 (该声明为作者对AI监管必要性的主观判断，未提供具体证据或引用公开政策，属于观点性陈述)

原文内容:

在我所在领域的顶级期刊之一...

我认为对同行评审中的人工智能使用制定规则（包括披露要求）有非常充分的理由，但所谓"所有AI模型都会窃取你的数据"这种论调实在太过时了。完全可以要求人们使用企业账户或关闭训练功能的模型。

⏰ 09:20 | ❤️ 45点赞 | 📝 49词 | 查看原文 →

↑ 返回顶部

Ethan Mollick @emollick

博主简介加载中 | 影响力: 0万粉丝

💡 核心观点: GDPval-AA基准无效，应停止使用。

可信度: 6/10 – 1项声明可直接验证；2项需进一步确认

事实核查:

◐ 部分可验证: Artificial Analysis does a good job overall and provides transparency in benchmarking (需查看Artificial Analysis的公开报告或方法文档以验证其透明度和基准测试质量，但“good job”是主观评价，部分依赖用户信任。)
◐ 部分可验证: GDPval-AA is not a good benchmark and needs to stop being reported (需分析GDPval-AA的基准设计（如是否依赖Gemini 3.1评判其他模型）是否合理，但“not good”是主观判断，缺乏统一标准。)
✓ 可验证: Gemini 3.1 judges other models on GDPval’s public questions output, which tells us nothing (可通过检查GDPval-AA的官方文档或评测方法，确认是否使用Gemini 3.1作为评判工具及其逻辑是否合理。)

原文内容:

我认为"人工分析"整体表现良好，在基准测试方面提供了透明度，但GDPval-AA并非有效的基准指标，应当停止使用该数据报告。这个指标本质上是让Gemini 3.1模型根据GDPval公开问题的输出结果来评判其他模型，这种做法毫无参考价值。

⏰ 08:56 | ❤️ 85点赞 | 📝 47词 | 查看原文 →

↑ 返回顶部

Ethan Mollick @emollick

博主简介加载中 | 影响力: 0万粉丝

💡 核心观点: GDPval是重要AI能力基准，但需更好替代方案。

可信度: 8/10 – 1项声明可直接验证；3项需进一步确认；1项为观点陈述

事实核查:

◐ 部分可验证: GDPval是基于人类专业知识的AI能力重要基准，使用专家评委耗时约1小时评估每个答案 (需通过GDPval官方文档或OpenAI公开资料确认其评估流程（如评委资质、耗时标准），但“重要性”属主观判断，且“holdout问题未公开”部分不可直接验证。)
✓ 可验证: GDPval-AA使用公开数据集提问，并依赖Gemini 3.1而非人类专家评判LLM答案优劣 (若GDPval-AA方法论文或官方说明公开其评估框架（如评委模型、数据集来源），此声明可完全验证，但“与人类专家判断相关性低”需对比实验支持。)
◐ 部分可验证: GDPval-AA缺乏人类基线数据作为对比 (需检查GDPval-AA的公开文档或实验设计是否包含人类基准，但若未明确说明则无法完全验证。)

原文内容:

GDPval是衡量AI能力最重要的基准之一，因为它建立在人类专业知识的基础上。该基准通过专业人类评审员（平均花费一小时评估每个答案）将人类专家表现与AI表现进行对比，同时还包含未公开的保密测试题。

由于该基准运行成本极高且由OpenAI掌控，我理解寻找替代方案的必要性。但GDPval-AA并非理想选择。该方案让AI模型回答GPDval公开题库的问题，然后要求Gemini 3.1判断两个大语言模型的答案孰优孰劣——既无法确保其判断与人类专家的评估高度吻合，也缺乏可供比照的人类基准数据。

⏰ 09:04 | ❤️ 28点赞 | 📝 128词 | 查看原文 →

↑ 返回顶部

Ethan Mollick @emollick

博主简介加载中 | 影响力: 0万粉丝

💡 核心观点: 当前AI能力评估指标缺乏可信度且易被操纵。

可信度: 4/10 – 2项需进一步确认；1项为观点陈述

事实核查:

◐ 部分可验证: AI labs已开始展示其GDPval-AA分数 (需查询各AI实验室（如OpenAI、DeepMind等）的公开报告或技术文档，确认是否提及该评分标准，但“GDPval-AA”是否为通用术语尚不明确，可能需进一步定义。)
◦ 观点: GDPval-AA是一种极易被操纵（gameable）且表面效度低（low face validity）的指标 (该声明属于主观评价，需依赖专家对指标设计的具体分析或实证研究才能验证其客观性，目前无直接公开证据支持或反驳。)
◐ 部分可验证: 当前缺乏对AI能力的可信衡量标准 (可通过学术文献或行业报告（如AI指数报告）查证现有评估方法的局限性，但“可信”是主观判断，需结合具体场景定义。)

原文内容:

无论如何，我意识到没人在乎这些，所有AI实验室都开始炫耀他们的GDPval-AA分数了。但这个评分体系极易被操纵，表面效度极低，我们真正需要的是值得信赖的人工智能能力评估标准。

⏰ 09:05 | ❤️ 24点赞 | 📝 37词 | 查看原文 →

↑ 返回顶部

SemiAnalysis @semianalysis_

Art Director | Daily Image Drops | AI Explorer | Prompt & JSON & SREF share | 影响力: 0万粉丝

💡 核心观点: Sonnet 3能处理前端和底层技术，引发硅谷初创企业反思。

可信度: 6/10 – 1项声明可直接验证；1项需进一步确认；1项为观点陈述

事实核查:

✓ 可验证: 80% of startups in Silicon Valley are rethinking everything right now. (该声明涉及“硅谷80%初创公司”的未公开统计数据，缺乏具体调查来源或公开报告支持，无法通过公开渠道直接验证。)
◐ 部分可验证: Sonnet 3 can do the hard stuff like kernels and compilers. (关于Sonnet 3的功能（如支持kernels和compilers）可通过其官方文档或技术演示部分验证，但需实测确认实际性能是否与描述一致。)
◦ 观点: People questioned whether Sonnet 3 could handle hard tasks after its release. (该声明描述的是“人们”的主观反应，属于推测性或总结性观点，无具体调查或数据支撑。)

原文内容:

硅谷80%的初创公司此刻正在全面反思。当Sonnet 3问世时，人们不断追问：它固然能处理前端，但能否胜任硬核任务？内核开发？编译器构建？事实证明答案是可以。

⏰ 09:00 | ❤️ 31点赞 | 📝 35词 | 查看原文 →

↑ 返回顶部

Aakash Gupta @aakashgupta

博主简介加载中 | 影响力: 0万粉丝

💡 核心观点: Anthropic绕过微软直接接入Word，摆脱其控制。

可信度: 10/10 – 3项声明可直接验证；2项需进一步确认

事实核查:

✓ 可验证: Microsoft added Claude as a model option inside Copilot earlier this year (可通过Microsoft或Anthropic的官方公告、产品更新日志或Copilot功能页面直接验证模型选项的添加情况)
◐ 部分可验证: Claude for Word allows direct Claude Pro subscription users to use the service natively inside Word without a Copilot license (需实测或查看Anthropic/Microsoft的官方文档确认Word集成细节（如权限、功能范围），但部分信息（如订阅独立性）可能已公开)
✓ 可验证: Microsoft 365 has 345 million paid seats globally (Microsoft官方财报或公开业务报告中通常会披露付费用户数据，可直接核对)

原文内容:

Anthropic刚刚在Microsoft Word中搭建了一条直达分发渠道，完全绕开微软体系。

今年早些时候，微软将Claude添加为Copilot内部的模型选项之一。这使得Anthropic与OpenAI和谷歌并列，但微软始终掌控着用户关系、模型调度和计费流程。在Copilot体系内，用户向微软付费，微软决定每个查询由哪个模型处理——Anthropic只是他人货架上的供应商。

而Word版Claude彻底改变了这一局面。任何直接订阅Claude Pro的用户，现在能以原生方式在Word中使用该服务，享受红线批注、评论和全文档上下文理解功能，每月20美元的订阅费不变且无需Copilot许可。Anthropic保有用订阅户关系，微软继续收取Office费用，只是顶层的AI计费层转移给了Anthropic。

全球有3.45亿付费的Microsoft 365席位，Copilot企业版还需在每个席位基础上额外收取30美元/月。微软最初向首席财务官们推销的核心卖点是：Copilot是Word文档内使用AI的唯一途径。但对于已订阅Claude的用户，这个说法已不成立。

这已是Anthropic第三次采用相同策略：Claude Code绕过IDE插件市场直达开发者终端；Chrome版Claude作为浏览代理避开谷歌的Gemini集成；如今Word版Claude又以原生插件形式避开Copilot。每次都是相同模式：直达用户现有工作场景，利用平台原生扩展性，在应用层之上保持独立订阅体系。

微软三月份允许Claude进入Copilot的决定，为"Claude入驻Word"的概念做了铺垫。仅一个月后，Anthropic就推出了自带计费系统的直达版本。当基础模型成为用户自主订阅的服务时，每个生产力应用都变成了可嵌入的界面。

今天落地Word，Excel已在测试，Chrome率先上线——每个主要工作界面都是Claude的分发渠道，而统一的Claude订阅则覆盖所有场景的计费关系。

⏰ 08:26 | ❤️ 64点赞 | 📝 338词 | 查看原文 →

↑ 返回顶部

klöss @kloss_xyz

博主简介加载中 | 影响力: 0万粉丝

💡 核心观点: Claude设计产品不及Gemini，Figma仍受专业设计师青睐。

可信度: 10/10 – 2项声明可直接验证；2项需进一步确认；1项为观点陈述

事实核查:

◐ 部分可验证: Claude推出的设计产品存在设计缺陷，而Google的设计更好 (可通过对比Claude和Google产品的UI/UX设计（如公开截图或用户评测）部分验证，但“设计缺陷”和“10x更好”属于主观判断，需具体案例支持。)
◐ 部分可验证: Gemini目前在设计领域表现最佳，其图像/视频模型（Nano Banana和VEO）表现优异 (可通过测试Gemini与Claude的生成结果对比验证性能，但“最佳”和“goated”需依赖用户实测数据或基准测试，且模型名称（如Nano Banana）需确认是否为公开术语。)
✓ 可验证: Claude设计功能需依赖现有设计系统，否则会生成低质量内容 (可通过官方文档或实测验证功能是否依赖预设设计规范，但“AI slop”为主观描述。)

原文内容:

关于此事的几点思考：

1. 这不过是新界面+子代理+技能+工作流的组合。Anthropic，你们骗不了真正的设计师。

2. 任何宣称"Figma已死"的人都不值得信任。顶尖设计师仍在用它。

3. Claude在自家应用充满设计缺陷时推出设计产品颇具讽刺——谷歌的设计领先十倍。日常使用前沿模型的AI创作者会告诉你，目前Gemini在设计领域表现最佳。其图像视频模型Nano Banana和VEO堪称顶尖。我亲自测试后结论相同。想和谷歌Stitch竞争？勇气可嘉。

4. 该Claude功能仅在已有成熟设计体系和参考时才有效，否则只会批量生成AI垃圾。

5. 我一个月前就用OpenClaw实现了这个功能，且完成度远超Claude Design。

6. 设计师完全可以从Claude提取这些技能与子代理构建更好版本。但多数人不会通过SaaS与AI巨头竞争，承接设计委托才是更稳妥的盈利之道。

我昨天刚发布相关演示视频…今天Claude就官宣了。

当下大多数人都不敢发布或构建任何产品。
现在你明白原因了。

⏰ 08:18 | ❤️ 42点赞 | 📝 216词 | 查看原文 →

↑ 返回顶部

Santiago @svpino

博主简介加载中 | 影响力: 0万粉丝

💡 核心观点: 过度追捧代理化需回归工程常识与合理设计。

可信度: 6/10 – 1项声明可直接验证；2项需进一步确认；1项为观点陈述

事实核查:

◦ 观点: “Agentic everything” is the new “microservices everywhere” (该声明是对技术趋势的主观类比，缺乏客观数据或行业共识支持，属于个人观点表达。)
◐ 部分可验证: “If you can rewrite the entire flow using code, then you should use code” (该建议基于工程实践原则，可通过技术场景实测验证其合理性，但具体适用性依赖上下文（如开发成本、维护性等），无法完全客观量化。)
◐ 部分可验证: “If you need execution, you should write reliable functions, not use LLMs” (该主张可通过对比传统函数与LLM在确定性任务中的性能/可靠性验证，但需具体案例支撑（如基准测试），且“可靠”定义可能因场景而异。)

原文内容:

"万物代理化"正成为新一代的"遍地微服务"。

现在，人人都想把所有东西都变成代理。

（我甚至见过有人把for循环称为"代理化"...老兄，认真的吗？）

我们终究要回归常识和优良的工程准则。

这两个问题能帮我区分真诚与炒作：

1. 英语是你应用的核心交互方式吗？如果整个流程都能用代码重写，那就该用代码实现。

2. 你的应用需要推理能力，还是仅需执行？若只需执行，就该编写可靠函数，而非使用大语言模型。

⏰ 20:05 | ❤️ 139点赞 | 📝 93词 | 查看原文 →

↑ 返回顶部

Anthony Pompliano 🌪 @apompliano

博主简介加载中 | 影响力: 0万粉丝

💡 核心观点: Silvia的Radar功能可自定义监控财务事项并发送提醒。

可信度: 8/10 – 2项声明可直接验证；1项需进一步确认

事实核查:

◐ 部分可验证: @cfosilvia的Radar功能允许用户创建自定义通知，并通过邮件或短信发送 (可通过官网（http://cfosilvia.com）验证功能是否存在，但需实际注册或测试以确认具体操作流程和通知发送方式。)
✓ 可验证: Silvia提供了8项个性化Radar建议（如“现金拖累监控”“信用卡余额提醒”等），基于用户投资组合和财务生活 (推文称建议为“个性化”，但未提供具体数据或案例证明其生成逻辑，且无法通过公开渠道验证其与用户个人财务的关联性。)
✓ 可验证: 用户可通过http://cfosilvia.com获取自己的Radar设置 (链接为公开官网，可直接访问并查看功能入口，但实际功能效果需进一步实测验证（如是否需付费等）。)

原文内容:

我最喜欢@cfosilvia的一个功能就是雷达监控。

它能让你为任何事项创建自定义提醒。只需告诉Silvia发送邮件或短信，她就会持续为你监控各项动态。

（试试看：http://cfosilvia.com）

我向Silvia咨询了最值得设置的监控项，以下是她的建议：

1. 集中度风险警报
2. 现金拖累监控
3. 信用卡余额提醒
4. 净资产变动追踪
5. 订阅服务审计
6. 大额交易监控
7. 税损收割提醒
8. 波动率/VIX指数飙升预警

这些建议是根据我的投资组合和财务状况量身定制的。

你可以在这里设置专属监控：http://cfosilvia.com

⏰ 08:06 | ❤️ 30点赞 | 📝 106词 | 查看原文 →

↑ 返回顶部

Artificial Analysis @artificialanlys

Independent analysis of AI | 影响力: 0万粉丝

💡 核心观点: Claude Opus 4.7与GPT-5.4和Gemini 3.1 Pro并列AI榜首。

可信度: 9/10 – 2项声明可直接验证；2项需进一步确认

事实核查:

◐ 部分可验证: Claude Opus 4.7与GPT-5.4、Gemini 3.1 Pro并列Artificial Analysis Intelligence Index榜首，并在GDPval-AA基准测试中领先 (需查阅Artificial Analysis官方发布的Intelligence Index报告和GDPval-AA基准测试结果，但若相关数据未完全公开或需付费访问，则只能部分验证。)
◐ 部分可验证: Claude Opus 4.7在Artificial Analysis Intelligence Index中得分为57分，比Opus 4.6高4分 (分数变动需对比官方历史数据，但若测试方法或版本差异未公开（如”Adaptive Reasoning, Max Effort”的具体定义），则无法完全验证。)
✓ 可验证: Anthropic在GDPval-AA（44种职业和9大行业的代理基准测试）中领先，Google在知识科学类测试领先，OpenAI在长程编程测试领先 (需验证GDPval-AA等基准测试的具体设计、覆盖范围和结果，但行业基准通常涉及未公开的专有数据集或评估标准，普通用户难以独立验证。)

原文内容:

Claude Opus 4.7与GPT-5.4和Gemini 3.1 Pro并列人工智能分析指数榜首，并在衡量通用智能体能力的核心基准GDPval-AA中保持领先。

Claude Opus 4.7在人工智能分析指数中获得57分，较Opus 4.6（自适应推理、最大效能，53分）提升4分。这创造了人工智能分析史上最激烈的并列纪录：三大前沿实验室的模型首次以相同分数共享榜首。

Anthropic在现实世界智能体任务中领先，其GDPval-AA基准测试覆盖44种职业和9大行业。谷歌在知识与科学推理领域占据优势，领跑HLE、GPQA Diamond、SciCode、IFBench和AA-Omniscience测试。OpenAI则主导长周期编码与科学推理，在TerminalBench Hard、CritPt和AA-LCR中表现最佳。

我们的智能指数采用95%置信区间（±1分）校准并取整。Opus 4.7精确得分57.3分虽位列第一，但建议视为与Gemini 3.1 Pro（57.2分）和GPT-5.4（56.8分）并列。以下所有结果均基于最大效能模式（自适应推理、最大效能）评估，与Opus 4.6的测试标准一致。

核心发现：

➤ Opus 4.7在知识型任务通用智能体性能核心指标GDPval-AA中以1753 Elo分成为新晋冠军，较次优模型Claude Sonnet 4.6（自适应推理、最大效能，1674分）和GPT-5.4（xhigh模式，1674分）领先79分，较Opus 4.6（1619分）提升134分。该基准通过开源智能体框架Stirrup测试模型在工具调用与网络浏览中的表现

➤ Opus 4.7凭借幻觉率下降（非准确率提升）在人工智能全知指数中位列第二（次于Gemini 3.1 Pro）。其得分26分较Opus 4.6（14分）提升12分，幻觉率降低25个百分点至36%（Opus 4.6为61%），通过将作答率从82%降至70%实现

➤ Opus 4.7以少35%的输出token消耗（1.02亿vs 1.57亿）实现智能指数4分提升，效率优于GPT-5.4（1.21亿）但低于Gemini 3.1 Pro（5700万）

➤ 相较Opus 4.6，Opus 4.7在IFBench（+5.5%）、TerminalBench Hard（+5.3%）、HLE（+2.9%）、SciCode（+2.6%）和GPQA Diamond（+1.8%）均有进步，仅τ²-Bench出现小幅回落（-3.5%），LCR与Critpt保持持平

➤ Opus 4.7运行智能指数测试成本约4406美元，较Opus 4.6（4970美元）降低11%，这归功于输出token减少及新版分词器优化（未计入输入token缓存折扣）

➤ 定价维持不变：输入/输出token每百万5/25美元

Anthropic同步推出的API更新：

➤ 新增"xhigh"推理强度（介于high与max之间），现有模式：low/medium/high/xhigh/max

➤ 推出任务预算功能（公测阶段）：为完整智能体循环（思考/工具调用/结果处理/输出）设置token预算，模型可动态调整工作优先级

➤ 彻底移除扩展思考模式，自适应推理成为唯一选项

关键参数：
➤ 上下文窗口：100万token（不变）
➤ 最大输出：12.8万token（不变）
➤ 接入渠道：Anthropic API/亚马逊Bedrock/微软Azure/谷歌Vertex，及Claude系列应用

⏰ 08:05 | ❤️ 287点赞 | 📝 674词 | 查看原文 →

↑ 返回顶部

Aakash Gupta @aakashgupta

博主简介加载中 | 影响力: 0万粉丝

💡 核心观点: Salesforce转向无界面API模式，按席位收费模式已过时。

可信度: 10/10 – 2项声明可直接验证；2项需进一步确认；1项为观点陈述

事实核查:

✓ 可验证: Salesforce的年收入接近400亿美元，主要来自每用户许可证费用，范围从25美元/用户/月到550美元/用户/月。 (Salesforce的官方财报和定价页面公开了其收入和许可证费用结构，可直接验证。)
◐ 部分可验证: Salesforce的Agentforce处理了38万+客户支持互动，其中84%完全无需人工介入，仅2%需要升级。 (Salesforce可能在其官方案例研究或博客中提及此类数据，但需具体来源确认；若为内部报告，则可能无法完全公开验证。)
✓ 可验证: Salesforce销售工程师报告称，90个企业客户中观察到10%的席位减少。 (该声明引用未具名的销售工程师和未公开的客户数据，缺乏公开来源支持。)

原文内容:

贝尼奥夫刚刚宣告了按席位收费的SaaS模式已死，但市场仍在沿用人工登录时代的估值逻辑给Salesforce定价。

这家年收入近400亿美元的公司，其收入几乎全部来自25美元/用户/月（基础版）到550美元/用户/月（Agentforce 1销售版）的分级用户许可。整个营收模型都建立在人工操作界面的前提上。"无界面360"的推出正式承认：人工登录已成非必选项。"我们的API就是用户界面"意味着智能代理无需占用席位。一个代理就能以不到二十分之一的成本取代二十名人工。

Salesforce内部部署案例揭示了未来图景：他们的Agentforce处理了38万多次客服交互，其中84%完全无需人工介入，仅2%需要升级处理。一位销售工程师证实，当前90个企业客户中已出现10%的席位缩减——这不是假设，而是现实。SaaStr的杰森·莱姆金已在全面下调合作厂商的席位配额，其部署的12个以上智能代理正在接手原属人类的工作。

这正是Agentforce定价策略18个月内三次急转的原因：2024年9月2美元/对话的定价引发反弹，2025年5月0.1美元/动作的弹性积分又带来预测难题。2025年底通过AELA重新引入550美元/用户的许可模式，只因企业客户需要预算可控性。三种定价模型并行，暴露出Salesforce对价值计量单位的迷失。

微软正押注相反方向。尽管AI正在削减人力，他们仍计划在2026年7月提高每席位Copilot定价，赌的是席位涨价速度能快于客户减席速度。但Salesforce无法效仿——帕克·哈里斯已公开宣称"今后根本无需登录系统"。

股价仍按席位经济学交易，产品却明确绕过席位设计。当下一季财报首次出现席位负增长时，这个估值裂痕终将弥合。

⏰ 23:22 | ❤️ 335点赞 | 📝 290词 | 查看原文 →

↑ 返回顶部

Aakash Gupta @aakashgupta

博主简介加载中 | 影响力: 0万粉丝

💡 核心观点: 善用AI的员工比AI本身更具价值。

可信度: 6/10 – 1项声明可直接验证；1项需进一步确认；2项为观点陈述

事实核查:

✓ 可验证: 创始人尝试用AI代理替代部分团队成员但失败了 (该声明基于个人经验和未公开的团队内部尝试，缺乏具体数据或第三方验证来源。)
◐ 部分可验证: 擅长使用AI的员工效率显著提升（10倍），且比普通员工更具价值 (效率提升的具体数据（如10倍）需依赖内部绩效对比，但“AI提升效率”这一趋势可通过行业案例（如AI工具研究报告）部分验证。)
◦ 观点: 当前优势在于快速学习AI前沿知识，需跟随特定领域专家（如Greg Eisenberg等） (关于“优势来源”和“应跟随谁”是主观建议，无客观标准；所列专家是否具备权威性需独立调查，但无统一验证标准。)

原文内容:

坦白说：我曾以为自己能用AI代理取代部分团队成员。

我不断尝试。却屡屡失败。

作为创始人的真实观察是：那些最善用AI的员工正变得比以往更高效。一个能借助AI实现十倍效能、用得比我更娴熟、还能指导我方法的优秀员工，其价值远超当下能招聘到的任何人。

多数员工尚未意识到这点。只有CEO和创始人看得明白。技术前沿的迭代速度如此之快，使得那些学得最快的人正将团队其他成员远远甩开。

当下的核心竞争力就在于站上AI学习的最前沿。

实现路径是追随少数真正实践并提炼精髓的先行者。我关注的名单包括：格雷格·艾森伯格、莱利·布朗、莱尼·拉奇茨基、卡尔·维拉蒂、汉娜·斯图尔伯格、鲁本·哈西德、帕维尔·胡林。

无效模式是每天刷三小时X（推特）吸收信息噪音。制胜模式则是从信任的实践者那里获取少量高价值摘要——他们替你测试最新工具。

这就是为什么我把大部分时间转向使用最新工具并提炼真正有效的方法。

关键结论：善用AI的人才需求正在激增而非萎缩。Excel时代如此，计算机革命亦然。早期掌握这些工具的人获得了高薪职位。

成为那个十倍效能的员工。或者雇佣这样的人。

⏰ 07:32 | ❤️ 89点赞 | 📝 260词 | 查看原文 →

↑ 返回顶部

# x每日奏折