【AI 英文奏折】05月28日

x每日奏折2个月前发布 tianming

193 0 0

【AI 英文奏折】2026年05月28日

共收录 15 篇深度内容

📋 今日内容速览

快速浏览，点击感兴趣的推文查看详细分析

Rohan Paul: 语言代理定期休眠整合记忆可提升长期表现。
Amira Zairi: AI视频的关键在于可控创作，故事板先行提升精准性。
Rohan Paul: 技术进步提升效率而非减少就业。
Rohan Paul: 提升工程师效率十倍以开发更多软件。
Heather Cooper: Gemini Omni Flash能通过多视角生成激发创作灵感。
Rohan Paul: DeepSWE以原创任务和严格评估揭示主流AI编码模型的真实差距。
Rohan Paul: AI垃圾内容虚假运行，实效技术才是关键。
Rohan Paul: AI推动内存需求激增，美光因HBM技术成万亿美元企业。
Rohan Paul: Genspark AI 5.0升级：速度快5倍、百种技能、数据分析、风格保留。
TechHalla: Gemini Omni能用地图生成中土世界虚拟导览视频。
Rohan Paul: Codex通过分析芯片照片精准修复MP3播放器固件问题。
Google Gemini: 谷歌邀请用户参与Discord活动，了解Gemini新工具并互动。
Rohan Paul: AI代理Devin推动Cognition估值飙升，实现商业化突破。
Rohan Paul: AI税务代理通过自我改进实现97%准确率并提升效率。
Pierrick Chevallier | IA: 春丽肖像左右分屏呈现复古像素与超现实主义的跨时代对比。

📖 详细内容

Rohan Paul @rohanpaul_ai

Compiling in real-time, the race towards AGI. The Largest Show on X for AI. | 影响力: 0万粉丝

💡 核心观点: 语言代理定期休眠整合记忆可提升长期表现。

可信度: 10/10 – 2项声明可直接验证；2项需进一步确认；1项为观点陈述

事实核查:

◐ 部分可验证: 长期运行的语言代理如果定期停下来整合记忆，可能会表现得更好 (可通过论文实验数据验证该假设，但需实际复现实验或依赖作者提供的具体性能指标（如准确率、推理深度等），且结果可能因任务而异。)
✓ 可验证: 添加“睡眠阶段”后，模型通过离线遍历将有用信息写入固定大小的记忆层，从而避免注意力缓存膨胀 (论文中详细描述了该方法的技术实现（如快速权重更新、缓存清除机制），并提供了实验对比（如GSM-Infinite任务），可通过公开论文直接验证。)
◐ 部分可验证: 更长的睡眠时间会改善性能，尤其在需要深度推理的任务中 (论文中展示了睡眠时长与任务性能的关联性数据，但“深度推理”的定义和普适性需进一步实验验证（如是否适用于其他任务类型）。)

原文内容:

长期运行的语言代理如果定期停下来整合记忆，可能会表现得更好。

问题是，今天的 Transformer 代理随着上下文的增长而变得越来越慢且成本更高，因为注意力机制必须不断检查更多的过去标记。

处理长上下文的常见方法是保留更多附近的标记，但这会将每个下一个标记的预测变成对过去的更大范围搜索。

这里更巧妙的想法是，记忆不仅仅是存储。

有时候，困难的部分是将一段杂乱的经验转化为稍后实际可用的状态。

因此，这篇论文的想法是添加一个睡眠阶段，在这个阶段模型会暂停，多次重读最近的上下文，将有用信息写入固定大小的记忆层，然后清除短期注意力缓存。

在睡眠期间，模型会对最近的上下文运行几次离线遍历，将结果写入其状态空间块中的快速权重，然后清除注意力缓存。

这意味着模型在睡眠时支付额外的计算成本，而不是在回答时，因此正常的预测仍然可以用一次前向传播来完成。

作者在元胞自动机、图查找以及 GSM-Infinite 数学问题上测试了这一点，在这些问题中，模型必须使用不再存在于其注意力缓存中的旧信息。

主要结果是，更长的睡眠会改善性能，尤其是在需要更深入推理而不仅仅是记住事实的更困难案例中。

最大的意义在于，长视野代理可能不需要永远携带越来越大的原始上下文，因为它们可以整合重要部分并安全地忘记原始标记。

----

链接 – arxiv.org/abs/2605.26099

标题：“语言模型需要睡眠”

⏰ 10:02 | ❤️ 20点赞 | 📝 488字 | 查看原文 →

↑ 返回顶部

Amira Zairi @azed_ai

AI Educator & Creator | Ambassador @Adobe @LeonardoAi & @tripoai | Partner with leading brands | Collaboration → [email protected] | 影响力: 57.13k万粉丝

💡 核心观点: AI视频的关键在于可控创作，故事板先行提升精准性。

可信度: 5/10 – 2项需进一步确认；2项为观点陈述

事实核查:

◐ 部分可验证: @TopviewAIhq Canvas 为创作者提供以故事板为先的工作空间 (需访问官方平台或产品演示，确认是否存在故事板功能及具体交互逻辑，但未提供直接链接或功能截图。)
◐ 部分可验证: 该工具允许用户规划序列并用AI代理精炼每个场景，最终转化为视频 (需实测或查看官方文档验证AI代理的具体功能（如场景优化、视频生成流程），但推文未提供操作案例或技术细节。)
◦ 观点: 使用该工具可避免盲目提示，生成前预览故事 (属于主观效率宣称（如“不再盲目提示”），实际效果依赖用户操作习惯，无客观数据证明其普适性优势。)

原文内容:

AI 视频的最大问题从来都不是质量

而是控制，@TopviewAIhq Canvas 通过为创作者提供一个以故事板为先的工作空间来改变这一切，在这个空间里，他们可以规划序列，用 AI 代理精炼每个场景，然后将整个愿景转化为视频

不再盲目提示并希望输出能理解你的意思

在生成之前，你就能看到故事

⏰ 23:57 | ❤️ 24点赞 | 📝 110字 | 查看原文 →

↑ 返回顶部

Rohan Paul @rohanpaul_ai

Compiling in real-time, the race towards AGI. The Largest Show on X for AI. | 影响力: 0万粉丝

💡 核心观点: 技术进步提升效率而非减少就业。

可信度: 6/10 – 1项声明可直接验证；1项需进一步确认；2项为观点陈述

事实核查:

◦ 观点: 人工智能不会消除25%的工作岗位 (这是戴维·M·所罗门对人工智能影响的个人预测，属于主观观点，缺乏具体数据或公开研究支持其比例（25%）的准确性。)
◐ 部分可验证: 第一年银行分析师制作股票表现图表的时间从6小时缩短到几秒钟 (技术进步（如数字化工具替代缩微胶片）确实大幅提升效率，但具体时间对比（6小时→几秒）需依赖历史工作流程记录或行业研究，可能无法直接验证。)
✓ 可验证: 高盛近年来雇佣了比以往任何时候都要多的人 (可通过高盛公开的年度财报或招聘数据核实员工数量变化，但需明确“近年来”的具体时间范围。)

原文内容:

高盛首席执行官戴维·M·所罗门在《纽约时报》上表示

“人工智能不会消除25%的工作岗位。更有可能的是，人们将找到更高效的方式来利用他们的时间。

当我还是银行分析师的第一年时，制作一张股票表现图表这么简单的事情，需要花六个小时查阅《华尔街日报》过刊在缩微胶片上的价格。

如今，第一年分析师可以在几秒钟内完成这项工作，而且我们近年来雇佣了比以往任何时候都要多的人。随着更精密工具的出现，我们工作的复杂性自然会随之增加。

尽管有了Excel、电子邮件或Zoom的便利，我们中的任何人会觉得如今要做的事情变少了么？”

⏰ 17:05 | ❤️ 148点赞 | 📝 215字 | 查看原文 →

↑ 返回顶部

Rohan Paul @rohanpaul_ai

Compiling in real-time, the race towards AGI. The Largest Show on X for AI. | 影响力: 0万粉丝

💡 核心观点: 提升工程师效率十倍以开发更多软件。

可信度: 8/10 – 2项声明可直接验证；1项需进一步确认；1项为观点陈述

事实核查:

◐ 部分可验证: 当今世界有大约 3000-3500 万名软件工程师。 (全球软件工程师数量可通过行业报告（如IDC、Gartner等）或专业机构（如IEEE、Stack Overflow年度调查）估算，但不同统计口径可能导致数据差异，且动态变化需定期更新。)
✓ 可验证: Cognition 的收入在 1 年内从 3700 万美元攀升至约 5 亿美元。 (公司收入数据可通过官方财报、SEC文件（若为上市公司）或权威媒体报道（如彭博社原文）直接验证，但需确认是否为公开披露的审计后数据。)
◦ 观点: Cognition 希望让每位软件工程师效率提升 10 倍，并认为还有超过 10 倍的软件需要开发。 (此为愿景陈述，涉及主观目标（效率提升）和市场潜力判断（软件需求），无客观标准或即时数据支撑。)

原文内容:

“当今世界有大约 3000-3500 万名软件工程师。我们希望让他们每个人效率提升 10 倍，然后我们认为还有超过 10 倍的软件需要开发。”

~ Cognition 首席执行官 Scott Wu 谈论他们今天 10 亿美元的融资。

他们的收入在 1 年内从 3700 万美元攀升至约 5 亿美元。

----

来自“Bloomberg Technology” YouTube 频道，（链接在评论中）

⏰ 07:40 | ❤️ 32点赞 | 📝 93字 | 查看原文 →

↑ 返回顶部

Heather Cooper @hbcoop_

Privacy-first AI research tool with access to ChatGPT, Grok, Claude, Gemini and DeepSeek in one app. Try it at https://t.co/7C2QxQNem1 (by @pnegahdar and @trungtphan) | 影响力: 0万粉丝

💡 核心观点: Gemini Omni Flash能通过多视角生成激发创作灵感。

可信度: 8/10 – 2项声明可直接验证；1项需进一步确认

事实核查:

◐ 部分可验证: Gemini Omni Flash on Google Flow支持通过Agent模式生成基于上传图片的不同视角和视频 (需实测或查看官方文档确认Gemini Omni Flash是否具备此功能，但“Agent模式”和“生成不同视角”的描述可能对应具体技术功能，若平台公开相关案例则可部分验证。)
✓ 可验证: 用户通过Gemini Omni Flash生成的内容帮助进一步开发故事创意 (此声明依赖个人主观体验（“gave me more ideas”），无法通过公开信息验证其真实性或效果。)
✓ 可验证: Gemini Omni Flash提供多种实验和探索创意的途径 (若平台宣传或文档提及“多途径创意探索”功能（如生成视频、多视角等），可部分验证；但“so many ways”属模糊表述，需具体功能支撑。)

原文内容:

在Google Flow平台上，通过Gemini Omni Flash功能，您能以多种方式尝试和探索创意灵感。

我启用了智能体模式，基于上传的参考图像，要求生成这个极具独特性、充满视觉冲击力的城市环境的多组特写视角。

系统为每个新构思生成了不同角度的画面与动态视频。这让我在深化故事创作时获得了更丰富的灵感启发。

⏰ 00:10 | ❤️ 30点赞 | 📝 65词 | 查看原文 →

↑ 返回顶部

Rohan Paul @rohanpaul_ai

Compiling in real-time, the race towards AGI. The Largest Show on X for AI. | 影响力: 0万粉丝

💡 核心观点: DeepSWE以原创任务和严格评估揭示主流AI编码模型的真实差距。

可信度: 8/10 – 1项声明可直接验证；4项需进一步确认

事实核查:

◐ 部分可验证: Datacurve推出DeepSWE，这是一个更具挑战性的编码基准，旨在揭示领先模型的真正差距 (可通过Datacurve的官方公告或论文（若公开）验证其存在和设计目标，但需确认其具体实现细节和测试方法是否如描述一致。)
◐ 部分可验证: GPT-5.5在DeepSWE上达到70%，而GPT-5.4为56%，Claude Opus 4.7为54%，揭示了旧基准中被掩盖的差距 (需依赖Datacurve公开的测试报告或复现实验验证分数真实性，但若测试数据或模型版本未公开则无法完全验证。)
✓ 可验证: DeepSWE使用原创任务，模型在训练期间不太可能见过答案，而旧基准常重用公共GitHub问题 (可通过对比DeepSWE任务库与旧基准（如SWE-bench）的公开数据来源验证其原创性主张。)

原文内容:

Datacurve 推出 DeepSWE，这是一个更具挑战性的编码基准，旨在揭示领先模型的真正差距。

GPT-5.5 达到 70%，而 GPT-5.4 达到 56%，Claude Opus 4.7 达到 54%，这揭示了旧基准测试中被掩盖的差距。

这是一个长时程软件工程基准。

- DeepSWE 与旧编码基准的不同之处在于考试来源：旧测试往往重用公共 GitHub 问题和 PR，而 DeepSWE 使用原创任务，因此模型在训练期间不太可能见过答案。

- 即使提示更短，这项工作规模也更大，因为旧测试往往告诉模型要触及哪个领域，而 DeepSWE 要求代理搜索仓库、理解设计、编辑多个文件，并避免破坏旧行为。

在 DeepSWE 上，提示长度是 SWE-bench Pro 的一半，但解决方案需要 5.5 倍的代码和约 2 倍的输出令牌。

- 评分方式也不同，因为许多旧基准重用来自一个合并 PR 的测试，而 DeepSWE 检查请求的行为是否真正有效，即使模型以不同的有效方式解决了它。

⏰ 04:44 | ❤️ 26点赞 | 📝 262字 | 查看原文 →

↑ 返回顶部

Rohan Paul @rohanpaul_ai

Compiling in real-time, the race towards AGI. The Largest Show on X for AI. | 影响力: 0万粉丝

💡 核心观点: AI垃圾内容虚假运行，实效技术才是关键。

可信度: 10/10 – 2项声明可直接验证；2项需进一步确认；1项为观点陈述

事实核查:

◦ 观点: AI“垃圾内容”的争论本质是软件是否真正运行而非假装运行的争论 (这是Alex Karp对AI内容争议的主观解读，属于个人观点，无客观标准验证其定义或边界。)
◐ 部分可验证: “因为垃圾内容，工作岗位将消失”或“一切都将失效”等说法是夸张且危险的修辞 (此类说法是否普遍存在可通过媒体报道或公开讨论验证，但“危险”性属于主观判断，需结合具体语境分析。)
◐ 部分可验证: 真正有效的平台是由长期被误解的高技术人员构建的（如Foundry和Apollo） (Palantir的Foundry和Apollo平台的技术影响可通过企业案例或用户反馈部分验证，但“被误解”和“真正有效”属于主观评价。)

原文内容:

Palantir 首席执行官 Alex Karp 抨击 AI 垃圾内容。

关于 AI“垃圾内容”的争论，实际上是关于软件是在真正运行，还是仅仅在假装运行的争论。

“软件看起来在运行，并不等于软件真的在运行。而那些备受关注的垃圾内容，不仅在夸张的修辞上很危险，还体现在诸如‘因为垃圾内容，工作岗位将消失’或‘一切都将失效’之类的说法上，而与此同时，我们却会以 AI 的名义拥有一位神一般的存在。

事实上，真正有效的，是由一群杂牌军般的高技术人员构建的平台，他们在过去 20 年里，因为正确认识到构建 Foundry 和构建 Apollo 的本质而饱受诟病。”

----

软件过去是以直白的方式失败的：崩溃、错误数字、缺失按钮，或者一个干脆停止的流程。

生成式系统往往以更具诱惑力的方式失败，它们生成流畅的表面，看起来像是工作成果，直到它们遇到权限、边缘情况、审计追踪、安全性、责任归属以及不断变化的人类意图这个顽固的世界。

---

摘自“Palantir” YT 频道，完整链接见评论。

⏰ 16:59 | ❤️ 263点赞 | 📝 321字 | 查看原文 →

↑ 返回顶部

Rohan Paul @rohanpaul_ai

Compiling in real-time, the race towards AGI. The Largest Show on X for AI. | 影响力: 0万粉丝

💡 核心观点: AI推动内存需求激增，美光因HBM技术成万亿美元企业。

可信度: 10/10 – 2项声明可直接验证；2项需进一步确认；1项为观点陈述

事实核查:

✓ 可验证: 美光成为一家市值1万亿美元的企业 (可通过公开股票市场数据或财经新闻（如CNBC、Bloomberg）验证美光的当前市值。)
✓ 可验证: 美光12个月前的市值为700亿美元 (可通过历史股票数据或财经平台（如Yahoo Finance）查询美光过去12个月的市值记录。)
◐ 部分可验证: 瑞银研究将美光的目标价从535美元上调至1625美元 (需查阅瑞银发布的公开研究报告或相关财经新闻确认目标价调整，但部分报告可能需付费或权限访问。)

原文内容:

美光，这家为AI制造内存的公司，刚刚成为一家市值1万亿美元的企业，因为AI的下一个短缺是内存，而不是模型。

12个月前，它的市值仅为700亿美元。

GPU吸引了最多的关注，但HBM已成为让它们保持有用性的关键部件。

AI代理正在使内存成为AI的新瓶颈，因为当数据无法快速到达芯片时，最聪明的系统也毫无用处。

高带宽内存，或HBM，紧邻加速器并以极高速度为其提供数据，这就是为什么它已成为AI增长背后隐秘的制约因素之一。

旧的半导体故事是关于谁拥有最好的逻辑芯片。

新的故事是关于整个机器是否能让数据以足够快的速度流动，以支持代理式AI、大型模型和推理密集型工作负载。

瑞银研究还将美光的目標价从535美元上调至1625美元，因为与部分固定定价的长期供应协议可能使内存收益的周期性低于以往。

---

cnbc. com/amp/2026/05/26/micron-stock-trillion-market-cap.html

⏰ 15:16 | ❤️ 37点赞 | 📝 281字 | 查看原文 →

↑ 返回顶部

Rohan Paul @rohanpaul_ai

Compiling in real-time, the race towards AGI. The Largest Show on X for AI. | 影响力: 0万粉丝

💡 核心观点: Genspark AI 5.0升级：速度快5倍、百种技能、数据分析、风格保留。

可信度: 7/10 – 1项声明可直接验证；3项需进一步确认

事实核查:

✓ 可验证: Genspark AI Slides 升级到 5.0 版本 (可通过官网或官方更新日志直接确认版本号及升级信息。)
◐ 部分可验证: 速度提升 5 倍，凭借新一代模型提供更高质量 (需实测对比新旧版本性能，或依赖官方发布的基准测试数据（若有），但“更高质量”缺乏明确标准。)
◐ 部分可验证: 内置 100 多种专家技能 (需查看官方功能列表或实测确认技能数量，但“专家技能”定义可能模糊。)

原文内容:

Genspark AI Slides 这是一款适用于众多办公场景的精美技术产品。

他们刚刚将其升级到 5.0 版本，现在它
- 速度提升 5 倍，凭借新一代模型提供更高质量。
- 内置 100 多种专家技能。
- 数据分析功能内置。
- 上传一个演示文稿或 PDF，即可永久保留该风格。

⏰ 13:56 | ❤️ 41点赞 | 📝 86字 | 查看原文 →

↑ 返回顶部

TechHalla @techhalla

Senior Telecommunications Engineer & Developer but I’m here for the AI thing. | 影响力: 0万粉丝

💡 核心观点: Gemini Omni能用地图生成中土世界虚拟导览视频。

可信度: 10/10 – 2项声明可直接验证；3项需进一步确认

事实核查:

◐ 部分可验证: Gemini Omni可以根据地图图像和提示生成虚拟导览视频 (需实测Gemini Omni是否支持图像输入、箭头分析及视频生成功能，但无公开官方文档明确描述此具体用例。)
◐ 部分可验证: 生成的虚拟导览视频可展示地图上2个最重要地点，并以骑马POV呈现 (功能实现取决于Gemini Omni的算法能力，目前无法直接验证输出是否符合描述，需用户实测。)
✓ 可验证: 支持“真实粗犷的伪纪录片风格”和可选种族日常活动设定 (风格和细节设定属于主观创作范畴，无客观标准验证是否达成描述效果。)

原文内容:

我让 Gemini Omni 带我穿越中土世界 

我只需要一张地图（作为图像输入）和这个提示 

分析附带地图上箭头的位置和方向。移除红色箭头。创建一个虚拟导览视频，展示那个地方的 2 个最重要的地点。

POV：我们骑着一匹棕色马。

真实粗犷的伪纪录片风格。

[OPTIONAL]（种族：精灵、兽人、霍比特人……）做日常琐事

反复尝试！用任何参考素材试试，是的，甚至是 Google Maps！

分享你的作品

⏰ 03:51 | ❤️ 185点赞 | 📝 133字 | 查看原文 →

↑ 返回顶部

Rohan Paul @rohanpaul_ai

Compiling in real-time, the race towards AGI. The Largest Show on X for AI. | 影响力: 0万粉丝

💡 核心观点: Codex通过分析芯片照片精准修复MP3播放器固件问题。

可信度: 4/10 – 2项需进一步确认；1项为观点陈述

事实核查:

◐ 部分可验证: Codex 指导用户在 Mac 上将 MP3 播放器切换到引导加载程序模式 (需实测验证 Codex 是否具备硬件交互指导能力，且引导加载程序模式的具体操作因设备型号而异，公开资料可能有限。)
◐ 部分可验证: Codex 分析了机器代码并生成修复问题的定制补丁固件 (需实测验证 Codex 的机器代码分析能力，但固件修复涉及专有技术细节，公开案例或文档可能不足。)
◦ 观点: OpenAI 的 Codex 展示了强大功能（解决硬件问题） (“强大功能”是主观评价，解决硬件问题的案例未提供具体证据（如固件文件、代码片段），无法独立验证。)

原文内容:

这是一个很好的例子，展示了 OpenAI 的 Codex 的强大功能。

他向 Codex 展示了一张 MP3 播放器芯片的照片，该芯片出现了一些问题。

Codex 指导他在 Mac 上将 MP3 播放器切换到引导加载程序模式。

在该模式下，Mac 可以直接从设备的闪存中读取完整的固件（播放器的操作系统）。他运行了 Codex 提供的命令，Mac 导出了完整的二进制文件。

他将该二进制文件反馈给 Codex。
Codex 分析了机器代码，找到了导致问题的确切部分，然后生成了带有修复的定制补丁固件，并将其交还给他。
问题解决了。

⏰ 02:41 | ❤️ 29点赞 | 📝 172字 | 查看原文 →

↑ 返回顶部

Google Gemini @geminiapp

The Gemini app turns research into reality, bringing frontier AI experiences like Veo 3.1, Deep Think, Nano Banana, and more to hundreds of millions of people. | 影响力: 488.10k万粉丝

💡 核心观点: 谷歌邀请用户参与Discord活动，了解Gemini新工具并互动。

可信度: 9/10 – 2项声明可直接验证；2项需进一步确认

事实核查:

✓ 可验证: Google将在5月27日（周三）太平洋时间上午11:30举办关于Gemini Spark和Daily Brief的社区活动 (可通过推文中的Discord链接（http://discord.gg/gemini）或Google官方活动日历确认时间及内容。)
◐ 部分可验证: 活动将展示Gemini Spark和Daily Brief两个新代理工具的现场演示 (需实际参与Discord直播或查看后续官方录播验证演示内容，但工具名称和功能描述需依赖官方进一步披露细节。)
✓ 可验证: 活动参与者有机会向Gemini团队成员现场提问 (互动环节是否包含提问机会需依赖实际活动情况，无法提前验证。)

原文内容:

从 #GoogleIO 舞台直达 Gemini Discord 舞台，加入我们的下一次社区活动，我们将与团队成员一起深入探讨两个新的代理工具（Gemini Spark 和 Daily Brief），他们是将这些工具带入现实的幕后功臣。

通过现场演示观看这些新功能的实际应用，同时有机会现场提出您的问题。

 加入我们的 Discord 观看直播：http://discord.gg/gemini

 今天（5 月 27 日，周三）太平洋时间上午 11:30

⏰ 01:14 | ❤️ 165点赞 | 📝 112字 | 查看原文 →

↑ 返回顶部

Rohan Paul @rohanpaul_ai

Compiling in real-time, the race towards AGI. The Largest Show on X for AI. | 影响力: 0万粉丝

💡 核心观点: AI代理Devin推动Cognition估值飙升，实现商业化突破。

可信度: 10/10 – 2项声明可直接验证；3项需进一步确认

事实核查:

◐ 部分可验证: Cognition AI 以260亿美元的投前估值融资超过10亿美元 (融资信息和估值通常可通过官方新闻稿或权威财经媒体（如彭博、路透）验证，但需确认是否为最终交易数据或包含附加条款。)
✓ 可验证: Devin（Cognition AI旗舰产品）的年化收入运行率从3700万美元增至4.92亿美元 (收入数据通常为企业内部信息，除非官方公开财报或第三方审计报告，否则无法独立验证。)
◐ 部分可验证: Devin可作为自主初级工程师，在安全环境中完成多步骤代码规划、测试和部署 (功能描述可通过产品演示或技术文档部分验证，但“自主性”和实际生产效果需实测或客户案例佐证。)

原文内容:

代理编码的又一个巨大胜利。

Cognition AI 刚刚以 260 亿美元的投前估值融资超过 10 亿美元。

据报道，收入年化运行率从 3700 万美元攀升至 4.92 亿美元，而像高盛和梅赛德斯-奔驰这样的客户表明，Devin 正在从演示室转向生产工作流程。

Cognition 的进步得益于其旗舰产品 Devin，该产品旨在充当自主的初级工程师，超越典型的编码助手。Devin 可以在安全环境中通过多步骤工作流程规划、测试和部署代码。

Cognition 结合了自有模型与 OpenAI 和 Anthropic，而不是依赖单一模型。

Cognition 基本上将 Devin 定位为模型无关的代理层：LLM 负责推理和代码生成，而 Devin 提供工程工作空间、仓库上下文、终端访问、文件编辑、测试以及围绕它的模型选择。

去年七月，Cognition 同意收购编码初创公司 Windsurf 的剩余部分，此前谷歌以 24 亿美元的价格达成了对 Windsurf 顶级人才和许可权的交易。

⏰ 01:11 | ❤️ 57点赞 | 📝 264字 | 查看原文 →

↑ 返回顶部

Rohan Paul @rohanpaul_ai

Compiling in real-time, the race towards AGI. The Largest Show on X for AI. | 影响力: 0万粉丝

💡 核心观点: AI税务代理通过自我改进实现97%准确率并提升效率。

可信度: 8/10 – 1项声明可直接验证；3项需进一步确认；1项为观点陈述

事实核查:

◐ 部分可验证: OpenAI 和 Thrive 构建了一个自我改进的税务代理，准确率高达 97% (需通过 OpenAI 或 Thrive 的官方公告或技术文档验证合作关系和准确率数据，但具体测试方法和数据集未公开，可能无法完全复现结果。)
◐ 部分可验证: Tax AI 处理了 30 多家会计事务所的 7000 份报税表，节省了约三分之一的准备时间 (需依赖合作会计事务所的公开案例或白皮书验证数据，但实际节省时间可能因场景差异而不同，且原始数据未公开。)
✓ 可验证: 系统记录了完整的追踪（源文件、提取字段、引用等），重复更正会转化为有界限的工程任务 (若 OpenAI 或 Thrive 发布产品技术文档或演示，可验证追踪功能和任务转化机制，但需具体实例支持。)

原文内容:

OpenAI 和 Thrive 刚刚构建了一个自我改进的税务代理，准确率高达 97%。

Tax AI 处理了 30 多家会计事务所的 7000 份报税表，节省了大约三分之一的准备时间，达到了高达 97% 的准确率，并将处理量提高了约 50%。

难点不在于阅读 W-2 或 1099 表格，而在于处理杂乱的 K-1 表格、租赁时间表、注释、电子表格、上一年的文件，以及跨文档必须匹配的值。

系统记录了完整的追踪：源文件、提取字段、引用、税务引擎映射、会计师更正，以及最终提交的值。

重复的更正会成为评估目标，因此 Codex 会得到一个狭窄的任务，带有证据、代码、测试和通过条件。

错误的税务字段可能来自多个地方：糟糕的提取、薄弱的映射、不支持的工作流程、上一年的结转，或人为判断。

巧妙之处不在于简单地使用 Codex 来编写修复，而是构建一个产品环境，在其中，重复的从业者更正变成了有界限、可测试的工程任务。

在租赁物业示例中，代理可以在提出更改之前检查源文档、提取追踪、映射器行为、预期输出和回归测试。

⏰ 00:46 | ❤️ 29点赞 | 📝 330字 | 查看原文 →

↑ 返回顶部

Pierrick Chevallier | IA @charaspowerai

AI VFX Artist & Photoshop Editor for House of David Saison 2 for Amazon | AI Artist & Formateur | 影响力: 0万粉丝

💡 核心观点: 春丽肖像左右分屏呈现复古像素与超现实主义的跨时代对比。

可信度: 10/10 – 2项声明可直接验证；2项需进一步确认；1项为观点陈述

事实核查:

◐ 部分可验证: 该推文描述的春丽分割肖像展示了她从16位SNES像素艺术到次世代超现实主义的跨时代演变 (可通过生成图像的实际效果验证是否实现了两种风格的对比，但“完美对齐”“无缝匹配”等主观描述需依赖视觉判断，无客观标准。)
✓ 可验证: 左侧春丽需严格遵循SNES/街头霸王II的16位像素艺术风格，右侧需为超现实主义次世代渲染 (可通过对比SNES原版游戏素材（如官方角色设计图）和现代超现实主义3D模型（如《街头霸王6》角色设计）验证风格是否符合要求。)
✓ 可验证: 肖像需保持两侧视觉身份一致性（如双髻、蓝色服装、白色丝带等标志性特征） (春丽的标志性特征在卡普空官方设定中明确记录（如服装、发型），可通过官方资料直接核对。)

原文内容:

这个春丽提示词简直火爆 
从 16 位 SNES 像素艺术到次世代超现实主义，一张完美的分割肖像。

PROMPT
创建一张春丽的垂直分割肖像，展示她跨时代的演变。

肖像必须精确地从中间一分为二：
- 左侧：春丽以忠实的 SNES / 街头霸王 II 像素艺术风格呈现，带有明显的复古 16 位美学，像素阴影，简化的面部特征，经典蓝色旗袍，白色发髻配丝带，以及老派街机/主机外观。
- 右侧：春丽以次世代超详细现实主义风格呈现，带有高度精致的面部特征，逼真的皮肤，细节丰富的蓝色旗袍配金边，白色发髻罩和丝带，真珠耳环，以及高端电影级照明。

分割必须完美对齐，让她脸部和身体的左侧一半与右侧一半匹配，创造出一张无缝的“过去 vs 未来”演变肖像。构图聚焦于她的脸部和上半身，精确的中间线展示从复古像素艺术到现代次世代现实主义的转变。

保持两侧春丽标志性视觉身份的一致性：
- 棕色/深色头发扎成双髻
- 蓝色服装
- 白色丝带
- 金色细节
- 强壮、自信的表情

背景：
使用深蓝色背景，简洁而优雅，帮助角色脱颖而出。左侧可以略带复古和平面感，而右侧应更具电影感和高端质感。

风格：
左侧 = 真实的 16 位 SNES 像素艺术
右侧 = 超现实主义次世代角色渲染
干净的垂直构图
复古与现代之间的高对比
锐利焦点
视觉冲击力强
无水印

⏰ 00:30 | ❤️ 30点赞 | 📝 438字 | 查看原文 →

↑ 返回顶部

# x每日奏折