【AI 英文奏折】06月09日

x每日奏折1个月前发布 tianming

280 0 0

【AI 英文奏折】2026年06月09日

共收录 18 篇深度内容

📋 今日内容速览

快速浏览，点击感兴趣的推文查看详细分析

Rohan Paul: AGI需主动探索未知，而非仅优化答案。
Amira Zairi: 利用Higgsfield MCP从产品构思到完整营销活动一气呵成。
Rohan Paul: 英特尔将为谷歌生产TPU芯片，挑战英伟达并减少对台积电依赖。
Rohan Paul: 本地AI框架Kocoro通过压缩多源数据解决记忆问题。
NotebookLM: NotebookLM升级，增强智能代理与多步推理能力。
Rohan Paul: OpenAI秘密提交IPO文件，与Anthropic展开资本竞赛。
Rohan Paul: AI削弱招聘真实性，流程表现优于实际能力。
Rohan Paul: OpenAI计划2028年前用AI完成研究并普及个人AGI助手。
Hasan Toor: 《Claude How To》提供可视化教程和实用模板，助你高效掌握Claude Code高级功能。
Amira Zairi: 分享经典奇幻封面艺术风格的暗黑幻想插画提示模板。
Rohan Paul: AI在生物学任务中表现不稳定且结果不可靠。
Bearly AI: 百事在美三州部署41辆自动驾驶卡车配送货物。
NotebookLM: NotebookLM升级，提供更智能的聊天体验和深度分析工具。
NotebookLM: NotebookLM新增多格式内容导出功能，支持图表文档等定制化生成。
NotebookLM: NotebookLM可助用户整理思路并自动搜集相关资源。
Rohan Paul: 小模型优化AI代理上下文，无需重新训练主模型。
Rohan Paul: 中国AI模型因实用性强成为美国市场新增长点。
Rohan Paul: 强大AI代理靠持续测试而非天赋提升研究能力。

📖 详细内容

Rohan Paul @rohanpaul_ai

Compiling in real-time, the race towards AGI. The Largest Show on X for AI. | 影响力: 0万粉丝

💡 核心观点: AGI需主动探索未知，而非仅优化答案。

可信度: 8/10 – 1项声明可直接验证；2项需进一步确认；2项为观点陈述

事实核查:

◦ 观点: AGI需要能主动探索未知的智能体，而不仅仅是回答更好的模型 (该声明属于对AGI发展方向的愿景或主观观点，缺乏具体实验数据或公开技术文档的直接支持。)
◐ 部分可验证: 一篇来自中美顶级实验室的111页综述论文讨论了“认知探索”（epistemic exploration），即智能体应主动减少不确定性、在能力边界学习并保持未来路径开放 (若论文标题或作者信息明确（如通过arXiv、会议论文集等公开），可验证其存在性，但论文中具体结论需阅读全文才能确认，且“顶级实验室”的定义主观。)
◐ 部分可验证: 探索被分解为三个需求：寻求有用信息、将困难但可学习的经验转化为能力、避免过早陷入单一策略 (若论文中明确列出此分类，可通过查阅原文验证，但需依赖对论文内容的访问权限。)

原文内容:

要实现通用人工智能（AGI），我们需要能主动探索未知领域的智能体，而非仅擅长回答问题的模型。

这份由中美顶尖实验室联合发布的新长篇综述论文（共111页）探讨了"认知探索"概念——智能体应主动降低不确定性，在能力边界持续学习，并为未来发展保留可能性。

探索并非随机行为，而是遵循严谨原则：判断哪些观察能改变认知，哪些尝试可提升技能，哪些路径必须在关闭前保持开放。

论文将其分解为三大需求：寻找有效信息、将困难但可习得的经验转化为能力、避免过早陷入单一策略。

作者将AI发展划分为五个层级：应答者、推理者、智能体、勘探者和生态系统，每一层级都比前一层级探索更广阔的空间。

应答者主要提供答案，推理者会遍历可能思路，智能体能测试外部世界，勘探者可模拟未来场景，而生态系统则通过多智能体协作运作。

论文标题：《面向通用人工智能的智能体探索》

⏰ 10:22 | ❤️ 20点赞 | 📝 175词 | 查看原文 →

↑ 返回顶部

Amira Zairi @azed_ai

AI Educator & Creator | Ambassador @Adobe @LeonardoAi & @tripoai | Partner with leading brands | Collaboration → [email protected] | 影响力: 57.13k万粉丝

💡 核心观点: 利用Higgsfield MCP从产品构思到完整营销活动一气呵成。

可信度: 10/10 – 3项声明可直接验证；1项需进一步确认；1项为观点陈述

事实核查:

◐ 部分可验证: 用户使用Higgsfield MCP为虚构香水创建了完整营销活动（包括产品视觉、广告视频、落地页等） (需实测Higgsfield MCP功能是否支持完整营销活动生成，但用户提供的具体输出内容（如视频、图片）未公开，无法直接验证真实性)
✓ 可验证: Higgsfield MCP与Claude集成后，用户可在单一对话中逐步构建创意（无需切换工具） (可通过官方文档或实际测试Claude的Connectors功能，确认是否支持自定义连接Higgsfield MCP并实现所述协作流程)
◦ 观点: 用户认为Higgsfield MCP使创意流程更连贯（对比传统多工具切换的繁琐） (基于个人主观体验，无客观标准衡量“连贯性”，且缺乏与其他工具的对比数据)

原文内容:

我通过为一个虚构的香水品牌创建完整营销活动，试用了Higgsfield MCP

我将这个项目命名为"Higgsfield MCP"，并像对待真实产品发布一样操作

目标不是制作一张精美图片，而是测试能否在一个工作流程中，从简单的产品构思发展到完整的营销策略

因此我创建了：
产品视觉图
高级感产品摄影
电影级广告视频方案
着陆页概念设计

最让我惊喜的是整个流程的连贯性

通常进行这类创作时，我需要不断切换工具、保存文件、重写提示词、调整创意，然后在不同平台重新开始

而通过Claude集成的Higgsfield MCP，整个过程更像是与创意助手在持续对话中推进

你提出构想，然后就能逐步完善它

设置非常简单：
1. 打开Claude
2. 进入设置→连接器
3. 添加自定义连接器
4. 命名为Higgsfield
5. 粘贴URL：https://mcp.higgsfield.ai/mcp
6. 点击连接
7. 用Higgsfield账户登录
8. 开始让Claude生成图片、视频、营销视觉或创意素材

最吸引我的不仅是AI能生成优质视觉内容，而是它能让你以整体营销视角思考，而非零散素材

一个产品创意可以无缝转化为视觉图、视频、广告概念和着陆页方案，无需频繁中断创作流

这套工具对内容创作者、小众品牌、营销人员、产品发布、美妆企划、时尚新品、食品视觉呈现以及快速客户预览都极具价值

⏰ 23:56 | ❤️ 61点赞 | 📝 257词 | 查看原文 →

↑ 返回顶部

Rohan Paul @rohanpaul_ai

Compiling in real-time, the race towards AGI. The Largest Show on X for AI. | 影响力: 0万粉丝

💡 核心观点: 英特尔将为谷歌生产TPU芯片，挑战英伟达并减少对台积电依赖。

可信度: 6/10 – 1项声明可直接验证；2项需进一步确认；1项为观点陈述

事实核查:

◐ 部分可验证: Google has picked Intel to manufacture 3M+ Google TPUs in 2028. (该声明源自The Information的报道（附链接），但需进一步通过Google或Intel的官方公告验证具体合作细节（如数量、时间）。目前仅依赖单一媒体信源，且涉及未来计划。)
✓ 可验证: Intel’s foundry bet is to become a second source for AI chips, reducing reliance on TSMC. (Intel公开宣布其代工战略（如2023年财报会议），且行业普遍讨论TSMC产能紧张问题（如路透社等报道）。但“第二来源”的具体合作方需结合企业公告验证。)
◐ 部分可验证: Rising AI chip demand has pushed major firms toward Intel due to TSMC supply constraints. (TSMC产能紧张和AI需求激增已被多方报道（如彭博社），但“转向Intel”的具体企业名单和决策细节未完全公开，需依赖供应链分析或企业披露。)

原文内容:

据The Information报道，谷歌已选择英特尔在2028年为其生产300万片以上的TPU芯片。

这对英特尔代工业务而言是场重大胜利——该集团由此将成为英伟达最强AI竞争对手的芯片生产基地。英特尔布局代工业务旨在为这类芯片提供第二供应源，此举意义重大：若过度依赖台积电，谷歌、英伟达、苹果、特斯拉等企业将面临供应链瓶颈。

AI热潮引发的芯片需求激增使得台积电产能吃紧，促使多家头部AI芯片设计公司转向与英特尔合作。

---
消息来源：theinformation .com/articles/google-nvidia-consider-intel-backup-chip-manufacturer

⏰ 22:13 | ❤️ 68点赞 | 📝 101词 | 查看原文 →

↑ 返回顶部

Rohan Paul @rohanpaul_ai

Compiling in real-time, the race towards AGI. The Largest Show on X for AI. | 影响力: 0万粉丝

💡 核心观点: 本地AI框架Kocoro通过压缩多源数据解决记忆问题。

可信度: 10/10 – 2项声明可直接验证；2项需进一步确认；1项为观点陈述

事实核查:

✓ 可验证: Kocoro是一个开源的Mac AI代理框架，运行在引擎级别 (可通过检查其开源代码库（如GitHub）或官方文档确认是否为开源项目及技术架构描述是否属实。)
◐ 部分可验证: Kocoro通过本地代理读取用户的历史会话、文件、应用、浏览器等数据，并将有用信息压缩存储以支持连续工作 (功能描述可通过官方文档或演示视频部分验证，但实际数据处理的准确性和隐私保护机制需实测或审计代码确认。)
◐ 部分可验证: Kocoro的安全模型为本地优先控制，包括权限管理、风险命令拦截、审计日志和自动脱敏 (安全策略可能在文档中说明，但具体实现（如秘密信息脱敏效果）需代码审查或第三方安全测试验证。)

原文内容:

延长上下文窗口并不能真正解决AI工作中的记忆问题。

Kocoro刚刚将AI记忆功能变成了Mac本地特性。

这是一个引擎级别的开源Mac AI智能体框架。

Kocoro通过在Mac上运行本地智能体来工作，它能读取你过往的会话记录、文件、应用、浏览器、屏幕内容和终端操作，然后将有用信息压缩存储为记忆，这样无需重复交代就能继续工作。

其安全模型主要采用本地优先控制机制：工具操作需要授权，高风险指令会被拦截或二次确认，所有操作都有审计日志，敏感信息自动脱敏，记忆/会话同步采用选择性上传而非强制云端备份。

其情景记忆功能能将历史会话转化为精选的项目事实、决策记录、协作者信息、截止日期和工作习惯，让智能体能像队友而非客服工单那样无缝衔接工作。

每晚它会将你的工作内容提炼成本地知识图谱——包括项目进展、决策要点、待办任务。次日清晨就能精准接续前一天的工作进度，无需重新粘贴上下文。

评论区附GitHub链接。

⏰ 19:18 | ❤️ 34点赞 | 📝 174词 | 查看原文 →

↑ 返回顶部

NotebookLM @notebooklm

Think smarter, not harder. Meet your brain’s new best friend | 影响力: 240.50k万粉丝

💡 核心观点: NotebookLM升级，增强智能代理与多步推理能力。

可信度: 6/10 – 1项声明可直接验证；1项需进一步确认；1项为观点陈述

事实核查:

◐ 部分可验证: NotebookLM推出更强大的版本，具备代理聊天能力、更高级的推理能力和一系列新的输出格式 (可通过Google AI官方公告或更新日志验证功能升级，但“更强大”“更高级”等描述需实测对比性能，部分主观)
◦ 观点: 新版本能更轻松解决复杂的多步骤研究问题 (“更轻松”是主观效率宣称，无具体基准或公开数据支持，属于产品愿景陈述)
✓ 可验证: 新版本目前仅向Google AI Ultra订阅用户开放 (可通过Google AI订阅页面或官方声明直接确认用户权限限制)

原文内容:

推出更强大的NotebookLM

全面升级带来具备自主交互能力的聊天功能、更高级的推理系统以及一系列全新输出格式。处理复杂、多步骤的研究问题从未如此简单。

现已面向Google AI Ultra订阅用户开放。

⏰ 00:07 | ❤️ 3096点赞 | 📝 40词 | 查看原文 →

↑ 返回顶部

Rohan Paul @rohanpaul_ai

Compiling in real-time, the race towards AGI. The Largest Show on X for AI. | 影响力: 0万粉丝

💡 核心观点: OpenAI秘密提交IPO文件，与Anthropic展开资本竞赛。

可信度: 6/10 – 1项声明可直接验证；2项需进一步确认；1项为观点陈述

事实核查:

◐ 部分可验证: OpenAI已秘密提交IPO申请文件 (推文引用WSJ报道（附链接），但需通过WSJ订阅或第三方信源核实文件提交的具体细节；SEC保密流程本身存在，但具体内容未公开。)
◐ 部分可验证: Anthropic上周已提交保密IPO文件 (需核查Anthropic的官方声明或SEC备案记录，但保密阶段信息可能仅限监管机构和公司知情。)
✓ 可验证: 保密S-1文件允许OpenAI在不公开财务细节的情况下启动SEC审查 (SEC的保密提交规则（如JOBS Act条款）是公开程序，但OpenAI是否适用需结合其规模（如“新兴成长公司”资格）确认。)

原文内容:

突发新闻：《华尔街日报》报道OpenAI正式迈出IPO第一步

该公司已秘密提交上市申请文件。通过保密版S-1表格，OpenAI可启动美国证券交易委员会审核流程，同时暂不披露营收、亏损、客户构成、算力成本及高管薪酬等敏感数据，为上市筹备保留商业机密。

上周Anthropic亦已提交保密上市文件，这意味着行业竞争已不仅局限于模型研发赛道，更升级为实验室之间为下一代AI基础设施融资的资本竞速。

---

wsj. com/tech/ai/openai-kicks-off-ipo-process-in-test-of-investor-appetite-for-top-ai-labs-eb7bebe1

⏰ 05:51 | ❤️ 29点赞 | 📝 108词 | 查看原文 →

↑ 返回顶部

Rohan Paul @rohanpaul_ai

Compiling in real-time, the race towards AGI. The Largest Show on X for AI. | 影响力: 0万粉丝

💡 核心观点: AI削弱招聘真实性，流程表现优于实际能力。

可信度: 10/10 – 2项声明可直接验证；2项需进一步确认；1项为观点陈述

事实核查:

◐ 部分可验证: AI导致简历更容易伪造，远程面试更容易通过实时脚本作弊 (可通过研究AI生成文本的工具（如ChatGPT）和面试辅助软件的功能验证其可能性，但具体影响程度需依赖实际招聘数据或实验研究，目前缺乏广泛公开的统计数据支持。)
◦ 观点: 招聘系统开始奖励擅长流程操作的人，而非真正能胜任工作的人 (这是对招聘系统弊端的批判性观点，虽可能基于观察，但无直接数据或研究证明其普遍性，属于主观推论。)
✓ 可验证: AI生成的简历被筛选系统短名单的概率比普通简历高23%-60%（引用一项研究） (若推文中提到的研究为公开学术论文或HBR文章，可通过检索原文验证数据；但未提供具体研究来源，需进一步确认。)

原文内容:

《哈佛商业评论》最新文章指出：

人工智能正在从两端瓦解招聘体系——简历造假变得轻而易举，远程面试也能通过实时脚本蒙混过关。

如今的招聘机制更青睐"擅长应聘的人"而非"胜任工作的人"。传统简历的筛选价值正在衰减：求职者几分钟就能生成专业且关键词堆砌的申请材料，而AI筛选系统反而更倾向选择类似AI生成的文本——有研究显示，这类模板化简历的入围率要高出23%至60%。

远程初面同样面临信任危机：实时AI助手能在通话中提示标准答案，尤其针对"冲突处理""求职动机"等可预测的行为面试题及排练好的职业故事。

这种扭曲不仅产生"假阳性"（平庸者包装出色），更导致"假阴性"（思维独特者因材料未优化而被埋没）。研究者建议用实时工作模拟测试替代套路化初面：面试官可在回答中途变更条件，要求候选人解释决策权衡，观察其逻辑能否自洽。

具体操作如：给出混乱的工作场景→要求决策→突然增加限制条件→让候选人当场修正答案并口头论证。

⏰ 05:38 | ❤️ 23点赞 | 📝 206词 | 查看原文 →

↑ 返回顶部

Rohan Paul @rohanpaul_ai

Compiling in real-time, the race towards AGI. The Largest Show on X for AI. | 影响力: 0万粉丝

💡 核心观点: OpenAI计划2028年前用AI完成研究并普及个人AGI助手。

可信度: 8/10 – 2项声明可直接验证；1项需进一步确认

事实核查:

✓ 可验证: Sam Altman的博客提到，到2028年3月，OpenAI的很大一部分研究将由AI完成 (可通过查阅Sam Altman的官方博客或OpenAI官网发布的公开声明直接验证该时间节点和目标)
◐ 部分可验证: OpenAI的未来路径主要有3个目标：构建自动化AI研究员、加速科学与生产力提升、为每个人提供可协助工作/学习/商业/健康等任务的个人AGI (若OpenAI官方发布战略文档或路线图可验证部分目标（如自动化研究），但“个人AGI”的实现细节和可行性需依赖未来技术发展，目前属于部分可验证的愿景)
✓ 可验证: 个人AGI将帮助处理健康文书、决策等任务 (该声明涉及未实现的未来技术应用场景，无现有产品或数据支持，属于推测性描述)

原文内容:

山姆·奥特曼关于OpenAI未来发展路径的最新博文指出，到2028年3月前，其大部分研究工作将由AI自主完成。

该路径主要包含三大目标：构建自动化AI研究员，利用其加速科研与生产效率，最终为每个人提供可协助工作、学习、编程、商业运营、健康文书处理及决策的个性化通用人工智能。

⏰ 05:25 | ❤️ 73点赞 | 📝 62词 | 查看原文 →

↑ 返回顶部

Hasan Toor @hasantoxr

AI & Tech Educator • Sharing insights on AI, Tech Tools, & practical ways to use AI & Tech Tools for you & your daily business • Founder & Writer @theprohumanai | 影响力: 0万粉丝

💡 核心观点: 《Claude How To》提供可视化教程和实用模板，助你高效掌握Claude Code高级功能。

可信度: 4/10 – 2项需进一步确认；1项为观点陈述

事实核查:

◐ 部分可验证: 开发者创建了一个名为“Claude How To”的完整视觉指南，用于教授如何正确使用Claude Code (可通过提供的GitHub链接（https://github.com/luongnv89/claude-howto）验证是否存在该指南，但内容是否如推文所述需进一步查看具体文档。)
◐ 部分可验证: 指南包含视觉教程、Mermaid图表、生产就绪模板、引导学习路径、测验和可复用的复制粘贴示例 (需访问GitHub仓库以确认是否包含这些内容，但推文未提供具体截图或示例，需依赖用户自行验证。)
◦ 观点: 该指南是每个初学者在浪费20小时自行摸索前应阅读的内容 (这是推文作者的主观观点，无法通过客观事实验证其有效性或普遍适用性。)

原文内容:

我发现了一份《Claude Code操作指南》。

有位开发者制作了完整的可视化教程，手把手教你如何正确使用Claude Code。

这份教程名为《Claude使用手册》。

内容涵盖：

- 斜杠命令
- 记忆功能
- 钩子机制
- MCP服务器
- 子代理
- 技能模块
- 插件系统
- 高级工作流
- 真实场景配置案例

最棒的是它完全不像枯燥的技术文档。

教程包含可视化指引、Mermaid流程图、可直接投产的模板、分阶段学习路径、随堂测验，以及能直接复制粘贴到项目中的示例代码。

在我看来，每个新手都该先读这份指南，而不是浪费20个小时自己摸索。

https://github.com/luongnv89/claude-howto…

⏰ 05:21 | ❤️ 74点赞 | 📝 107词 | 查看原文 →

↑ 返回顶部

Amira Zairi @azed_ai

AI Educator & Creator | Ambassador @Adobe @LeonardoAi & @tripoai | Partner with leading brands | Collaboration → [email protected] | 影响力: 57.13k万粉丝

💡 核心观点: 分享经典奇幻封面艺术风格的暗黑幻想插画提示模板。

可信度: 9/10 – 2项声明可直接验证；2项需进一步确认

事实核查:

✓ 可验证: 推文提供了一个生成经典奇幻封面艺术的提示（Prompt） (推文明确提供了具体的Prompt内容，可通过AI绘画工具（如MidJourney、Stable Diffusion等）直接输入验证其存在性和生成效果。)
◐ 部分可验证: 该Prompt的风格受Boris Vallejo（鲍里斯·瓦莱霍）启发 (Boris Vallejo是知名奇幻艺术家，其风格特征（如解剖学、光影等）可对比验证，但“启发”属主观关联，需依赖用户对两者作品的直观判断。)
◐ 部分可验证: 使用该Prompt可生成高度细节化的奇幻艺术作品 (生成结果的实际质量取决于AI工具版本及用户调整，需实测验证，但Prompt中列出的关键词（如“highly detailed”）具备可操作性。)

原文内容:

提示词分享：经典奇幻封面艺术  

提示：以经典奇幻封面艺术风格呈现的[主题]暗黑奇幻插画。采用戏剧性构图、强健的解剖结构、浓郁的氛围光效、繁复的服饰与武器细节、史诗级场景、绘画般的写实主义、深邃的阴影、电影化叙事氛围，受鲍里斯·瓦莱约启发的超高精度奇幻艺术作品。  

尝试生成并分享你的作品吧

⏰ 18:56 | ❤️ 97点赞 | 📝 54词 | 查看原文 →

↑ 返回顶部

Rohan Paul @rohanpaul_ai

Compiling in real-time, the race towards AGI. The Largest Show on X for AI. | 影响力: 0万粉丝

💡 核心观点: AI在生物学任务中表现不稳定且结果不可靠。

可信度: 7/10 – 1项声明可直接验证；3项需进一步确认

事实核查:

◐ 部分可验证: Claude Sonnet 4在埃博拉序列任务中返回不一致的序列数量（106、15、5次），而预期答案为266 (需通过Anthropic官方公开的研究报告或可重复的实验数据验证，但若缺乏具体任务细节或原始数据则无法完全确认。)
◐ 部分可验证: 错误的检索结果导致疫情溯源时间从2014年错误显示为1922年 (需对比AI输出与手动标注的数据库结果，但依赖具体案例的公开数据或研究复现，否则无法独立验证。)
✓ 可验证: 生物学数据库因分散、规则隐蔽和脚本脆弱导致AI工具难以可靠使用 (可通过测试主流生物学数据库（如NCBI）的API稳定性、访问规则及AI工具交互日志验证，属技术共性挑战。)

原文内容:

最新Anthropic研究表明：AI代理在代码领域可能表现卓越，但在生物学领域，它们甚至可能在科研工作开始前就出现失误。

面对完全相同的生物学数据请求，即使提示词毫无改动，强大的AI代理也可能给出截然不同的答案。在一次埃博拉病毒序列分析任务中，Claude Sonnet 4首次运行返回106条序列，随后又给出15条和5条，而正确答案应为266条。

这些缺失的序列不仅导致数据集混乱，更扭曲了基于数据构建的科学结论。一次错误检索竟使疫情溯源结果指向1922年，而人工校验的正确结论本应指向2014年初。

现有AI工具难以可靠地操作生物学数据库。尽管代理系统通常能理解问题意图，但由于需要应对分散的数据库、隐蔽的网站规则和脆弱的脚本，其输出结果波动极大。

核心发现表明：引入可重复的检索工具后，AI代理的准确性和一致性得到显著提升。

⏰ 04:57 | ❤️ 67点赞 | 📝 163词 | 查看原文 →

↑ 返回顶部

Bearly AI @bearlyai

Privacy-first AI research tool with access to ChatGPT, Grok, Claude, Gemini and DeepSeek in one app. Try it at http://Bearly.AI | 影响力: 0万粉丝

💡 核心观点: 百事在美三州部署41辆自动驾驶卡车配送货物。

可信度: 10/10 – 2项声明可直接验证；2项需进一步确认；1项为观点陈述

事实核查:

✓ 可验证: PepsiCo currently has 41 self-driving trucks on roads in Arizona, Arkansas and Texas. (可通过WSJ报道原文（链接已提供）或PepsiCo/Gatik官方公告验证具体数量和运营区域。)
◐ 部分可验证: These converted Isuzu Motor trucks are equipped with tech from self-driving startup Gatik (laser, LIDAR, cameras). (Gatik官网或技术白皮书可能公开传感器配置，但具体改装细节需依赖企业披露，普通用户无法独立核实硬件安装。)
◐ 部分可验证: They transport goods on direct routes from PepsiCo warehouses to retailers (99% arrival performance so far). (运营路线可通过企业合作新闻（如Walmart等公告）间接验证，但”99%到达率”需内部数据支持，公开第三方报告缺失。)

原文内容:

百事公司目前在美国亚利桑那州、阿肯色州和德克萨斯州部署了41辆自动驾驶卡车。

据《华尔街日报》报道，这些由五十铃汽车改装的卡车配备了自动驾驶初创企业Gatik的技术（激光雷达、光学雷达及摄像头系统）。

每辆卡车配备三块iPad屏幕并保留方向盘（未来车型或取消方向盘，但保留车载空调为冷却系统供能）。

其固定路线覆盖百事仓库至灌装工厂、沃尔玛、达乐百货等零售终端（当前到货率达99%）。

传统上百事司机需兼任销售代表，如今他们得以解放时间专注客户服务。

Gatik在加拿大还与Loblaw's合作运营20辆卡车，该公司称已签署价值6亿美元的多年期合同。

***

更多内容：https://wsj.com/business/logistics/driverless-trucks-pepsico-texas-arizona-arkansas-ee4495f0…

⏰ 04:53 | ❤️ 60点赞 | 📝 133词 | 查看原文 →

↑ 返回顶部

NotebookLM @notebooklm

Think smarter, not harder. Meet your brain’s new best friend | 影响力: 240.50k万粉丝

💡 核心观点: NotebookLM升级，提供更智能的聊天体验和深度分析工具。

可信度: 6/10 – 1项声明可直接验证；2项需进一步确认

事实核查:

◐ 部分可验证: 升级了更贴心的聊天体验 (需实测或查看官方更新日志确认具体功能改进，但“贴心”为主观描述，无法完全量化验证)
✓ 可验证: 由Gemini 3.5和@Antigravity提供支持，用户能更好了解AI的思考过程 (可通过官方技术文档或合作伙伴声明验证模型名称及功能，但“更好了解”需实测对比)
◐ 部分可验证: 每个笔记本配备安全云计算机，含100+精选软件技能 (“安全云计算机”和“100+软件技能”需官方公开技术细节或用户实测验证，当前信息不完整)

原文内容:

想深入了解今天的发布内容？以下是本次更新的亮点解析：

首先推出的是：升级版、更智能的聊天体验。

依托Gemini 3.5和@Antigravity技术，您现在可以更清晰地了解AI的思考过程。此外，每个笔记本都配备了安全的云端计算机，内置100多种精选软件技能，助您开展更深入的研究和更复杂的分析。

⏰ 04:36 | ❤️ 956点赞 | 📝 62词 | 查看原文 →

↑ 返回顶部

NotebookLM @notebooklm

Think smarter, not harder. Meet your brain’s new best friend | 影响力: 240.50k万粉丝

💡 核心观点: NotebookLM新增多格式内容导出功能，支持图表文档等定制化生成。

可信度: 9/10 – 2项声明可直接验证；2项需进一步确认

事实核查:

◐ 部分可验证: NotebookLM可以整合用户来源的上下文并生成可下载、可定制的格式 (需实测或查看官方演示/文档以确认功能的具体操作流程和输出限制，但官方公告或更新日志可能提供部分依据。)
✓ 可验证: NotebookLM支持生成数据可视化图表（如Excel、PPTX、CSV等） (可通过官方功能说明、用户指南或实际测试验证输出格式是否包含所列文件类型（如Excel、PPTX）。)
✓ 可验证: NotebookLM可生成包含“Nano Banana”的图像 (“Nano Banana”为模糊描述，无公开定义或示例，无法确认其具体功能或输出形式。)

原文内容:

接下来：现在，你可以让NotebookLM将来自各类资料的内容整合成可直接下载、可自定义的格式。新增的输出类型包括：

• 数据可视化图表  
• PDF、docx及markdown文件  
• 含Nano Banana技术的图像  
• Excel、PPTX及结构化数据（csv、json格式）

⏰ 04:36 | ❤️ 230点赞 | 📝 38词 | 查看原文 →

↑ 返回顶部

NotebookLM @notebooklm

Think smarter, not harder. Meet your brain’s new best friend | 影响力: 240.50k万粉丝

💡 核心观点: NotebookLM可助用户整理思路并自动搜集相关资源。

可信度: 6/10 – 1项声明可直接验证；2项需进一步确认；1项为观点陈述

事实核查:

◐ 部分可验证: NotebookLM可通过输入松散想法和问题启动笔记本 (需实际测试工具功能是否支持通过聊天输入生成笔记本，但官方宣传内容可作为部分依据。)
◐ 部分可验证: NotebookLM能引导用户构建知识库并添加网络来源（需用户许可） (自动添加网络来源的功能需实测验证，但“需用户许可”等细节符合隐私规范，部分可信。)
◦ 观点: 用户反馈对开发团队至关重要 (属主观态度表述，无具体数据或公开流程证明反馈的实际影响。)

原文内容:

终于迎来了一位主动式研究助手

现在，您只需在聊天框中输入零散的想法和问题，就能启动一个智能笔记本。NotebookLM将引导您逐步构建知识库，甚至能在获得您许可的情况下，从网络发现并添加相关资源。

您的反馈始终是我们前进的动力。欢迎体验并告诉我们您的使用感受。

⏰ 04:36 | ❤️ 219点赞 | 📝 62词 | 查看原文 →

↑ 返回顶部

Rohan Paul @rohanpaul_ai

Compiling in real-time, the race towards AGI. The Largest Show on X for AI. | 影响力: 0万粉丝

💡 核心观点: 小模型优化AI代理上下文，无需重新训练主模型。

可信度: 9/10 – 2项声明可直接验证；2项需进一步确认

事实核查:

◐ 部分可验证: AI agent可以通过使用独立的小模型清理和组织其上下文，在不重新训练agent本身的情况下提升长任务表现 (需查阅论文（如公开）或实验复现以确认技术细节和性能提升效果，但推文未提供直接论文链接或数据支持。)
✓ 可验证: AdaCoM是一种独立的LLM，可在agent执行下一步前编辑其工作上下文 (若论文已公开（如arXiv或会议论文），可通过官方来源验证其架构和功能描述。推文明确提及“The paper proposes AdaCoM”，但需补充具体文献来源。)
◐ 部分可验证: AdaCoM与摘要（summarization）不同，后者假设压缩是唯一解决方案，而AdaCoM学习不同agent所需的上下文类型 (需对比论文中的方法设计与传统摘要技术的差异，但推文未提供具体实验对比数据，需依赖论文细节验证。)

原文内容:

人工智能代理无需重新训练自身，就能在长周期任务中表现更优——只需借助独立的小型模型来清理和组织其上下文。

该方案将上下文管理功能剥离出代理主体，使得主代理保持不变的同时，可由独立辅助模块清理任务历史记录。

论文提出的AdaCoM正是一个独立的大型语言模型，它会在代理执行下一步操作前，对其工作上下文进行编辑。

AdaCoM在任务历史记录与冻结的代理之间部署了经过专门训练的独立管理器，因此代理既无需学习新的记忆模式，也无须暴露其权重参数。

在代理每个操作步骤前，该管理器可对运行中的上下文进行重写、合并、删减或保留操作，原始代理随后基于整理后的版本采取行动。

这看似与摘要功能类似，实则存在关键差异。

摘要默认压缩是唯一正确方案，而AdaCoM能识别不同代理需要不同类型的上下文来保持效能——强大代理可处理更多原始历史记录，而较弱代理则需要更简短精炼的笔记。

研究团队在网页搜索和深度研究任务中对多个代理测试AdaCoM，其使网页搜索平均性能提升39%。

----

论文链接 – arxiv. org/abs/2605.30785

标题：《面向长周期任务的可适配智能体的上下文管理学习》

⏰ 04:23 | ❤️ 28点赞 | 📝 206词 | 查看原文 →

↑ 返回顶部

Rohan Paul @rohanpaul_ai

Compiling in real-time, the race towards AGI. The Largest Show on X for AI. | 影响力: 0万粉丝

💡 核心观点: 中国AI模型因实用性强成为美国市场新增长点。

可信度: 6/10 – 1项声明可直接验证；1项需进一步确认；1项为观点陈述

事实核查:

◐ 部分可验证: American AI startups are routing far more app traffic to Chinese LLMs. (需通过OpenRouter或其他第三方流量监测平台的数据验证美国AI初创企业对中国LLM的调用量变化，但具体企业名单和路由细节可能未完全公开。)
✓ 可验证: Through OpenRouter, weekly token consumption was mostly driven by U.S. models through much of 2025. But from early 2026, Chinese models suddenly became the main growth engine. (推文提及2025-2026年的未来数据，目前无法验证；即使引用OpenRouter历史数据，需确认其统计范围和模型分类标准是否公开透明。)
◦ 观点: AI model market is becoming less about brand loyalty and more about raw utility. (属于对市场趋势的主观判断，缺乏具体指标（如用户留存率、模型性能对比等）支持，无法直接验证。)

原文内容:

美国AI初创企业正将大量应用流量导向中国大语言模型。

通过OpenRouter平台的数据可见，2025年大部分时间里，每周token消耗主要由美国模型驱动。但自2026年初起，中国模型突然成为增长的主要引擎。

AI模型市场正逐渐从品牌忠诚度转向纯粹的功能性竞争。

⏰ 11:55 | ❤️ 115点赞 | 📝 52词 | 查看原文 →

↑ 返回顶部

Rohan Paul @rohanpaul_ai

Compiling in real-time, the race towards AGI. The Largest Show on X for AI. | 影响力: 0万粉丝

💡 核心观点: 强大AI代理靠持续测试而非天赋提升研究能力。

可信度: 10/10 – 2项声明可直接验证；3项需进一步确认

事实核查:

◐ 部分可验证: Strong AI agents struggle with long research work due to failure in continuous testing and improvement (需查阅论文原文或实验数据（如AutoLab基准测试结果）验证AI代理在长期任务中的表现，但推文未提供直接论文链接或具体数据引用。)
✓ 可验证: AutoLab基准包含36项任务，要求AI从初始薄弱代码改进，涵盖系统加速、谜题、模型开发等 (若论文公开（如通过arXiv或会议发布），可验证任务设计细节；推文提及Stanford/MIT等机构，增加可信度，但需具体来源。)
◐ 部分可验证: Claude Opus 4.6在基准测试中领先，因持续测试和利用反馈而非首次猜测准确性 (需验证论文中的模型排名及评估标准，但模型具体表现依赖未公开的测试细节（如反馈机制实现）。)

原文内容:

当前最先进的强人工智能代理在应对长期研究工作时仍面临挑战，主要原因在于它们往往难以持续进行测试与改进。

斯坦福大学、麻省理工学院、英伟达、谷歌等顶尖实验室联合发表的最新论文表明，当今最强研究型代理的制胜关键不在于初始方案的卓越性，而在于其拒绝停止测试的持久力。

该研究提出AutoLab基准测试框架，包含36项任务。每个代理需从可运行但性能欠佳的初始代码出发，在限定时间内完成优化。测试内容涵盖系统加速、算法谜题、模型开发及CUDA内核优化，其核心挑战不仅在于一次性代码编写，更在于对长期工作流程的管理能力。

研究团队测试了17个前沿模型后发现：最优成果的取得主要不依赖于初始构想的优越性，而取决于模型能否保持活跃状态、频繁测试并有效利用反馈。相较于首个创意的质量，持续优化的毅力才是成功更可靠的预测指标。

Claude Opus 4.6之所以在基准测试中领先，并非因其总能立即给出正确方案，而是因其持续进行性能评估并将实证反馈融入后续尝试。其他若干前沿模型的失败模式更具启示性：它们要么在剩余时间内提前终止任务，要么因过度思考导致超时却未提交任何有效成果。

----

论文链接 – arxiv. org/abs/2606.05080  
标题：《AutoLab：前沿模型能否解决长期自动研究与工程任务？》

⏰ 11:30 | ❤️ 126点赞 | 📝 226词 | 查看原文 →

↑ 返回顶部

# x每日奏折