【AI 英文奏折】06月17日

x每日奏折2个月前发布 tianming

113 0 0

【AI 英文奏折】2026年06月17日

共收录 8 篇深度内容

📋 今日内容速览

快速浏览，点击感兴趣的推文查看详细分析

Rohan Paul: Tensordyne对数AI芯片效能超NVIDIA 17倍，能耗更低。
Rohan Paul: GLM-5.2在物理模拟测试中表现优于Kimi，代码更复杂精准。
Hasan Toor: 羞愧催生首门高级编程语言，改变计算机历史。
Rohan Paul: Claude Code的成功源于简单AI循环与复杂外围系统的协同设计。
Alex Prompter: 应用发布易推广难，需多策略叠加引流。
Rohan Paul: DeepSeek成中国最高估值AI初创，创始人控股90%并押注开源与国产芯片。
Rohan Paul: 新加坡AI应用领先全球，显著提升工作能力。
Rohan Paul: TokenPilot通过智能缓存管理降低LLM代理成本并保持性能稳定。

📖 详细内容

Rohan Paul @rohanpaul_ai

Compiling in real-time, the race towards AGI. The Largest Show on X for AI. | 影响力: 0万粉丝

💡 核心观点: Tensordyne对数AI芯片效能超NVIDIA 17倍，能耗更低。

可信度: 9/10 – 2项声明可直接验证；2项需进一步确认

事实核查:

◐ 部分可验证: Tensordyne 的推理系统每瓦特令牌数是 NVIDIA Blackwell 的 17 倍，吞吐量高出 13 倍。 (需通过官方白皮书、第三方测试报告或 NVIDIA 的对比数据验证，但若 Tensordyne 未公开详细测试条件或原始数据，则无法完全独立验证。)
◐ 部分可验证: Tensordyne 的芯片通过硬件直接实现对数数学，使计算电路比 FP8/INT8 GPU 更小且能效更高。 (需查看芯片架构专利、技术文档或第三方拆解分析，但若核心设计细节未公开（如具体电路实现），则部分依赖厂商说法。)
✓ 可验证: DeepSeek-R1 每机架 363K 令牌/秒，对比 Nvidia 系统 27.4K。 (未提供测试环境（如模型规模、输入长度、功耗限制等），且 Nvidia 的对比系统未明确型号，无法交叉验证。)

原文内容:

Tensordyne 刚刚宣布了一项突破性的推理系统。

对数 AI 计算芯片，其每瓦特令牌数是 NVIDIA Blackwell 的 17 倍，吞吐量高出 13 倍。

他们声称解锁的主要数学进步是在硬件中直接实现高效的对数数学。在对数空间中，乘法转化为加法，这比构建乘法器电路要简单得多。

这使得芯片上的计算电路比当今的 FP8 和 INT8 GPU 更小。晶体管更少，芯片保持更凉爽并使用更少能量，而额外的芯片空间可以容纳更多张量引擎、额外的宽带 SRAM 和 HBM3e 内存，以及一个快速互连结构。

对于 DeepSeek-R1，Tensordyne 声称每机架 363K 令牌/秒，而 Nvidia 的比较系统为 27.4K。

他们已成功完成 Napier 处理器的流片，现已在 TSMC 的 3nm 工艺节点上投产。

⏰ 06:21 | ❤️ 40点赞 | 📝 207字 | 查看原文 →

↑ 返回顶部

Rohan Paul @rohanpaul_ai

Compiling in real-time, the race towards AGI. The Largest Show on X for AI. | 影响力: 0万粉丝

💡 核心观点: GLM-5.2在物理模拟测试中表现优于Kimi，代码更复杂精准。

可信度: 6/10 – 1项声明可直接验证；2项需进一步确认；1项为观点陈述

事实核查:

◐ 部分可验证: GLM-5.2 在一次小型物理模拟测试中击败了 Kimi K2.7 Code，两者需构建 3 个基于浏览器的 HTML5 演示且不使用外部库。 (需实测或查看测试原始数据（如任务要求、评分标准、代码输出）来验证结果，但测试平台（atomic[.]chat）和模型版本为具体信息，若平台公开测试记录则可部分验证。)
✓ 可验证: 测试在 atomic[.]chat 上进行，这是一个本地运行 LLM 的桌面应用程序。 (可通过访问 atomic[.]chat 官网或应用描述确认其功能是否为本地运行 LLM 的桌面工具。)
◐ 部分可验证: GLM-5.2 使用了 12,640 个令牌，Kimi 使用了 7,420 个令牌，额外代码预算用于更完整的模拟逻辑和流畅运动。 (令牌数量可通过测试日志或代码统计验证，但“更完整/流畅”的结论需对比代码逻辑和动画效果，依赖主观判断。)

原文内容:

GLM-5.2 刚刚在一次小型物理模拟测试中击败了 Kimi K2.7 Code，两者都需要构建 3 个基于浏览器的 HTML5 演示，而不使用任何外部库。

测试是在 atomic[.]chat 上进行的，这是一个在本地运行 LLM 的桌面应用程序。

真实的物理代码比绘制动画更难，因为模型必须跟踪动量、碰撞、力以及重复的对象更新，而不能让场景在视觉上崩溃。

GLM-5.2 使用了 12,640 个令牌，而 Kimi 使用了 7,420 个令牌，那额外的代码预算似乎被用于更完整的模拟逻辑、更流畅的运动以及更好的场景处理。

⏰ 09:37 | ❤️ 28点赞 | 📝 163字 | 查看原文 →

↑ 返回顶部

Hasan Toor @hasantoxr

AI & Tech Educator • Sharing insights on AI, Tech Tools, & practical ways to use AI & Tech Tools for you & your daily business • Founder & Writer @theprohumanai | 影响力: 0万粉丝

💡 核心观点: 羞愧催生首门高级编程语言，改变计算机历史。

可信度: 10/10 – 4项声明可直接验证；1项需进一步确认

事实核查:

✓ 可验证: 约翰·巴克斯是历史上第一个高级编程语言FORTRAN的创建者 (可通过IBM官方历史记录、计算机科学文献（如ACM或IEEE资料）及FORTRAN的专利/开发文档直接验证。)
◐ 部分可验证: FORTRAN生成的代码运行速度达到手工编写机器码的20%以内 (早期计算机性能数据需查阅1950年代的技术报告或IBM内部测试记录，但原始性能对比实验可能因年代久远难以完全复现。)
✓ 可验证: 巴克斯因自认是IBM最差程序员而开发FORTRAN (动机属于个人心理状态，仅能通过巴克斯的传记或采访间接推测，无客观记录可证实其真实感受。)

原文内容:

一位IBM数学家花了3年时间，坚信自己是公司里最差的程序员。

他为了逃避那种尴尬而创建的东西，成为历史上第一个高级编程语言。今天地球上运行的每一行代码，都可以追溯到那一次羞愧之举。

他的名字叫约翰·巴克斯。

他1924年出生于费城，是一个富裕股票经纪人的儿子，父亲期望他走上同样的道路。他从弗吉尼亚大学退学了。他从哈弗福德学院辍学了。他在军队报名参加了一个医学项目，然后决定他讨厌医学。他花了好几年时间，完全按照传统方式一事无成。

然后在1945年的一个下午，他在纽约路过一家收音机修理店，和店主聊了起来，最终在店里的后屋从零开始组装了一台收音机。令人惊讶的是，他之前从未做过这个。他待了好几个小时。离开时，他知道自己想学什么了。

他自学了数学，然后进入了哥伦比亚大学。从哥伦比亚大学毕业后，他1950年走进IBM，完全不知道自己在做什么。

他在那些根本不该被编程的机器上学会了编程。1950年的IBM计算机使用机器码交流。原始的二进制代码。每条指令都写成一串1和0，告诉硬件精确地翻转哪些开关。没有捷径。没有语法。没有人类大脑能记住的词汇。

那些擅长编程的人会在脑海中容纳整个机器。他们看到二进制代码，就能感受到逻辑。巴克斯做不到这一点。他写的程序运行缓慢、纠缠不清，与同事们产出的代码相比显得尴尬。他并不是IBM最差的程序员。但他相信自己是最差的，这就等同于事实。

他开始构建一个工具来帮助自己。不是出于雄心壮志。出于羞辱感。

这个想法简单到近乎天真。他想用类似数学的东西来写数学表达式，而不是机器码，然后让计算机自动将它们翻译成硬件需要的二进制代码。他把这个项目称为“公式翻译”系统。他的同事们认为这是一个好主意，但永远不会成功。

每个人都能看到的问题是速度。由熟练人类编写的机器码总是会比自动翻译器生成的代码运行得更快。翻译器必须做出猜测。猜测意味着低效。低效意味着整个项目只是个玩具。

巴克斯花了三年时间证明他们错了。

1957年，IBM向客户发布了FORTRAN。历史上第一个编译型编程语言。巴克斯构建的翻译器如此高效，以至于它生成的代码运行速度达到了手工编写机器码的20%以内。不是玩具。不是好奇物。一个实用的工具，让科学家和工程师们用自己脑海中生成的表达式编写程序，并看着机器执行它们。

采用是即时的、彻底的。那些职业生涯中一直手工将方程翻译成机器码的科学家们，突然间能在几小时而不是几周内编写程序。那些原本只用IBM机器处理狭窄任务的实验室，开始用它们做一切事情。计算市场一夜之间改变了。

然后发生了一件没人预测到的事情。其他人开始使用同样的想法构建其他语言。COBOL。LISP。ALGOL。BASIC。每种语言都使用FORTRAN展示的架构逻辑构建了自己的翻译器。计算机能读取类似于人类思维的东西，而不是反过来的想法，现在已成为一个任何人都可以扩展的概念验证。

每一个曾经存在过的编程语言，都是建立在巴克斯因为对自己所写代码感到羞愧而提出的那个问题的答案之上的。

他1977年获得了图灵奖。委员会的引文说，他的工作让更多人能用计算机做更多事情，这是计算历史上任何其他单一发展都无法比拟的。

他在获奖演讲中说，他并非一开始就打算改变计算。他一开始只是想停止写烂代码。

你不擅长的事情和你试图修复的事情之间的差距，通常就是真正发明所在的地方。

⏰ 20:20 | ❤️ 1244点赞 | 📝 1176字 | 查看原文 →

↑ 返回顶部

Rohan Paul @rohanpaul_ai

Compiling in real-time, the race towards AGI. The Largest Show on X for AI. | 影响力: 0万粉丝

💡 核心观点: Claude Code的成功源于简单AI循环与复杂外围系统的协同设计。

可信度: 6/10 – 1项声明可直接验证；2项需进一步确认；1项为观点陈述

事实核查:

◐ 部分可验证: Claude Code 的主代理循环非常简单，仅包含调用模型、运行工具、添加结果并重复 (可通过分析论文引用的 TypeScript 源代码（若公开）验证循环结构，但需实际代码访问权限或作者提供的具体示例佐证。)
◐ 部分可验证: Claude Code 的“支架”系统（工具、安全、记忆等常规软件）占系统大部分，负责权限管理和错误恢复 (论文描述的设计架构可通过公开的 arXiv 论文内容交叉验证，但具体实现细节可能依赖未公开的内部系统文档或代码。)
✓ 可验证: Claude Code 使用多层上下文管理机制压缩或总结旧信息以应对空间限制 (论文中明确提及该设计（如第4节上下文管理部分），且类似技术（如令牌窗口优化）在AI领域常见，可通过公开文献或实验复现间接验证。)

原文内容:

这篇论文指出，Claude Code 之所以运行良好，并不是因为它拥有复杂的 AI 大脑，而是因为一个简单的 AI 循环被一个庞大且精心构建的系统所包围，这个系统涵盖了工具、安全、记忆、权限和恢复机制。

作者们研究了公开的 TypeScript 源代码，发现主代理循环非常小：调用模型，运行已批准的工具，将结果添加回去，然后重复。

占据系统大部分的其实是“支架”，即围绕模型的常规软件，它决定哪些工具存在、哪些操作被允许、哪些内容被记住，以及当事情出错时会发生什么。

他们还指出，上下文管理是一个主要的设计难题，因此 Claude Code 使用多层机制，在模型空间耗尽之前压缩或总结较旧的信息。

自治并不能消除基础设施，它反而增加了基础设施的负担。

一个能够运行 shell 命令和编辑文件的编码代理，不能像带插件的聊天机器人那样对待，因为每个操作都有副作用，而每个副作用都需要边界。

----

链接 – arxiv.org/abs/2604.14228

标题：“深入 Claude Code：当今及未来 AI 代理系统的设计空间”

⏰ 18:11 | ❤️ 234点赞 | 📝 324字 | 查看原文 →

↑ 返回顶部

Alex Prompter @alex_prompter

Marketing + AI = $$$
@godofprompt (co-founder) | 影响力: 94.19k万粉丝

💡 核心观点: 应用发布易推广难，需多策略叠加引流。

可信度: 1/10 – 基于事实核查结果综合评估

事实核查:

✗ 无法验证: 验证状态**：partially verifiable
✗ 无法验证: 说明**：Product Hunt 的流量和注册数据可通过公开榜单和历史案例部分验证，但具体数值可能因产品类别、时间等因素波动，需实测确认。
✗ 无法验证: 验证状态**：verifiable

原文内容:

现在发布一个应用只需一个周末。让 100 个人使用它则需要付出所有其他努力。

我看到那些注重氛围的程序员发布了一些扎实的东西，只发了一次帖子，却毫无反响。如果我今天发布应用，我会尝试以下 7 种分发策略。

1. 不要把所有希望押注在一天上，而是叠加你的发布活动。Product Hunt 上进入前 5 名能带来大约 1500 名访客和 120 个注册，在 48 小时内。这不错，但不算改变人生。把它当作一个序列来运行：先 Product Hunt，然后 Peerlist（一周窗口期，每个产品都会被推荐），然后 Show HN，再然后是目录的长尾效应。每一个都是一个发现时刻，同时也是一个永久反向链接。

2. 在专为像你这样的应用构建的 AI 目录上列出。An AI For That、Toolify 和 Futurepedia 会发送不过期的买家意向流量，还提供 dofollow 链接，让你的应用被 ChatGPT 和 Perplexity 的回答中引用。Toolify 收取一次性费用约 99 美元，并通过激进的类别 SEO 获得排名。

3. 公开构建，但发布经验教训，而不是功能。收入截图能获得点赞。“这是我尝试的方法，为什么它失败了，我改用什么”能获得关注和注册。Base44 在大约六个月内仅靠创始人分享构建过程就增长到 25 万用户，然后以 8000 万美元卖给 Wix。

4. 从 Reddit 获取你的前 100 名用户，而不是你的时间线。在 r/SideProject 和你确切细分领域的子版块中发布诚实的“这是我构建的东西和学到的经验”帖子，对于大多数独立应用来说，转转化率高于 Product Hunt。一位创始人从 Reddit 拉来了前 100 名用户中的 60 名。设置 F5Bot，在有人提到你的关键词的瞬间 ping 你，这样你能第一时间进入讨论串。

5. 在你支付 Meta 猜测你的受众之前，先支付创作者演示你的应用。花几百美元给细分领域的微型影响者，让他们制作原生的“这是我用的东西”视频，比不到 1000 美元的广泛社交广告更有效，后者需要三倍预算才能产生可用数据。Cal AI 的创始人手动 DM 健身创作者，推动应用下载量超过一百万。

6. 将付费活动作为狭窄的意向捕捉，而不是广泛的潜在客户开发。在你的预算能养活它之前，跳过 Meta。每天投入 10 到 20 美元到长尾 Google 搜索，针对 5 到 10 个购买意向关键词，比如“最佳[你的类别]适用于[受众]”。这能测试人们是否愿意付费，然后再扩展任何东西。

7. 发布免费微型工具，而不是博客文章。AI 概述摧毁了信息性 SEO，而且 83% 触发它的搜索以零点击结束。小型免费工具仍然能吸引流量：针对“[东西]生成器”和“[东西]计算器”关键词，这种你用 AI 编码工具一下午就能构建的东西，然后直接指向你的应用作为升级。

⏰ 00:48 | ❤️ 34点赞 | 📝 781字 | 查看原文 →

↑ 返回顶部

Rohan Paul @rohanpaul_ai

Compiling in real-time, the race towards AGI. The Largest Show on X for AI. | 影响力: 0万粉丝

💡 核心观点: DeepSeek成中国最高估值AI初创，创始人控股90%并押注开源与国产芯片。

可信度: 6/10 – 1项声明可直接验证；2项需进一步确认；1项为观点陈述

事实核查:

◐ 部分可验证: DeepSeek 在一轮 74 亿美元的巨额融资和 500 亿美元估值后，荣登中国最有价值的 AI 初创公司宝座。 (融资额和估值可通过官方公告或权威财经媒体报道（如彭博、路透）部分验证，但“最有价值的 AI 初创公司”需对比其他公司公开数据，可能因统计口径或未公开信息存在争议。)
✓ 可验证: 创始人梁文峰在融资前持有公司近 90% 的股份，并作为最大出资人投资了约 30 亿美元。 (股权比例和大额个人投资通常属于未公开的商业机密，除非公司主动披露或通过监管文件（如招股书）公开，否则无法独立验证。)
◐ 部分可验证: 腾讯投资约 15 亿美元，宁德时代投资约 7.4 亿美元，中国国家人工智能产业投资基金投资约 1.5 亿美元。 (头部机构投资金额可能通过官方新闻稿或投资者公告验证，但若未明确披露具体数字（如仅宣布“参与融资”），则需依赖第三方信源，可能存在偏差。)

原文内容:

DeepSeek 在一轮 74 亿美元的巨额融资和 500 亿美元估值后，荣登中国最有价值的 AI 初创公司宝座。

不寻常的地方在于控制权：DeepSeek 创始人梁文峰在融资前持有公司近 90% 的股份，并作为最大出资人投资了约 30 亿美元。

DeepSeek 的赌注是继续推动开源模型和 AGI 研究，同时帮助华为等国内芯片制造商在美国的芯片限制下运行强大的模型。

其他披露的主要投资者：
腾讯：约 15 亿美元
宁德时代：约 7.4 亿美元
中国国家人工智能产业投资基金：约 1.5 亿美元

⏰ 05:00 | ❤️ 64点赞 | 📝 164字 | 查看原文 →

↑ 返回顶部

Rohan Paul @rohanpaul_ai

Compiling in real-time, the race towards AGI. The Largest Show on X for AI. | 影响力: 0万粉丝

💡 核心观点: 新加坡AI应用领先全球，显著提升工作能力。

可信度: 6/10 – 1项声明可直接验证；2项需进一步确认

事实核查:

◐ 部分可验证: 微软 2026 年工作趋势指数显示，新加坡劳动力在 AI 采用方面领先。 (需查阅微软官方发布的 2026 年工作趋势指数报告或相关新闻稿，但截至当前（2023 年），2026 年数据尚未发布，可能存在时间矛盾或预测性质。)
✓ 可验证: 66% 的新加坡 AI 用户表示，他们现在能创作出一年前无法完成的工作，相比全球的 58%。 (若微软公开了该调查的详细报告或方法论（如样本量、问卷设计等），可通过官方渠道验证；但需确认数据来源是否透明。)
◐ 部分可验证: 在微软所称的“前沿专业人士”（即高级 AI 用户）中，这一比例上升至 82%。 (需验证微软对“前沿专业人士”的定义是否明确，以及该群体样本是否具有代表性；若定义模糊则可能影响验证性。)

原文内容:

微软 2026 年工作趋势指数显示，新加坡劳动力在 AI 采用方面领先。

66% 的新加坡 AI 用户表示，他们现在能创作出一年前无法完成的工作，相比全球的 58%。

在微软所称的“前沿专业人士”（即高级 AI 用户）中，这一比例上升至 82%。

⏰ 03:51 | ❤️ 21点赞 | 📝 80字 | 查看原文 →

↑ 返回顶部

Rohan Paul @rohanpaul_ai

Compiling in real-time, the race towards AGI. The Largest Show on X for AI. | 影响力: 0万粉丝

💡 核心观点: TokenPilot通过智能缓存管理降低LLM代理成本并保持性能稳定。

可信度: 8/10 – 1项声明可直接验证；3项需进一步确认；1项为观点陈述

事实核查:

◐ 部分可验证: TokenPilot 通过感知摄取的压缩和感知生命周期的驱逐来降低 LLM 代理成本 (需通过论文（arXiv链接）中的实验设计和方法细节验证其技术原理，但实际效果需独立复现或第三方测试确认。)
✓ 可验证: 在 PinchBench 和 Claw-Eval 上实现了 61–87% 的成本降低，同时保持竞争性得分 (可通过论文中的基准测试数据和结果直接验证，但需确认测试环境是否可复现（如数据集、对比方法等）。)
◦ 观点: 更便宜的 AI 代理需要稳定的内存，而不仅仅是更短的提示 (属于技术主张或假设，需依赖后续研究或实践验证，目前无直接客观证据。)

原文内容:

TokenPilot 通过感知摄取的压缩和感知生命周期的驱逐来降低 LLM 代理成本。

在 PinchBench 和 Claw-Eval 上实现了 61–87% 的成本降低，同时保持竞争性得分。

认为更便宜的 AI 代理需要稳定的内存，而不仅仅是更短的提示。

较旧的方法通常会截断或总结历史记录，但这可能会移动文本位置并破坏提示缓存，即重用未更改提示文本以节省费用的系统。

TokenPilot 试图同时解决两方面问题，通过在新的工具结果进入上下文之前清理它们，并通过在任务之间保持早期提示布局的稳定性。

它还在删除旧任务历史之前等待，因为完成的工作仍然可以帮助后续引用相同文件或目标的任务。

----

链接 – arxiv.org/abs/2606.17016v1

标题：“TokenPilot：LLM 代理的高效缓存上下文管理”

⏰ 03:29 | ❤️ 31点赞 | 📝 232字 | 查看原文 →

↑ 返回顶部

# x每日奏折