【AI 英文奏折】06月26日

x每日奏折3周前发布 tianming

78 0 0

【AI 英文奏折】2026年06月26日

共收录 20 篇深度内容

📋 今日内容速览

快速浏览，点击感兴趣的推文查看详细分析

Gary Marcus: AI泡沫破裂后基础设施难留存，LLM或面临高成本低利润困境。
levelsio: 成功实现经典DOS游戏互联网多人联机功能。
Santiago Valdarrama: 云端机器全天运行，支持远程操作无需配置。
Suchen Zang: AI研发者被视作核武专家，地缘冲突或引发AI军备竞赛。
Rohan Paul: 大模型因容量优势能保留低频任务学习信号。
Rohan Paul: DeepReinforce开源Ornith-1.0模型，性能超越Claude Opus。
levelsio: 反人类去增长主义是欧洲最危险的思想控制。
levelsio: 法国女孩反对移民火星，认为人类破坏地球且本性恶劣。
Ethan Mollick: 员工更倾向使用现成AI工具而非公司自建技术栈。
Santiago Valdarrama: 专注产品的公司比基础模型开发者更具竞争优势。
Ethan Mollick: 美国政府能有效禁止企业使用开放权重模型。
ℏεsam: 贝佐斯抓住早期互联网增长机遇，以口碑营销推动亚马逊崛起。
Alex Prompter: 根据任务难度匹配Claude的努力级别以节省成本。
Amira Zairi: 快速生成多风格艺术作品的提示词工具。
Rohan Paul: AI经济增速远超历史水平，收入形成加速但深度部署仍早期。
levelsio: 世界幸福报告不实，盖洛普报告显示中国等国更幸福。
Ethan Mollick: 大规模信息安全风险需公开应对以保护企业。
Hasan Toor: 循环工程让AI代理自动持续工作，无需人工逐步干预。
Chubby♨️: 美国政府强制限制GPT-5.6预览范围，AI发布转向许可制。
swyx: AIE展会增设音乐角落，招募编程音乐人即兴合奏，展位即将售罄。

📖 详细内容

Gary Marcus @garymarcus

OG GenAI Skeptic; spoke at US Senate. Advocating world models | 影响力: unknown万粉丝

💡 核心观点: AI泡沫破裂后基础设施难留存，LLM或面临高成本低利润困境。

可信度: 6/10 – 1项声明可直接验证；2项需进一步确认；1项为观点陈述

事实核查:

◐ 部分可验证: 人工智能泡沫破裂后，新基础设施仍将留存，类似19世纪铁路泡沫破裂后铁路的存续 (历史类比部分可验证（铁路泡沫后基础设施存续有记录），但AI基础设施的长期留存需依赖未来技术发展路径，无法完全验证。)
✓ 可验证: 硅片因技术迭代难以长期保值，更先进芯片会取代旧芯片 (半导体行业的技术迭代规律（如摩尔定律）和芯片贬值现象可通过行业报告或历史数据验证。)
◐ 部分可验证: 大型语言模型（LLM）可能被更高效、较少依赖昂贵芯片的模型取代 (技术替代性需结合当前研究趋势（如轻量化模型发展），但未来具体演进路径仍存在不确定性。)

原文内容:

“如果人工智能泡沫破裂，乐观主义者认为，即使公司倒闭，新基础设施仍将留存——就像铁路在19世纪铁路泡沫破裂后依然存续。然而，这一观点未能考虑到折旧的现实（很少有硅片能长期保持价值，因为更先进的芯片总会问世），以及大型语言模型（LLM）可能被更高效、较少依赖大量昂贵人工智能芯片的模型取代的可能性。   

在押注大规模超大规模扩展时，投资者对未来的收益设定了奢华的期望。但大型语言模型不太可能复制当前科技巨头凭借近乎垄断地位所拥有的难以撼动市场力量。对它们的更好类比可能是航空公司，这些公司受困于微薄利润、激烈竞争、高额开支以及对外部供应商硬件的依赖。”

– @garymarcus in @FinancialTimes

⏰ 10:51 | ❤️ 45点赞 | 📝 243字 | 查看原文 →

↑ 返回顶部

levelsio @levelsio

Nomad List & Remote OK. Building in public. Solo maker. | 影响力: 320.0k万粉丝

💡 核心观点: 成功实现经典DOS游戏互联网多人联机功能。

可信度: 6/10 – 1项声明可直接验证；1项需进一步确认；1项为观点陈述

事实核查:

◐ 部分可验证: 能够让DOS游戏（Quake 1、Duke Nukem 3D、Doom 1、Doom 2）以其原始DOS版本在多人模式下运行，使用自研的局域网（LAN）模拟器 (需通过访问推文提供的链接（http://pieter.com）并实际测试游戏功能，或检查开源代码（若公开）来验证技术实现，但无法直接确认“原始DOS版本”的兼容性细节。)
✓ 可验证: 通过访问http://pieter.com可自动匹配其他玩家，通过互联网和服务器（WebSockets）创建小型LAN (可通过访问该链接并尝试匹配玩家来验证功能是否如描述工作，但需依赖实际用户参与测试。)
◦ 观点: 系统运行“非常出色” (这是用户的主观评价，缺乏客观性能指标（如延迟、稳定性数据）支持。)

原文内容:

它成功了！

我现在已经能够让所有这些 DOS 游戏以其原始 DOS 版本在多人模式下运行，使用我自己的局域网 (LAN) 模拟器：
- Quake 1
- Duke Nukem 3D
- Doom 1
- Doom 2

如果你前往 http://pieter.com 并开始游戏，如果你有可用的其他玩家，你会自动匹配到一个玩家，你们两人之间会通过互联网和我的服务器（通过 WebSockets）创建一个小型 LAN。

考虑到涉及的所有步骤，它运行得非常出色

⏰ 05:17 | ❤️ 315点赞 | 📝 120字 | 查看原文 →

↑ 返回顶部

Santiago Valdarrama @svpino

| 影响力: unknown万粉丝

💡 核心观点: 云端机器全天运行，支持远程操作无需配置。

可信度: 6/10 – 1项声明可直接验证；2项需进一步确认

事实核查:

✓ 可验证: 我在家里有一台 Mac Studio，从来不关机，但当我外出旅行时，我无法让本地代理在笔记本电脑合上时继续运行。 (这是个人使用体验和具体情境的描述，无法通过公开信息验证其真实性或普遍性。)
◐ 部分可验证: 我们即将迎来一个新的 OpenClaw 竞争者。 (若“OpenClaw”是已知公开项目或产品，可通过官方渠道验证是否存在竞品；但若为未公开或模糊概念，则无法完全验证。)
◐ 部分可验证: 这个新产品提供一台专用的云端机器，全天 24/7 运行，支持浏览器访问和代码执行，能做任何本地能做的事情而无需担心配置问题。 (功能描述可通过产品官网或官方文档验证，但“能做任何本地能做的事情”属于主观夸大表述，需实测确认实际能力限制。)

原文内容:

我在家里有一台 Mac Studio，从来不关机，但当我外出旅行时，我无法让本地代理在笔记本电脑合上时继续运行。

我很高兴我们即将迎来一个新的 OpenClaw 竞争者

这个新产品为你提供一台专用的云端机器，全天 24/7 运行。它支持浏览器访问和代码执行。你可以做*任何*本地能做的事情，而无需担心配置问题。

⏰ 22:43 | ❤️ 25点赞 | 📝 115字 | 查看原文 →

↑ 返回顶部

Suchen Zang @suchenzang

| 影响力: unknown万粉丝

💡 核心观点: AI研发者被视作核武专家，地缘冲突或引发AI军备竞赛。

可信度: 10/10 – 2项声明可直接验证；1项需进一步确认；2项为观点陈述

事实核查:

◐ 部分可验证: 有人希望将AI模型当作核武器对待 (部分可验证，因为确实存在关于AI技术军事化或战略竞争的公开讨论（如联合国、智库报告等），但推文中的“这些人”未明确指向具体群体，需进一步核实其代表性或政策动向。)
✓ 可验证: 研究人员被当作二战期间拥有核国家机密的人对待 (无法直接验证，推文使用了类比（核机密与AI研究人员的处境），但未提供具体案例或证据表明当前AI研究人员受到同等级别的保密限制或管控。)
◦ 观点: 地缘政治紧张局势升级可能导致第三次世界大战 (属于主观推测，尽管存在AI技术竞争加剧地缘冲突的担忧（如美中AI竞赛），但“第三次世界大战”的断言无直接事实支撑，仅为观点表述。)

原文内容:

这些人希望将AI模型当作核武器对待，研究人员被当作二战期间拥有核国家机密的人对待，地缘政治紧张局势升级，直到我们迎来第三次世界大战，到那时所有生产力都可以被没收用于“AI工业革命”

他们努力成为本世纪的奥本海默-洛克菲勒

⏰ 10:45 | ❤️ 46点赞 | 📝 98字 | 查看原文 →

↑ 返回顶部

Rohan Paul @rohanpaul_ai

Compiling in real-time, the race towards AGI. The Largest Show on X for AI. | 影响力: 0万粉丝

💡 核心观点: 大模型因容量优势能保留低频任务学习信号。

可信度: 10/10 – 2项声明可直接验证；2项需进一步确认；1项为观点陈述

事实核查:

◐ 部分可验证: 更大的AI模型能学会稀有技能，因为它们在训练过程中遗忘得更少，额外空间保护了微弱的学习信号 (可通过论文中的实验设计（如受控玩具任务和OLMo模型测试）间接验证，但需依赖作者对数据的解读，且实际效果可能因任务类型或训练数据而异。)
✓ 可验证: 小型模型可能短暂捕捉稀有信号，但常见任务更新会覆盖它，而大模型能保留微弱信号直至转化为技能 (论文通过对比不同规模模型在低频任务中的表现（如梯度干扰、任务特征保留）提供了直接数据支持，可通过公开论文复现实验验证。)
◐ 部分可验证: 常见任务首先占据模型神经元，导致稀有任务在稳定前被覆盖 (论文的“神经元占用”机制是理论假设，虽通过实验现象（如任务干扰）间接支持，但需更多独立研究验证其普适性。)

原文内容:

伟大的斯坦福 + MIT + 哈佛 + Anthropic 论文。

给出了一个清晰的基于训练的原因，解释为什么更大的模型能学会小型模型遗漏的能力。

论文指出，更大的 AI 模型能学会稀有技能，是因为它们在训练过程中遗忘得更少，它们的额外空间保护了微弱的学习信号。

作者们表示，问题不只是小型模型是否能表示该任务，而是训练是否能让它保留该任务，同时众多常见任务不断挤压相同的有限部分。

他们的核心观点是，常见任务首先占据模型的神经元，因此稀有任务在出现得足够频繁以形成稳定知识之前就会被覆盖。

在拥挤的数据混合中，常见模式首先占据模型的内部机制。

小型模型可能短暂捕捉到一个稀有信号，但下一波常见任务更新会在信号再次出现之前覆盖它。

他们首先用受控的玩具任务测试了这一点，在这些任务中他们能改变每个任务的稀有性和复杂性，然后用从 4M 到 4B 参数的 OLMo 语言模型进行测试。

主要结果是，更大的模型学会低频任务的效果好得多，在它们的表示中保留了更多任务特征，并显示出更少的梯度干扰，这意味着常见任务更新对稀有任务学习的干扰更少。

更大的模型能记住微弱的稀有信号足够长的时间，将它们转化为真正的学习技能。

----

链接 – arxiv.org/abs/2605.29548

标题：“为什么更大的模型学得更多：容量、干扰和稀有任务保留的影响”

⏰ 18:02 | ❤️ 410点赞 | 📝 457字 | 查看原文 →

↑ 返回顶部

Rohan Paul @rohanpaul_ai

Compiling in real-time, the race towards AGI. The Largest Show on X for AI. | 影响力: 0万粉丝

💡 核心观点: DeepReinforce开源Ornith-1.0模型，性能超越Claude Opus。

可信度: 10/10 – 3项声明可直接验证；2项需进一步确认

事实核查:

✓ 可验证: DeepReinforce 发布了 MIT 许可的开源模型 Ornith-1.0 系列，旗舰模型为 Ornith-1.0-397B MoE（17B 活跃参数） (可通过 DeepReinforce 的官方 GitHub 或开源平台（如 Hugging Face）查看模型许可证、参数规模及发布信息。)
◐ 部分可验证: Ornith-1.0-397B MoE 在 SWE-Bench Verified 上得分 82.4，Terminal-Bench 2.1 上得分 77.5，超越 Claude Opus 4.7 (需核实 SWE-Bench 和 Terminal-Bench 的官方排行榜或论文数据，但需确认测试版本（如 Terminal-Bench 2.1）是否公开；Claude Opus 4.7 的对比数据需官方或第三方复现。)
◐ 部分可验证: 模型基于预训练的 Gemma 4 和 Qwen 3.5 构建，采用自我改进训练策略 (模型架构和基座信息可通过代码仓库或技术文档验证，但“自我改进训练策略”需依赖论文或详细实验报告佐证其具体实现。)

原文内容:

又一个精彩的开源发布。

DeepReinforce 刚刚发布了 Ornith-1.0，这是一个 MIT 许可的开源代理式编码大语言模型系列。

旗舰模型 Ornith-1.0-397B MoE（17B 活跃参数）是本次发布中最强大的模型，在 SWE-Bench Verified 上得分 82.4，在 Terminal-Bench 2.1 上得分 77.5——在两个基准测试中均超越了 Claude Opus 4.7。

基于预训练的 Gemma 4 和 Qwen 3.5 构建

采用了一种新颖的自我改进训练策略。通过这种策略，Ornith 通过要求模型同时改进答案和任务支架来改变训练目标，这意味着塑造答案的计划、记忆模式、工具节奏、错误处理和搜索过程。

在强化学习过程中，模型首先提出一个更好的支架，然后使用它来生成解决方案 rollout，奖励会同时更新这两个阶段。

这使得模型不像是一个遵循单一僵硬检查清单的编码者，而更像是一个学习针对每种类型 bug、仓库或终端任务应该使用哪种检查清单的编码者。

最有趣的结果是 9B 模型在 SWE-Bench Verified 上达到了 69.4

⏰ 23:47 | ❤️ 83点赞 | 📝 277字 | 查看原文 →

↑ 返回顶部

levelsio @levelsio

Nomad List & Remote OK. Building in public. Solo maker. | 影响力: 320.0k万粉丝

💡 核心观点: 反人类去增长主义是欧洲最危险的思想控制。

可信度: 6/10 – 1项声明可直接验证；2项需进一步确认；1项为观点陈述

事实核查:

◐ 部分可验证: 去增长主义者认为人类是坏的，人类必须终结。 (部分可验证，需查阅去增长主义（Degrowth）相关学术文献或代表人物公开言论，但其核心主张是批判无限经济增长而非“终结人类”，此表述可能存在极端化或曲解。)
◐ 部分可验证: 欧洲是去增长主义思维的中心，媒体持续灌输相关宣传。 (欧洲确有去增长主义思潮（如部分环保政党或学术团体），但“中心”和“媒体持续灌输”需具体数据支持（如媒体内容分析），可能混杂主观判断。)
◦ 观点: 去增长主义是“最危险的思维方式”。 (此为主观价值判断，无客观标准验证“危险性”，取决于不同立场对去增长主义的解读。)

原文内容:

一切都开始变得有道理了，当你意识到去增长主义者实际上是反对生命的。

他们真心认为人类是坏的，人类必须终结。

这是目前最危险的思维方式，它在欧洲为中心，但他们没有意识到自己已经被它掌控，因为他们的媒体每天都在向他们灌输这种宣传。

我知道，我是欧洲人！

⏰ 09:57 | ❤️ 517点赞 | 📝 111字 | 查看原文 →

↑ 返回顶部

levelsio @levelsio

Nomad List & Remote OK. Building in public. Solo maker. | 影响力: 320.0k万粉丝

💡 核心观点: 法国女孩反对移民火星，认为人类破坏地球且本性恶劣。

可信度: 10/10 – 3项声明可直接验证；1项需进一步确认；1项为观点陈述

事实核查:

✓ 可验证: 一个可爱的法国女孩反对人类去火星，因为“人类已经毁了这个星球” (该声明基于个人偶遇的对话，属于未公开的私人互动，无法通过第三方渠道验证其真实性或具体内容。)
✓ 可验证: 法国女孩说“人类很坏” (同上，属于个人转述的私人言论，缺乏客观记录或证据支持。)
◦ 观点: 推文作者“非常非常支持人类，即使我们并不完美，但总体上是正面的” (这是作者的主观立场和价值判断，无客观事实依据，属于个人观点表达。)

原文内容:

我遇到的一个可爱的法国女孩反对我们去火星，因为“人类已经毁了这个星球”

然后她还直白地说“人类很坏”

这让我震惊，因为我完全持相反观点，我非常非常支持人类，即使我们并不完美，但我们总体上是正面的

⏰ 10:01 | ❤️ 85点赞 | 📝 86字 | 查看原文 →

↑ 返回顶部

Ethan Mollick @emollick

Professor @Wharton studying AI, innovation & startups. Democratizing education using tech. Author of Co-Intelligence | 影响力: unknown万粉丝

💡 核心观点: 员工更倾向使用现成AI工具而非公司自建技术栈。

可信度: 9/10 – 2项声明可直接验证；2项需进一步确认

事实核查:

◐ 部分可验证: 公司制定复杂计划来构建自己的 AI 技术栈 (部分公司可能公开其 AI 技术战略（如财报、技术博客），但“复杂计划”属于主观描述，且并非所有公司都会公开细节。)
✓ 可验证: 公司里许多人想使用 Claude 或 ChatGPT (依赖推文作者的个人观察，无法通过公开数据验证员工偏好或内部讨论。)
✓ 可验证: 员工正向采购人员施压要求获取许可证 (涉及公司内部流程和非公开沟通，无直接验证渠道。)

原文内容:

我觉得在 X 上，你听到的全是公司制定复杂计划来构建自己的 AI 技术栈，但根据我的经验，公司里满是想使用 Claude 或 ChatGPT 的人，他们正向采购人员施压，要求获取许可证，这样他们就能直接使用他们熟悉的工具。

⏰ 09:54 | ❤️ 122点赞 | 📝 80字 | 查看原文 →

↑ 返回顶部

Santiago Valdarrama @svpino

| 影响力: unknown万粉丝

💡 核心观点: 专注产品的公司比基础模型开发者更具竞争优势。

可信度: 5/10 – 2项需进一步确认；2项为观点陈述

事实核查:

◦ 观点: 构建最佳基础模型的公司不会在基于它们构建的产品上获胜 (该声明属于主观判断，缺乏具体数据或案例支持，无法通过公开渠道直接验证其普遍性。)
◐ 部分可验证: 专注核心产品的公司（如AWS、Azure、GCP上的最佳产品）更容易胜出 (云计算领域的成功案例（如Slack、Netflix等）部分支持这一观点，但“专注”与“胜出”的因果关系需具体分析，且“最佳产品”定义主观。)
◦ 观点: 真正有优势的公司是不锁定单一模型且注重细节的公司 (这是策略性建议，属于主观观点。虽然部分公司（如OpenAI的模型切换能力）可能佐证，但“优势”标准无法量化验证。)

原文内容:

我不认为构建最佳基础模型的公司也会在基于它们构建的产品上获胜。

同时做好两者真的很难。专注才能胜出。

云计算就是一个例子：在 AWS、Azure 和 GCP 上运行的最佳产品来自那些痴迷于细节、专注于核心产品的公司。

人工智能也会如此。

真正有优势的公司是那些 1) 不把自己锁定在单一模型上，2) 注重细节的公司。

客户总是会选择提供“开箱即用”应用的公司。

⏰ 21:32 | ❤️ 31点赞 | 📝 140字 | 查看原文 →

↑ 返回顶部

Ethan Mollick @emollick

Professor @Wharton studying AI, innovation & startups. Democratizing education using tech. Author of Co-Intelligence | 影响力: unknown万粉丝

💡 核心观点: 美国政府能有效禁止企业使用开放权重模型。

可信度: 6/10 – 1项声明可直接验证；2项需进一步确认；1项为观点陈述

事实核查:

◐ 部分可验证: 美国政府可以有效地禁止开放权重模型 (美国政府的监管能力可通过法律案例（如出口管制、技术禁令）部分验证，但“有效禁止”需结合具体政策执行效果，目前尚无公开数据证明其对开放权重模型的全面限制成效。)
✓ 可验证: 禁止后用户仍可下载并运行开放权重模型 (技术层面，开源模型的权重文件一旦发布即可被独立下载运行（如LLaMA、Stable Diffusion案例），但法律风险可能影响实际使用。)
◐ 部分可验证: 美国政府能确保没有美国公司使用、提供访问或托管开放权重模型 (可通过企业合规行为（如Meta限制LLaMA商用）部分验证，但“确保”需依赖全面监管，实际可能存在规避手段，无法完全证实。)

原文内容:

正如这篇帖子所指出的，与许多人所说的相反，美国政府绝对可以有效地禁止开放权重模型。这并不意味着你无法下载这些权重并运行它们，但他们可以确保没有美国公司会使用它们、提供访问权限或托管它们。

⏰ 08:50 | ❤️ 309点赞 | 📝 87字 | 查看原文 →

↑ 返回顶部

ℏεsam @hesamation

ai/ml • giving birth to agents in my spare time | 影响力: 82.0k万粉丝

💡 核心观点: 贝佐斯抓住早期互联网增长机遇，以口碑营销推动亚马逊崛起。

可信度: 6/10 – 1项声明可直接验证；2项需进一步确认；1项为观点陈述

事实核查:

◐ 部分可验证: 杰夫·贝佐斯在1997年看到“网页使用量每年增长2300%”并抓住了这个机会。 (网页使用量增长数据可能来自早期互联网研究报告（如Nielsen或IDC），但具体引用来源需进一步查证。贝佐斯是否明确提及这一数据需通过其公开演讲、采访或亚马逊早期文件确认。)
◐ 部分可验证: 亚马逊在最初一年内零付费广告，仅通过口碑和“赚取式媒体”成长。 (亚马逊早期营销策略可通过1997年财报或传记（如《一网打尽》）部分验证，但“零付费广告”需具体财务记录佐证，公开资料可能不完整。)
✓ 可验证: 贝佐斯在1997年称“注意力是20世纪晚期的稀缺商品”。 (若该言论出自公开演讲或采访（如存档于新闻数据库），则可验证；若无直接记录，则无法确认。需具体来源。)

原文内容:

杰夫·贝佐斯在1997年，当时亚马逊还不是亚马逊。

1. 他看到“网页使用量每年增长2300%”，并抓住了这个机会。

2. 一年内，零付费广告。它通过口碑和“赚取式媒体”成长。

3. “注意力是20世纪晚期的稀缺商品。”他在1997年这样说。

4. 哥们儿把1997年称为“电子商务的Kittyhawk阶段”。这就是他认为自己所处早期阶段的水平。

⏰ 08:25 | ❤️ 43点赞 | 📝 109字 | 查看原文 →

↑ 返回顶部

Alex Prompter @alex_prompter

Marketing + AI = $$$
@godofprompt (co-founder) | 影响力: 94.19k万粉丝

💡 核心观点: 根据任务难度匹配Claude的努力级别以节省成本。

可信度: 10/10 – 2项声明可直接验证；2项需进一步确认；1项为观点陈述

事实核查:

✓ 可验证: Claude有5个努力级别（LOW/MEDIUM/HIGH/XHIGH/MAX），每个级别控制模型响应前思考的深度 (可通过Anthropic官方文档或API说明验证努力级别的存在及其定义，属于公开技术参数。)
◐ 部分可验证: 默认努力级别是“HIGH”，大多数人从未调整过它 (默认设置可能通过官方文档验证，但“大多数人从未调整”属于用户行为统计，需Anthropic内部数据支持，无法公开验证。)
◐ 部分可验证: 在复杂任务上选择更高努力级别（如XHIGH/MAX）会提高输出质量，因为模型分配更多思考预算 (模型表现与努力级别的相关性可通过实测验证，但“质量提高”需具体任务对比测试，且主观评价成分存在。)

原文内容:

停止将每个 Claude 任务都设置为“high”。你正在为那些需要“low”的任务浪费令牌。

Claude 有 5 个努力级别。每个级别控制模型在响应前思考的深度。更多思考 = 更好的推理，但也更慢、更昂贵。

默认是“high”，大多数人从未调整过它。这是速查表：

LOW  
修正拼写错误。快速摘要。简单查询。“这个缩写是什么意思。”  
最快、最便宜。不需要深度推理，也不会浪费。

MEDIUM  
起草电子邮件。头脑风暴。标准问答。翻译。轻度编辑。  
能处理大多数当前在 high 上运行的日常任务。

HIGH (默认)  
内容规划。研究摘要。文档分析。专业写作。一般推理。  
大多数知识工作合适的级别。除非有理由，否则就保持在这里。

XHIGH  
多文件代码调试。架构决策。带有重复工具调用的长代理运行。  
Anthropic 自己推荐用于编码和代理用例。

MAX  
上限。没有令牌预算，没有捷径。跨海量文档的深度研究。对新颖问题的第一性原理推理。  
当错误答案的成本高于令牌成本时使用。

模式：将档位匹配到任务。

查询时降到 low。写作和分析时保持在 high。当 Claude 需要推理数千行代码时，推到 xhigh 或 max。

我开始这样做后，例行任务的令牌消耗明显下降，而输出质量没有损失。在复杂任务上，质量实际上提高了，因为模型将思考预算花在了关键地方。

努力级别是一个行为信号，不是硬性预算。如果你在一个真正困难的问题上设置“low”，Claude 仍会在任务要求时思考更深。你不会因为选择了较低设置就得到错误答案。

保存这个。你每天都会用到。

⏰ 02:27 | ❤️ 42点赞 | 📝 469字 | 查看原文 →

↑ 返回顶部

Amira Zairi @azed_ai

AI Educator & Creator | Ambassador @Adobe @LeonardoAi & @tripoai | Partner with leading brands | Collaboration → [email protected] | 影响力: 57.13k万粉丝

💡 核心观点: 快速生成多风格艺术作品的提示词工具。

可信度: 10/10 – 2项声明可直接验证；2项需进一步确认；1项为观点陈述

事实核查:

◐ 部分可验证: Fuser构建了Studio Remix，可将一个想法转化为10种不同的艺术风格 (需通过实际使用Studio Remix或查看官方功能演示来验证其是否支持10种风格转换，但无法直接通过推文确认具体技术实现（如是否由Fuser构建）。)
◐ 部分可验证: Studio Remix无需代码、设计工具或复杂设置，工作流程仅为提示、优化、发布 (用户界面和操作流程可通过实际体验验证，但“无需复杂设置”等描述可能因用户技术水平不同而存在主观差异。)
✓ 可验证: 该应用在5分钟前还不存在 (开发时间属于内部信息，除非公开版本历史记录或时间戳，否则无法验证这一具体时间声明。)

原文内容:

这个应用在5分钟前还不存在

我想要一种简单的方法来测试一个提示词在10种不同的视觉风格中的效果，而无需手动重写所有内容或在零散的笔记之间跳跃

所以我用 Fuser 构建了 Studio Remix

只需输入一个想法，它就会立即将其转化为10种不同的艺术风格，从逼真的摄影风格和电影风格，到动漫、赛博朋克、水彩画等等

整个工作流程就是提示、优化、发布，没有代码、没有设计工具，也没有复杂的设置

让我来演示给你看：

⏰ 01:53 | ❤️ 83点赞 | 📝 163字 | 查看原文 →

↑ 返回顶部

Rohan Paul @rohanpaul_ai

Compiling in real-time, the race towards AGI. The Largest Show on X for AI. | 影响力: 0万粉丝

💡 核心观点: AI经济增速远超历史水平，收入形成加速但深度部署仍早期。

可信度: 8/10 – 1项声明可直接验证；4项需进一步确认

事实核查:

◐ 部分可验证: 扣除重复计算后的真实 AI 收入为 1100 亿美元（12 个月内），以最终客户支出衡量。 (需查阅 @exponentialview 的报告原文或相关数据来源，确认其统计方法和数据覆盖范围（如是否排除供应链传递收入、中国等）。若报告未公开详细方法论，则无法完全验证。)
◐ 部分可验证: AI 增长速度大约是移动或互联网采用浪潮的 3 倍。 (可通过对比历史移动/互联网 adoption rate 数据与当前 AI 收入增速验证，但需明确比较基准（如具体时间段、指标定义）。若报告提供明确数据来源（如 Gartner/IDC），则可直接验证。)
✓ 可验证: AI 财报电话会议提及率达到所追踪的标普 500 公司的 31%。 (可通过标普 500 公司公开财报电话会议记录或第三方分析平台（如 Bloomberg/Sentieo）检索关键词验证，但需确认统计样本和时间范围。)

原文内容:

这是一份出色的报告。《AI 经济现状》由 @exponentialview

- 扣除重复计算后的真实 AI 收入为 1100 亿美元（12 个月内），因此在 Claude 上花费的 1 美元只计入一次，即使其中部分资金后来流向亚马逊或其他基础设施提供商。

- 当前年化收入运行率达到 1750 亿美元，显示出快速加速。以最终客户支出衡量，而非供应链传递收入。不包括中国、内部 AI 节省、广告提升、咨询和系统集成。

- 增长速度大约是移动或互联网采用浪潮的 3 倍。

- 收入形成的速度已急剧加速。新产生的 10 亿美元收入现在不到 2 天即可实现，而 2023 年需要 180 天。

- 企业 AI 已超越试点阶段，但公司范围内的深度部署仍处于早期。

- AI 财报电话会议提及率达到所追踪的标普 500 公司的 31%。

- 仅有 20% 的追踪公司提出了量化的 AI 影响声明。

- 目前，超大规模云厂商的 AI 收入大致覆盖了 AI 基础设施的折旧。GPU 经济学在很大程度上依赖于 6 年计算寿命假设。
其他 AI 基础设施则按 14 年建模。

- 令牌价格削减并不自动减少收入。

- 每降低 10% 的令牌价格，就会推动 12-18% 更多的令牌使用量。

- AI 需求表现为价格弹性，这意味着更便宜的 AI 会比价格下降的速度更快地扩大使用量。

- 电力可用性和数据中心成本仍是未来扩展的主要限制因素。

⏰ 07:29 | ❤️ 48点赞 | 📝 394字 | 查看原文 →

↑ 返回顶部

levelsio @levelsio

Nomad List & Remote OK. Building in public. Solo maker. | 影响力: 320.0k万粉丝

💡 核心观点: 世界幸福报告不实，盖洛普报告显示中国等国更幸福。

可信度: 10/10 – 3项声明可直接验证；1项需进一步确认；1项为观点陈述

事实核查:

◐ 部分可验证: “世界幸福报告”实际上并不衡量幸福，而是衡量人均GDP和预期寿命 (世界幸福报告的官方方法论（可查阅其官网或报告）确实包含人均GDP、预期寿命等客观指标，但同时也结合主观调查（如盖洛普民调的“生活评价”问题）。是否“不衡量幸福”需结合对“幸福”定义的主观判断，因此部分可验证。)
◦ 观点: “世界幸福报告”以西方为中心且带有反美偏见 (报告中北欧国家常居前列，可能被解读为“西方中心”，但“反美偏见”是主观指控，未提供具体证据（如方法论设计中的歧视性条款）。需分析作者背景或数据权重才能验证，目前属于观点。)
✓ 可验证: 盖洛普2025年国际幸福报告显示中国排名第一 (截至2023年，盖洛普未发布“2025年国际幸福报告”，且其现有报告（如《全球情绪报告》）排名与推文不符。数据来源不明，可能为虚构或误引。)

原文内容:

这些排名来自“世界幸福报告”

众所周知，这是一份骗人的报告，并非真正关于幸福的，作者们也欣然承认这一点：
- 实际上并不衡量幸福
- 而是衡量人均GDP和预期寿命
- 以西方为中心，但带有反美偏见
- 由有议程的经济学家制作，而不是据称对幸福了解更多的心理学家

更可靠的是盖洛普2025年国际幸福报告，它显示了一个完全不同的排名：

1. 中国
2. 印度尼西亚
3. 墨西哥
4. 沙特阿拉伯
5. 丹麦
6. 哈萨克斯坦
7. 马来西亚
8. 秘鲁
9. 韩国
10. 菲律宾

⏰ 07:28 | ❤️ 151点赞 | 📝 167字 | 查看原文 →

↑ 返回顶部

Ethan Mollick @emollick

Professor @Wharton studying AI, innovation & startups. Democratizing education using tech. Author of Co-Intelligence | 影响力: unknown万粉丝

💡 核心观点: 大规模信息安全风险需公开应对以保护企业。

可信度: 4/10 – 2项需进一步确认；1项为观点陈述

事实核查:

◐ 部分可验证: 五眼联盟暗示存在大规模信息安全问题 (五眼联盟（Five Eyes）的官方声明或报告可能提及信息安全威胁，但需查阅其公开文件（如白皮书、新闻稿）确认具体内容。若推文未提供直接引用来源，则需进一步核实。)
◦ 观点: 公开了解风险和应对措施对数以万计公司至关重要 (此声明为主观判断，强调“重要性”但未提供具体数据或案例支持。是否“至关重要”取决于行业背景和实际风险影响，无法直接验证。)
◐ 部分可验证: 大规模信息安全问题可能涉及军事影响之外的更严重后果 (信息安全问题的潜在后果（如经济、社会影响）可通过专家分析或历史事件（如SolarWinds攻击）间接验证，但推文未提供具体证据链，需结合其他信息评估。)

原文内容:

如果仅仅涉及军事影响，那还算一回事，但如果这是关于大规模信息安全的问题（如五眼联盟所暗示的），那么公开了解风险和应对措施对于数以万计需要为下一步做好准备的公司来说，至关重要。

⏰ 07:27 | ❤️ 37点赞 | 📝 80字 | 查看原文 →

↑ 返回顶部

Hasan Toor @hasantoxr

AI & Tech Educator • Sharing insights on AI, Tech Tools, & practical ways to use AI & Tech Tools for you & your daily business • Founder & Writer @theprohumanai | 影响力: 0万粉丝

💡 核心观点: 循环工程让AI代理自动持续工作，无需人工逐步干预。

可信度: 5/10 – 2项需进一步确认；2项为观点陈述

事实核查:

◦ 观点: 循环工程是提示工程之后的下一步 (该声明属于主观观点，描述了对AI工程发展阶段的个人见解，无客观标准或公开证据支持这一排序。)
◐ 部分可验证: 该仓库提供的循环系统（如日常分类循环、PR保姆循环等）能替代人工持续操作AI代理 (需通过实际测试仓库代码或审查其文档功能来验证这些循环的可行性和效果，但缺乏公开的第三方验证数据。)
◐ 部分可验证: 循环工程通过系统化设计减少人工逐步监督，使AI代理自主工作 (需结合仓库技术实现（如CLI工具、GitHub Actions集成等）验证其自动化能力，但“减少监督”的效果取决于具体场景，难以量化。)

原文内容:

循环工程是提示工程之后的下一步。

大多数人仍然像使用聊天框一样使用 Claude Code、Codex、Cursor 或 Grok：

提示。
等待。
复制。
修复。
再次提示。

这个仓库展示了下一步：

你停止提示代理。

你设计一个循环来为你提示代理。

内部包含：

→ 日常分类循环
→ PR 保姆循环
→ CI 清扫循环
→ 依赖清扫循环
→ 更新日志起草循环
→ 合并后清理循环
→ 问题分类循环

它还为你提供 CLI 来：

• 搭建一个循环
• 估算令牌成本
• 审计你的仓库是否准备就绪
• 添加内存/状态
• 添加人工移交
• 添加验证关卡
• 通过 GitHub Actions 安全运行代理

疯狂的部分在于思维的转变。

提示工程是关于编写更好的指令。

循环工程是关于构建一个系统，让代理持续工作、检查、修复和升级，而无需你每一步都像保姆一样监督。

这就是 AI 编码的样子，当它停止成为聊天会话并开始成为软件团队的操作系统时。

仓库：

⏰ 07:27 | ❤️ 114点赞 | 📝 280字 | 查看原文 →

↑ 返回顶部

Chubby♨️ @kimmonismus

Dream realized! Turned my love for AI into a career – sharing daily. Get my newsletter | 影响力: 225k+万粉丝

💡 核心观点: 美国政府强制限制GPT-5.6预览范围，AI发布转向许可制。

可信度: 6/10 – 1项声明可直接验证；2项需进一步确认；1项为观点陈述

事实核查:

◐ 部分可验证: OpenAI 仅向一小群合作伙伴提供 GPT-5.6 的限量预览版 (消息来源为媒体《The Information》，但需OpenAI官方或合作伙伴直接确认才能完全验证。)
◐ 部分可验证: 美国政府要求OpenAI限制GPT-5.6的预览访问 (需核实Sam Altman的公开声明或美国政府相关文件，目前仅依赖媒体报道，缺乏直接证据。)
✓ 可验证: 特朗普的AI行政命令规定新模型审查流程是自愿的 (可通过查阅特朗普政府发布的AI行政命令原文（公开文件）直接验证。)

原文内容:

据报道，OpenAI 仅向一小群合作伙伴提供 GPT-5.6 的限量预览版。消息来源：The Information

据 Sam Altman 称，原因在于：美国政府要求它这样做。

据报道，Altman 告诉员工，在预览期间，政府将“逐个客户批准访问权限”，更广泛的发布可能在几周后跟进。

这显然是在 Anthropic 采取类似路径推出 Mythos 之后，以及白宫因国家安全担忧迫使 Anthropic 撤回 Fable 和 Mythos 之后。

然而：实际上，特朗普的 AI 行政命令明确表示，新模型审查流程应该是自愿的，而不是政府许可或预先审查制度。

但在实践中，前沿 AI 发布开始呈现出截然不同的面貌。

⏰ 04:38 | ❤️ 818点赞 | 📝 177字 | 查看原文 →

↑ 返回顶部

swyx @swyx

| 影响力: unknown万粉丝

💡 核心观点: AIE展会增设音乐角落，招募编程音乐人即兴合奏，展位即将售罄。

可信度: 8/10 – 2项声明可直接验证；1项需进一步确认；1项为观点陈述

事实核查:

◐ 部分可验证: 作者决定启动AIE有史以来第一个音乐角落 (需通过AIE官网或官方公告确认是否存在该活动及是否为“首次”，但需依赖主办方公开信息。)
✓ 可验证: 6月30日的活动+ networking之夜赞助展位是AIE展会上仅剩的机会，其他已售罄 (可通过AIE展会官网或官方销售渠道查询展位销售状态及剩余情况。)
✓ 可验证: 活动门票预计明天售罄 (基于作者主观预测，无法提前验证未来销售结果。)

原文内容:

顺便说一句，作为一名音乐人，我已经决定启动AIE有史以来第一个音乐角落。

如果你会编程+音乐，我们希望在会议间隙来一场即兴合奏。如果你想的话，找我一起唱歌吧。给我们来点你最棒的爸爸摇滚。

6月30日的这个活动+ networking之夜的赞助，是AIE展会上仅剩的展位机会了，其他都已售罄。

（顺便说一句，门票预计明天售罄）

⏰ 04:00 | ❤️ 39点赞 | 📝 123字 | 查看原文 →

↑ 返回顶部

# x每日奏折