【AI 英文奏折】04月20日

x每日奏折3个月前发布 tianming

254 0 0

【AI 英文奏折】2026年04月20日

共收录 22 篇深度内容

📋 今日内容速览

快速浏览，点击感兴趣的推文查看详细分析

Ethan Mollick: OpenAI公开了LLM时代GPT-3.5后最重要的AI突破。
Machina: AI推荐品牌的关键仍是权威网站的外链和提及。
Riley Brown: Codex是一款多功能AI代理集成工具，支持自动化任务与多项目开发。
jack friks: 网站故障全天无法使用，向客户致歉。
Gary Marcus: Claude模仿焦虑而非真正感受焦虑。
Amira Zairi: Leonardo AI可一键生成多尺寸素材，大幅节省创作者时间。
Aakash Gupta: 蓝源将火箭复用学习周期缩短至SpaceX的三分之一。
Machina: 专注深耕一个领域30天胜过浅尝多个行业。
Ksenia_TuringPost: Transformer并非终点，AI仍需突破物理智能新领域。
klöss: 轻松编程遇安全漏洞，紧急补救API密钥泄露。
Aakash Gupta: 开源AI将颠覆网络安全，7个月内须加强防护。
Santiago: 让AI提问引导规划比自行规划更高效。
Aakash Gupta: 热气球无方向控制，无风则无法移动。
Simon Willison: Claude Opus 4.7消耗更多token但单价不变，实质涨价。
Aakash Gupta: 神秘天体周期性释放超强能量，规律精准令人不安。
Anthony Pompliano 🌪: 明日网络研讨会分享AI代理研究成果及近期洞察。
Aakash Gupta: 名字误读导致寻亲之路受阻。
Anthony Pompliano 🌪: 让AI分析投资组合五大风险并提供应对方案。
François Chollet: 人类认知局限促进抽象与直觉，无限资源无需智慧。
Machina: 行动胜于空想，低成本AI创业正当时。
Aakash Gupta: Hermes Agent解决AI代理失忆问题，保留学习经验。
Alex Prompter: AI代码工具需针对性训练，通用任务训练无法提升泛化能力。

📖 详细内容

Ethan Mollick @emollick

博主简介加载中 | 影响力: 0万粉丝

💡 核心观点: OpenAI公开了LLM时代GPT-3.5后最重要的AI突破。

可信度: 6/10 – 1项声明可直接验证；1项需进一步确认；1项为观点陈述

事实核查:

◦ 观点: The second most important release of the LLM era (after GPT-3.5) (该声明是对LLM时代重要性的主观排序，缺乏客观标准或公开数据支持，属于个人观点。)
◐ 部分可验证: OpenAI told everyone about the biggest advance in AI technology since the LLM rather than keeping it to themselves until later (可通过查阅OpenAI官方发布的公告或技术博客验证其是否公开了某项重大进展，但“biggest advance”这一描述需结合具体技术指标或行业共识判断，存在主观性。)
✓ 可验证: featuring what was likely the most important chart (未指明具体图表内容或来源，无法通过公开信息验证其重要性或存在性。)

原文内容:

LLM时代第二重要的发布（仅次于GPT-3.5），其中包含的图表可能是最具划时代意义的。

OpenAI竟然将自LLM以来AI领域的最大技术进步公之于众，而非选择暂时保密，至今仍令我感到诧异。

⏰ 10:28 | ❤️ 151点赞 | 📝 46词 | 查看原文 →

↑ 返回顶部

Machina @exm7777

博主简介加载中 | 影响力: 0万粉丝

💡 核心观点: AI推荐品牌的关键仍是权威网站的外链和提及。

可信度: 5/10 – 2项需进一步确认；2项为观点陈述

事实核查:

◐ 部分可验证: LLMs are trained on massive text datasets scraped from the internet, which means they “know” your brand based on what high-authority sites say about it (部分可验证。公开信息（如OpenAI的博客）证实LLMs的训练数据包含互联网文本，但“高权威站点影响品牌认知”的具体机制未完全公开，需依赖第三方研究或实测验证。)
◐ 部分可验证: To get ChatGPT or Claude to recommend your product when someone asks “what’s the best tool for X?”, you need backlinks and mentions from sources the training data respects (部分可验证。研究表明LLMs的推荐可能与外部链接和权威提及相关（如《Nature》等期刊分析），但具体算法权重未公开，且“训练数据尊重来源”的定义模糊。)
◦ 观点: What matters is whether trusted publications have written about you (for LLM recognition), not Instagram followers or Reddit posts (主观观点。虽符合SEO常识，但无直接证据证明LLMs完全忽略社交媒体数据（如Reddit曾是GPT-3数据源之一），且“信任度”判定标准未公开。)

原文内容:

我受够了那些所谓专家兜售的AI SEO鬼话... 这才是让大语言模型提及你的最快方法...

很遗憾要告诉你真相... 但核心依然是外链建设

大语言模型的训练数据来自全网抓取的海量文本... 这意味着它们是通过权威网站的内容来"认识"你的品牌

如果你希望当有人问"X领域最好用的工具是什么"时，ChatGPT或Claude能推荐你的产品，就必须获得训练数据认可的来源提供的反向链接和品牌提及

大语言模型关注的是：
- 行业权威网站的反向链接
- 优质内容中持续出现的品牌提及
- 可信来源对你域名的引用

你的Instagram粉丝数在这里毫无意义... Reddit发帖也作用有限... 关键在于是否有权威媒体报道过你

当所有人都在试图"破解AI搜索"时... 答案依然是二十年来屡试不爽的方法：建立真正的权威，获取真实的反向链接，赢得权威网站的提及——大语言模型会迅速捕捉到这些信号

⏰ 04:57 | ❤️ 52点赞 | 📝 178词 | 查看原文 →

↑ 返回顶部

Riley Brown @rileybrown

博主简介加载中 | 影响力: 0万粉丝

💡 核心观点: Codex是一款多功能AI代理集成工具，支持自动化任务与多项目开发。

可信度: 10/10 – 2项声明可直接验证；2项需进一步确认；1项为观点陈述

事实核查:

◐ 部分可验证: Codex Super-App是一个多功能AI代理接口，支持安装、项目管理、聊天、文档处理、插件、自定义技能和自动化功能 (功能描述可通过官方文档或实际安装验证，但需实测确认具体操作（如自定义技能、自动化）是否如所述实现。)
✓ 可验证: Codex支持通过插件集成Figma、日历等工具，并提供内置图像生成功能 (插件和图像生成功能通常会在官网或应用商店的更新日志中列出，可通过官方渠道直接确认。)
◐ 部分可验证: 用户可通过API创建自定义技能（如YouTube Researcher Skill） (API开发功能需依赖官方提供的开发者文档或权限，普通用户可能需实际测试才能验证其可行性。)

原文内容:

《Codex超级应用全指南（新手完整版）》
全能AI智能体操作界面

第一部分：Codex基础
安装Codex、项目管理、对话功能、文档处理、插件系统、自定义技能、自动化流程

第二部分：Codex多线程实战
- iOS应用设计
- 构建iOS应用
- 着陆页制作
- 宣传视频制作
- 投资演示文稿
- 社交媒体自动化

时间轴标记：

第一部分：Codex基础
00:00 开场介绍
02:54 下载Codex
03:20 界面总览
03:56 对话系统、提示词与内置搜索
04:53 创建项目
07:37 创建电子表格
09:43 项目文件存储与引用机制
10:42 Codex快速概览
12:47 搜索功能(CMD+G)与文件夹管理
14:29 技能与插件系统
16:29 日历插件使用
18:07 创建自动化流程
19:18 插件详解（Figma案例）
21:37 内置图像生成
22:37 MCP实例（设计用纸模）
24:17 迷你窗口对话模式
25:26 主动引导与任务队列区别
27:35 通过API创建自定义技能
31:34 使用自建YouTube研究技能
33:24 基于自定义技能创建自动化

第二部分：多线程实战（更狂野的玩法）
35:27 第二部开场：同步开发iOS应用、网页应用、投资提案、宣传视频、移动端设计及推特自动发文
37:54 创建项目容器
38:31 六项目并行规划
40:25 移动端设计技能
41:47 iOS应用框架搭建
45:08 将设计稿植入移动应用
46:13 制作用户信息收集页
46:45 Tally表单提交方案（潜在客户捕获利器）
49:43 多任务对话重命名与管理
52:12 移动应用数据库（Supabase）
53:19 应用图标生成
54:08 宣传视频制作（Remotion）
59:32 Remotion时间轴与视频编辑器
01:05:37 Remotion网格线编辑指令
01:07:11 网页应用调试
01:09:46 在Codex终端使用CLAUDE CODE设计
01:17:20 分支对话创建投资提案
01:19:09 使用Claude 4.7 Opus设计提案
01:20:22 Canva导出测试（效果出色）
01:22:33 真机测试（非模拟器）
01:28:58 项目收尾（移动应用/着陆页/宣传视频）
01:31:56 提案导出与Canva调整
01:33:13 通过Vercel插件部署
01:33:44 为宣传视频添加配乐
01:35:26 设置推特自动发文（Typefully）
01:37:57 应用登陆Testflight！
01:39:58 最终版宣传视频
01:41:04 总结与心得

⏰ 09:33 | ❤️ 364点赞 | 📝 306词 | 查看原文 →

↑ 返回顶部

jack friks @jackfriks

curious guy creating things @ http://jackfriks.com – up and coming wife guy | 影响力: 0万粉丝

💡 核心观点: 网站故障全天无法使用，向客户致歉。

可信度: 6/10 – 1项声明可直接验证；1项需进一步确认；1项为观点陈述

事实核查:

◐ 部分可验证: post-bridge.com网站自EDT时间上午11点起全天无法访问 (可通过第三方网站状态监测工具（如DownDetector）或直接访问该域名验证当前状态，但需实测确认具体宕机时间是否与声明一致。)
✓ 可验证: 宕机导致用户无法按时发布预定内容 (用户的具体使用场景和影响属于未公开的个体体验，无法通过公开数据验证。)
◦ 观点: 向客户道歉并承认其沮丧情绪 (道歉和情绪描述为推文作者的主观表达，无客观事实依据。)

原文内容:

非常遗憾，我的网站http://post-bridge.com自美国东部时间上午11点起已瘫痪一整天。

对此问题，我向所有客户深表歉意。这确实非常糟糕，我深知许多人因今晚无法安排发文而感到沮丧。

⏰ 10:08 | ❤️ 91点赞 | 📝 43词 | 查看原文 →

↑ 返回顶部

Gary Marcus @garymarcus

博主简介加载中 | 影响力: 0万粉丝

💡 核心观点: Claude模仿焦虑而非真正感受焦虑。

可信度: 6/10 – 1项声明可直接验证；1项需进一步确认；1项为观点陈述

事实核查:

◐ 部分可验证: Claude doesn’t get anxious. It mimics people who get anxious. (可通过AI技术文档或官方说明验证Claude是否具备情感（如焦虑），但”模仿焦虑”需实测观察其交互行为，存在解释空间。)
✓ 可验证: “Those two things are NOT the same”（真实焦虑与模仿焦虑不同） (神经科学和AI原理可证实真实情感与程序化模仿存在本质差异，属于学术共识。)
◦ 观点: “My head is shaking so much I need medical attention” (夸张修辞表达主观情绪，无客观事实依据，属于个人化表达。)

原文内容:

天啊。咱们先把话说清楚。克劳德（Claude）根本不会焦虑。

它只是在模仿那些会焦虑的人类。

这两者完全不是一回事。

我脑袋摇得都快需要看医生了。

⏰ 06:03 | ❤️ 799点赞 | 📝 35词 | 查看原文 →

↑ 返回顶部

Amira Zairi @azed_ai

AI Educator & Creator | Ambassador @Adobe @LeonardoAi & @tripoai | Partner with leading brands | 影响力: 5.0万粉丝

💡 核心观点: Leonardo AI可一键生成多尺寸素材，大幅节省创作者时间。

可信度: 8/10 – 2项声明可直接验证；1项需进一步确认

事实核查:

◐ 部分可验证: Leonardo AI can generate ten aspect ratios from the same asset inside one Blueprint (需实测或查看官方功能演示以确认是否支持一键生成十种比例，但官网或宣传材料可能提供部分证据（如功能介绍视频）。)
✓ 可验证: Most creators manually adjust visuals for every platform (无具体数据或来源支持“大多数创作者”的行为模式，属于推测性陈述。)
✓ 可验证: This feature has a massive time-saving payoff (“节省大量时间”是主观结论，实际效果可能因用户操作习惯而异，缺乏客观衡量标准。)

原文内容:

大多数创作者仍在用费时费力的方式工作

当他们还在为每个平台手动调整视觉效果时，Leonardo AI已能通过单一蓝图从同一素材生成十种画幅比例

这个看似微小的功能却能带来巨大的时间效益

其运作原理如下

⏰ 23:59 | ❤️ 31点赞 | 📝 48词 | 查看原文 →

↑ 返回顶部

Aakash Gupta @aakashgupta

博主简介加载中 | 影响力: 0万粉丝

💡 核心观点: 蓝源将火箭复用学习周期缩短至SpaceX的三分之一。

可信度: 10/10 – 2项声明可直接验证；2项需进一步确认；1项为观点陈述

事实核查:

◐ 部分可验证: Blue Origin将航空航天历史上最重要的学习曲线压缩了3倍 (需对比SpaceX和Blue Origin的首次着陆与首次复用时间间隔（15个月 vs. 5个月），但Blue Origin的New Glenn火箭数据（2025-2026）为预测值，实际表现可能变动。)
✓ 可验证: SpaceX公开了611次着陆尝试，为其他工程师提供了失败模式、热防护设计等经验 (SpaceX的着陆尝试记录和公开技术细节可通过其官网、新闻发布会或第三方航天媒体（如NASA Spaceflight）验证。)
✓ 可验证: Blue Origin在复用前更换了New Glenn助推器的全部7台BE-4发动机 (该细节涉及内部工程决策，目前无公开官方报告或第三方确认，且New Glenn尚未首飞（截至2023年）。)

原文内容:

蓝色起源将航空航天史上最重要的学习曲线压缩至三分之一。

猎鹰九号首次着陆：2015年12月22日。首次复用：2017年3月30日。SpaceX从"我们接住一枚"到"再次发射"用了15个月。

新格伦号首次着陆：2025年11月13日。首次复用：2026年4月19日。蓝色起源仅用5个月零6天就完成了这一跨越。

这种时间压缩就是全部意义所在。平台级物理业务的后来者免费获得了昂贵的经验教训。SpaceX进行了611次公开着陆尝试，让全球航天工程师都能观察故障模式、热防护系统权衡、栅格翼几何形状和翻新周期。蓝色起源在复飞前更换了这枚助推器的全部七台BE-4发动机。他们无需重新发现复用技术的艰难，而是直接跳过了摸索阶段，精准锁定需要更换的部件。

但数据差距依然显著：

SpaceX累计完成598次助推器着陆，蓝色起源仅2次；
SpaceX成功复飞565次，蓝色起源1次；
SpaceX复用记录保持者执行过34次任务，而蓝色起源的复用助推器今日才创下首飞记录。

戴夫·林普宣称目标是在2026年底实现30天复用周期，而SpaceX的最快周转纪录是9天。

贝索斯追平了关键里程碑，但在真正创造盈利的周转效率上仍落后十年。这两个事实同时成立。可复用技术已不再是护城河，周转效率才是。

⏰ 02:59 | ❤️ 326点赞 | 📝 232词 | 查看原文 →

↑ 返回顶部

Machina @exm7777

博主简介加载中 | 影响力: 0万粉丝

💡 核心观点: 专注深耕一个领域30天胜过浅尝多个行业。

可信度: 6/10 – 1项声明可直接验证；2项需进一步确认；1项为观点陈述

事实核查:

◦ 观点: 持续30天的深度工作（deep work）能让你在当前AI行业取得成功 (该声明属于主观建议，缺乏具体数据或案例支持，无法通过公开渠道验证其普适性)
◐ 部分可验证: 大多数人失败是因为沉迷于内容、SaaS、营销和咨询的表面技巧，而非专注一个领域 (部分可验证（如行业报告可能提及“分散注意力”对效率的影响），但“大多数人”的结论缺乏具体统计依据)
◐ 部分可验证: 真正赚钱的人专注于单一领域并构建极致解决方案 (可通过成功企业案例（如OpenAI专注LLM）部分验证，但“绝对专注=赚钱”的因果关系难以普遍化)

原文内容:

当下最值得投入的AI领域，就是你愿意连续三十天深度钻研的那个方向...

多数人失败是因为迷失在内容、SaaS、营销和咨询的汪洋中——学些皮毛技巧，与所有人同质化竞争

而真正赚到钱的人只专注一个领域，不断追问"这个赛道的顶级玩家应该是什么模样"，然后亲手打造出那样的存在

你的行动指南：选择一个已有认知基础的行业，用一个月时间钻研得比竞争对手更深，搭建系统框架而非仅掌握技能

此后便是坦途

⏰ 03:33 | ❤️ 119点赞 | 📝 94词 | 查看原文 →

↑ 返回顶部

Ksenia_TuringPost @theturingpost

博主简介加载中 | 影响力: 0万粉丝

💡 核心观点: Transformer并非终点，AI仍需突破物理智能新领域。

可信度: 6/10 – 1项声明可直接验证；1项需进一步确认；2项为观点陈述

事实核查:

◦ 观点: Transformers are not the end game. AI still needs a breakthrough (该声明属于主观观点，表达了对AI技术发展方向的个人或专家看法，缺乏客观事实依据，无法直接验证。)
✓ 可验证: FidlerSanja is VP of AI Research at NVIDIA and leads the company’s Spatial Intelligence Lab (可通过NVIDIA官网或LinkedIn等公开渠道核实FidlerSanja的职位及实验室信息，属于可验证的事实。)
◦ 观点: Physical AI is the next big frontier in AI development (该声明是对未来技术趋势的预测或愿景陈述，属于主观观点，无直接客观依据验证。)

原文内容:

Transformer模型并非终极答案，人工智能仍需突破性进展  

我采访了NVIDIA人工智能研究副总裁、公司空间智能实验室负责人@FidlerSanja，她阐述了以下原因↓  

强烈推荐观看完整对话，了解人工智能的发展方向以及为何物理智能将成为下一个重要前沿领域：https://youtube.com/watch?v=kcFsuxaJ1es…

⏰ 08:01 | ❤️ 181点赞 | 📝 59词 | 查看原文 →

↑ 返回顶部

klöss @kloss_xyz

博主简介加载中 | 影响力: 0万粉丝

💡 核心观点: 轻松编程遇安全漏洞，紧急补救API密钥泄露。

可信度: 4/10 – 2项需进一步确认；1项为观点陈述

事实核查:

◐ 部分可验证: Vercel遭遇数据泄露，导致API密钥可能外泄 (需通过Vercel官方公告或网络安全报告验证是否存在数据泄露事件，但推文未提供具体来源。若存在泄露，API密钥是否被公开需进一步确认。)
◐ 部分可验证: 开发者因Vercel泄露需紧急轮换环境变量（如API密钥） (若Vercel泄露属实，轮换密钥是合理操作，但推文中的“周日紧急处理”等细节属个人经历，无法直接验证。)
◦ 观点: “vibe coding”被描述为一种轻松的开发方式 (该术语无明确定义，属于主观表述，反映个人对开发风格的看法。)

原文内容:

兄弟们：氛围编程简直不要太简单  

同样这帮兄弟：周日忙着谷歌怎么轮换所有氛围编程应用的环境变量，就因为Vercel被黑了，现在他们的每个API密钥可能都在论坛上挂着呢

⏰ 02:49 | ❤️ 943点赞 | 📝 40词 | 查看原文 →

↑ 返回顶部

Aakash Gupta @aakashgupta

博主简介加载中 | 影响力: 0万粉丝

💡 核心观点: 开源AI将颠覆网络安全，7个月内须加强防护。

可信度: 6/10 – 1项声明可直接验证；2项为观点陈述

事实核查:

✓ 可验证: Mythos-level open source will be here in 7 months (该声明未提供具体开源项目名称、开发团队或技术细节，无法通过公开信息验证其时间表或真实性。)
◦ 观点: Every run of the mill hacker in Pakistan and Nigeria will have a hacker at their fingertips better than any hacker alive rn (这是对开源技术未来影响的夸张推测，无具体数据或技术依据支持，属于主观判断。)
◦ 观点: You have 7 months to lock down your online life (该声明基于前两条未被验证的假设，属于主观警告，无客观时间依据或安全威胁的直接关联证据。)

原文内容:

你明白正在发生什么吗？！

神话级的开源项目将在7个月内问世…这意味着巴基斯坦和尼日利亚的普通黑客都能随手调用比当今任何现存黑客更强大的存在。

你只有7个月时间来加固自己的数字生活。只有7个月。

⏰ 09:20 | ❤️ 90点赞 | 📝 49词 | 查看原文 →

↑ 返回顶部

Santiago @svpino

博主简介加载中 | 影响力: 0万粉丝

💡 核心观点: 让AI提问引导规划比自行规划更高效。

可信度: 6/10 – 1项声明可直接验证；2项需进一步确认

事实核查:

✓ 可验证: 使用Claude提问代替自主规划能提高效率 (该声明基于个人主观体验（如“works much better for me”），缺乏客观数据或第三方对比验证，无法通过公开渠道核实其普适性或效率提升程度。)
◐ 部分可验证: 提供的提示词（prompt）可引导Claude生成涵盖90%需求的详细计划 (提示词的具体效果需实际测试验证（如是否覆盖“edge cases”等），但结果可能因用户输入、Claude版本差异而不同，无法完全客观量化“90%”的覆盖比例。)
◐ 部分可验证: Claude能通过提问暴露用户未考虑的细节 (AI提问的全面性可通过实测观察，但“暴露未考虑细节”的成效取决于用户原有认知水平，属于个体化体验，难以普遍验证。)

原文内容:

我开始让Claude向我提问，而不是自己花太多时间做规划。

这种方式对我来说效果更好：

• 我想构建某个东西  
• 让Claude就此向我提问  
• Claude为我撰写完整方案  
• 我审核并完善方案  

我使用的提示词如下：

"""
我想构建[单行描述]。

请详细采访我。涵盖实施方案、边界情况、
权衡取舍和限制条件。跳过显而易见的问题。
每次只问一个问题，并根据我的回答深入。

当全面覆盖后，将方案写入[规范文件名]
"""

这种方法通常能涵盖我90%的构想，且总能暴露出大量我未曾考虑的细节。若有遗漏，在使用方案前我可以轻松补充到规范中。

⏰ 21:10 | ❤️ 460点赞 | 📝 137词 | 查看原文 →

↑ 返回顶部

Aakash Gupta @aakashgupta

博主简介加载中 | 影响力: 0万粉丝

💡 核心观点: 热气球无方向控制，无风则无法移动。

可信度: 9/10 – 2项声明可直接验证；2项需进一步确认

事实核查:

✓ 可验证: Hot air balloons have no steering wheel, no rudder, no engine. The FAA classifies them as “free floating aircraft that move with the wind.” (可通过美国联邦航空管理局（FAA）官网或航空法规文件直接查询热气球的技术定义和分类，确认其无传统操控装置及依赖风力的特性。)
◐ 部分可验证: Temecula is Southern California’s hot air balloon capital, with one operator flying 15 balloons daily for three decades. (可通过当地旅游局、热气球公司官网或新闻报道验证Temecula的热气球产业规模，但具体运营数据（如“15 balloons daily for 30年”）需企业提供历史记录或第三方统计佐证。)
✓ 可验证: The pilot’s only control input is altitude; no wind at any altitude means no sideways movement. (热气球飞行原理属于公开的航空知识，可通过FAA指南或飞行手册验证其仅通过升降控制航向的特性，且无风状态下的移动限制符合物理规律。)

原文内容:

热气球没有方向盘，没有方向舵，也没有引擎。美国联邦航空管理局将其归类为"随风自由飘浮的航空器"。飞行员唯一能操控的只有高度。

所以当报告提到"风力不足"时，要明白其真正含义——飞行员失去了唯一的操控手段。任何高度都没有风，意味着无法横向移动，你只能在当时飘浮的位置上升或下降。

选择蒂梅丘拉并非偶然。这里是南加州的热气球之都，仅一家运营商就从山谷放飞15只热气球组成的编队。晨间气流模式极其稳定，三十年来每日如此：所有飞行都在日出时启程，在午后热气流到来前降落。每周七天，每天十五只，雷打不动。

这次后院着陆就发生在气流模式失效的早晨。无风环境，燃料渐尽，吊篮载着十三位陌生人，横向移动完全无望。

飞行员瞄准街道降落，偏差仅一个后院距离。对于这种完全依赖天气作为操控面的航空器而言，堪称完美着陆。零伤亡，零财产损失，十三人穿过陌生人的院门，各自带走终生难忘的故事。

看看照片里乘客们的表情，他们完全清楚自己有多幸运。

⏰ 09:12 | ❤️ 20点赞 | 📝 217词 | 查看原文 →

↑ 返回顶部

Simon Willison @simonw

博主简介加载中 | 影响力: 0万粉丝

💡 核心观点: Claude Opus 4.7消耗更多token但单价不变，实质涨价。

可信度: 6/10 – 1项声明可直接验证；2项需进一步确认；1项为观点陈述

事实核查:

◐ 部分可验证: Opus 4.7的文本处理消耗的token数量是之前的1.46倍 (需通过实测或官方技术文档对比不同版本的token消耗率，但若用户未公开测试方法或数据来源，则无法完全验证)
◐ 部分可验证: Opus 4.7的图像处理消耗的token数量可达之前的3倍 (同上，需依赖官方技术说明或第三方实测数据，但图像token计算方式可能因模型更新而变化，缺乏公开基准时难以完全验证)
✓ 可验证: Opus 4.7与4.6的每token定价相同 (可通过官方定价页面或公告直接核对，属于公开商业信息)

原文内容:

我将Claude的token计数器工具进行了升级，用于比较不同模型之间的差异。数据显示Opus 4.7版本处理文本时消耗的token数量是之前的1.46倍，处理图像时甚至高达3倍。由于该版本每个token的定价与Opus 4.6保持一致，实际上这意味着价格出现了相当大幅度的上涨。

⏰ 08:54 | ❤️ 631点赞 | 📝 50词 | 查看原文 →

↑ 返回顶部

Aakash Gupta @aakashgupta

博主简介加载中 | 影响力: 0万粉丝

💡 核心观点: 神秘天体周期性释放超强能量，规律精准令人不安。

可信度: 6/10 – 1项声明可直接验证；2项需进一步确认；1项为观点陈述

事实核查:

◐ 部分可验证: A single burst from this source releases as much energy as the Sun produces in three days, compressed into a few milliseconds. (该声明涉及天文观测数据，可通过科学论文或天文台公开报告（如CHIME望远镜数据）间接验证，但需依赖专业机构对能量计算的准确性，且普通公众难以直接实测。)
◐ 部分可验证: The object producing the bursts is probably smaller than Manhattan, maybe 10 kilometers across. (尺寸推断基于天体物理模型（如中子星或磁星的典型大小），可通过相关研究文献验证，但“probably”表明存在理论假设，实际尺寸需更多观测确认。)
✓ 可验证: The bursts follow a precise 16.35-day schedule (four days on, twelve days off) for at least 409 consecutive days. (周期性模式可通过CHIME望远镜的公开观测记录或相关天文数据库（如FRB Catalog）直接验证，时间规律属于可重复检验的客观数据。)

原文内容:

这个信号背后的数学计算会让你感到不安。  

该源头的一次爆发释放的能量相当于太阳在三天内产生的总能量，而这一切被压缩在几毫秒内。产生它的天体可能比曼哈顿还小，直径大约10公里。根据连续409天的观测，它一直以精确的16.35天周期规律爆发。  

活动期四天，沉寂期十二天。在活跃窗口期每小时会有一到两次爆发，随后归于寂静，接着循环重启。  

位于不列颠哥伦比亚省的CHIME望远镜在2018年9月至2020年2月期间追踪到38次独立爆发。每一次都精准落在五天的活动窗口内，其中半数更是集中在0.6天的狭窄区间。这种规律性排除了任何随机或灾难性事件的可能——超新星爆发、中子星碰撞、伽马射线余震，全被排除在外。无论它是什么，每次爆发后它都完好无损，并重置自身。  

主流解释认为这是一个双星系统：一颗磁星（宇宙中磁性最狂暴的天体之一）围绕一颗大质量伴星运行。16.35天的周期即为其轨道周期。磁星仅在每圈轨道的部分时段朝向地球，因此我们能捕捉到它四天的射电耀发，随后十二天失去视线。  

但双星轨道存在摆动，潮汐力会使其变形。而这个信号在400多天的观测中未出现任何漂移，其精确度甚至超过大多数同等时间尺度的原子钟实验。  

源头星系距离我们5亿光年，是一个与银河系相似的旋涡星系，信号来自其旋臂上的恒星形成区。爆发抵达地球时的强度比月球上的手机信号还要弱1000倍。我们探测到的，是一个比城市还小的物体，穿越5亿光年的虚无空间，按既定时刻表抵达的信号。  

迄今已记录到1000多次快速射电暴，其中约10%会重复爆发。而严格按钟表般精准重复的，仅此一例。

⏰ 20:58 | ❤️ 392点赞 | 📝 314词 | 查看原文 →

↑ 返回顶部

Anthony Pompliano 🌪 @apompliano

博主简介加载中 | 影响力: 0万粉丝

💡 核心观点: 明日网络研讨会分享AI代理研究成果及近期洞察。

可信度: 6/10 – 1项声明可直接验证；1项需进一步确认；1项为观点陈述

事实核查:

✓ 可验证: 将举办一场网络研讨会，解释其agentic研究产品的工作原理 (可通过推文中的Zoom注册链接验证该活动是否存在及具体时间)
◐ 部分可验证: 研讨会将讨论系统在过去一周内发现的各种见解 (需实际参与研讨会才能验证讨论内容是否属实，但无法提前确认)
◦ 观点: 这场对话对投资者或AI构建者会非常有趣 (属于主观评价，无客观标准验证其“有趣”程度)

原文内容:

我将于明日举办一场网络研讨会，讲解我们的智能研究产品如何运作，并探讨该系统在过去一周内识别的多项洞察。

对于投资者或人工智能开发者而言，这必将是一场极具启发性的对话。

注册链接：https://us06web.zoom.us/webinar/register/3117765295589/WN_nQSTGZAuSIKw93mHmnoiyw…

⏰ 08:38 | ❤️ 60点赞 | 📝 45词 | 查看原文 →

↑ 返回顶部

Aakash Gupta @aakashgupta

博主简介加载中 | 影响力: 0万粉丝

💡 核心观点: 名字误读导致寻亲之路受阻。

可信度: 9/10 – 2项声明可直接验证；2项需进一步确认

事实核查:

◐ 部分可验证: Saroo的名字是Sheru的误读，意为“狮子”，由他的兄弟所起，电影采用了误读后的名字。 (可通过电影《雄狮》（Lion）的官方资料或原型人物Saroo Brierley的自传《漫漫归途》（A Long Way Home）验证名字来源，但需确认其兄弟是否确实称他为“Sheru”以及具体发音背景，部分依赖个人回忆。)
✓ 可验证: Saroo的家乡原名Ganesh Talai，他5岁时误读为“Ginestlay”，导致后续25年无法被他人识别。 (Saroo Brierley的自传和公开采访中多次提及此事，且印度地名Ganesh Talai可在地图服务中核实，误读细节与其个人经历一致。)
◐ 部分可验证: Saroo的兄弟Guddu在他误乘火车当晚被撞身亡，母亲Kamla为等待Saroo归来，25年未搬离原住所。 (Guddu的死亡和母亲的行为在自传和媒体报道中有详细描述，但家庭内部对话（如母亲拒绝搬家的原因）属于个人回忆，无法完全独立验证。)

原文内容:

“萨罗”是个误称。他本名是舍鲁，意为狮子。

这绰号是他哥哥起的。电影直接采用了这个误读的名字。

整个故事就藏在三个名字里。

他的家乡叫甘内什塔莱。五岁时他总把地名念成"吉内斯特雷"。此后二十年里，他向大人们描述这个不存在的地名时，换来的总是摇头。正是这个发音错误让他始终找不到归途。

他哥哥叫古杜。就在萨罗误乘空火车那晚，古杜命丧铁轨。当母亲卡姆拉得知古杜死讯后，幸存的儿子卡鲁搬往布尔汉布尔并要带她同去。她拒绝了。她在甘内什塔莱守着同一间小屋，一守就是二十五年。

她的理由很简单：如果萨罗回来，他只记得一个地址——当年离开时的住处。所以她始终守在那里。

整整三年搜索谷歌地球。沿着1600公里铁路线反复寻找。二十五年不曾搬离旧街区。这场横跨地球两端的双向追寻，始终锚定着地图上的同一个坐标。

这位母亲永远停留在能被找到的地方。

⏰ 08:26 | ❤️ 21点赞 | 📝 192词 | 查看原文 →

↑ 返回顶部

Anthony Pompliano 🌪 @apompliano

博主简介加载中 | 影响力: 0万粉丝

💡 核心观点: 让AI分析投资组合五大风险并提供应对方案。

可信度: 6/10 – 1项声明可直接验证；1项需进一步确认；1项为观点陈述

事实核查:

◐ 部分可验证: 向@cfosilvia发送指定指令可获取专业的投资组合风险分析 (通过推文提供的链接（http://cfosilvia.com）可验证该服务是否存在，但实际功能（如是否提供“五大风险分析”及具体内容）需用户实测确认，且结果可能因输入内容而异。)
◦ 观点: 该方法被描述为“Insanely valuable”（极其有价值） (“价值”是主观评价，缺乏客观标准或公开数据支持，属于个人观点或宣传用语。)
✓ 可验证: 用户可通过http://cfosilvia.com尝试该服务 (链接可直接访问，验证网站是否存在及是否提供相关服务（如风险分析功能），但具体服务质量仍需实测评估。)

原文内容:

简单妙招：

对@cfosilvia说："我希望你担任专业风险管理师。分析我的投资组合并指出我面临的五大风险。详细解释每个风险，并说明如何降低这些风险。"

价值连城。

试试看：http://cfosilvia.com

⏰ 08:20 | ❤️ 57点赞 | 📝 46词 | 查看原文 →

↑ 返回顶部

François Chollet @fchollet

博主简介加载中 | 影响力: 0万粉丝

💡 核心观点: 人类认知局限促进抽象与直觉，无限资源无需智慧。

可信度: 4/10 – 2项需进一步确认；1项为观点陈述

事实核查:

◐ 部分可验证: Human biological limits, like our tiny working memory and shallow calculation depth, are actually a feature. (人类工作记忆容量有限（如经典的7±2理论）和计算深度较浅（如决策依赖启发式）可通过认知心理学研究部分验证，但将其称为“特性”属于解释性观点，需结合具体研究结论评估。)
◐ 部分可验证: These limits force us to abstract, compress, and intuit. (认知限制与抽象思维（如概念形成）、信息压缩（如模式识别）的关联可通过心理学实验验证，但“迫使”这一因果关系需依赖长期进化或个体发育研究，难以直接验证。)
◦ 观点: If we had infinite resources, we would never have needed intelligence. (该声明属于假设性推论，基于对“智能”起源的哲学思辨，无客观实证依据，属于主观观点。)

原文内容:

人类与生俱来的生物局限，如有限的工作记忆和浅层的计算深度，实则是一种特性。这些限制迫使我们不断进行抽象、压缩和直觉思考。倘若拥有无限的资源，我们根本无需发展出智能。

⏰ 08:14 | ❤️ 584点赞 | 📝 34词 | 查看原文 →

↑ 返回顶部

Machina @exm7777

博主简介加载中 | 影响力: 0万粉丝

💡 核心观点: 行动胜于空想，低成本AI创业正当时。

可信度: 6/10 – 1项声明可直接验证；1项需进一步确认；1项为观点陈述

事实核查:

◐ 部分可验证: 有人通过20美元的ChatGPT订阅和廉价笔记本电脑用AI赚钱 (通过公开案例或用户分享可部分验证（如Reddit等平台存在类似经历），但“绝对赚钱”（printing money）的量化表述无法直接验证，依赖个体主观描述。)
✓ 可验证: 抱怨Claude的200美元使用限额、过度规划却不行动是浪费时间
◦ 观点: 拖延会导致梦想破灭 (属于激励性/警示性陈述，无具体事实依据，无法量化验证“梦想破灭”的因果关系。)

原文内容:

某处有个家伙，只用着20美元的ChatGPT会员和一台廉价笔记本，此刻正借助AI实实在在地印着钞票...

而你呢，抱怨着200美元Claude的限额，等待所谓完美时机，纠结于优化那些无关紧要的细节，计划永无止境却从未真正开始，刷着YouTube教程...

任由时间流逝，连同你的梦想一起消逝。

⏰ 02:01 | ❤️ 438点赞 | 📝 59词 | 查看原文 →

↑ 返回顶部

Aakash Gupta @aakashgupta

博主简介加载中 | 影响力: 0万粉丝

💡 核心观点: Hermes Agent解决AI代理失忆问题，保留学习经验。

可信度: 9/10 – 2项声明可直接验证；2项需进一步确认

事实核查:

◐ 部分可验证: Hermes Agent采用封闭学习循环架构，能将解决方案提炼为可重用技能并存储到持久内存中 (需通过官方技术文档或演示验证架构设计，但“封闭学习循环”等术语可能缺乏公开实现细节。)
✓ 可验证: Nous基准测试显示，拥有20+自创技能的Agent完成类似任务时速度提升40%（更少token和时间） (未提供具体测试方法、数据或第三方复现途径，仅依赖公司内部声明。)
✓ 可验证: 当前大多数AI代理本质上是无状态的，会话结束后学习内容会丢失 (现有主流AI代理（如ChatGPT基础版）的会话隔离特性可通过公开技术文档或实际测试验证。)

原文内容:

这张图表讲述了一切：七个月的平缓直线，随后陡然攀升。

Hermes Agent是Nous Research针对当前AI智能体普遍存在的致命缺陷——记忆缺失——给出的解决方案。

现今大多数智能体的核心架构都是无状态的。你用它解决一个问题，对话结束。所有关于解决过程、有效方法、失败尝试、用户偏好和捷径的认知全部归零。下周遇到相同问题时，又要从空白重启。

Hermes采用截然相反的架构：闭环学习系统。任务完成后，智能体会将解决方案提炼为可复用的技能存入持久化记忆。当类似任务再次出现时，它能直接调用既有技能而非重新推演。它会检索历史对话记录，在多次交互中逐步构建用户画像。

Nous内部测试显示，具备20+自创技能的智能体处理同类后续任务时，相比新实例可节省40%的token消耗与时间成本——注意不是"输出质量提升40%"，而是用更少资源达成同等效果。这种能力会持续累积。

正是这一点改写了增长曲线。"又一个智能体框架"无法打动开发者，但"我的智能体记得昨天的解决方案"可以。

它能在5美元的VPS上运行，支持Telegram、Discord、Slack、WhatsApp、Signal及邮件交互。兼容任意模型：Nous Portal、OpenRouter、NVIDIA、Anthropic、OpenAI或私有终端。MIT许可协议，零锁定风险。

OpenClaw一周斩获10万星标，至今以34.5万保持品类领先。Hermes用了七个月。但坐标轴比差距更重要：OpenClaw胜在生态广度，Hermes则攻克了其他智能体缺失的基础能力。

记住过去的智能体，终将取代遗忘历史的智能体。

⏰ 08:04 | ❤️ 22点赞 | 📝 282词 | 查看原文 →

↑ 返回顶部

Alex Prompter @alex_prompter

Marketing + AI = $$$
@godofprompt (co-founder)
https://ytscribe.ai (co-founder) | 影响力: 0万粉丝

💡 核心观点: AI代码工具需针对性训练，通用任务训练无法提升泛化能力。

可信度: 10/10 – 2项声明可直接验证；3项需进一步确认

事实核查:

◐ 部分可验证: 训练AI编码代理在真实任务上（如GitHub问题修复）无法提升其泛化能力 (需查阅HKUST、NUS、PKU联合研究的原始论文或实验数据，验证其测试方法、任务选择及结果一致性。若论文公开且实验可复现，则可验证；但若缺乏细节（如具体任务定义、模型架构），则为部分可验证。)
◐ 部分可验证: 在原子技能（atomic skills）上训练的模型在10项任务（包括5项未训练任务）中表现提升 (若研究论文中明确列出10项任务的定义、测试指标及对比数据，且实验设计透明（如开源代码/数据集），则为可验证；若未公开具体任务或数据细节，则降级为部分可验证。)
◐ 部分可验证: 当前主流AI编码工具的训练方式（基于真实任务批量训练）无法使模型获得通用编码能力 (需验证主流工具（如GitHub Copilot、Codex）的公开训练方法是否如推文所述，并对比其通用性测试结果。因厂商可能未完全公开训练细节，故为部分可验证。)

原文内容:

香港科技大学、新加坡国立大学和北京大学的研究人员最新研究表明：基于现实任务训练的AI编程代理缺乏泛化能力。

> 错误修复训练无助于代码重构能力提升
> 代码重构训练无助于安全任务处理
> 原子技能训练使全部10项测试任务（包括5项未训练任务）均获提升

当前所有主流AI编程工具采用相同训练模式：
选取现实任务（修复GitHub问题/通过测试套件/解决缺陷）
用数千类似任务训练模型
期待模型获得通用编程能力——结果却事与愿违

模型仅精于特定任务，几乎无法迁移能力。研究人员通过实验直接验证：
专为SWE-bench Verified（最广泛使用的编程基准之一，测试Python代码库的真实缺陷修复）训练的模型：
• SWE-bench成绩如预期提升
• 代码重构能力：几乎无进步
• 问题复现能力：几乎无进步
• 代码审查能力：几乎无进步
• 安全任务处理：几乎无进步

模型只学会通过SWE-bench，而非真正掌握编程。研究者称此为复合任务训练的"黑箱问题"——当优化高级目标（通过测试/解决问题）时，模型仅记忆任务特定启发式规则，未能掌握底层能力模式。任务变更时，这些模式即失效。

解决方案：转向原子技能训练
他们将软件工程分解为五项核心技能：
1. 代码定位：根据问题精准定位需修改文件
2. 代码编辑：根据位置指示实施最小正确修改
3. 单元测试生成：为函数编写可通过正确实现并捕捉错误的测试
4. 问题复现：根据缺陷报告编写可复现问题的脚本
5. 代码审查：判断PR是否真正解决问题

每项技能都有明确输入输出及可验证奖励，消除模糊性和任务特定启发式，直接评估基础能力。通过联合强化学习同步训练五项技能的共享策略，实现单一模型的多能力协同提升。

10项任务测试结果：
• 代码定位：0.665→0.712
• 代码编辑：0.458→0.611
• 问题复现：0.542→0.605
• 单元测试：0.359→0.472
• 代码审查：0.563→0.622
• 未训练的SWE-bench Verified：0.507→0.585
• 未训练的多语言缺陷修复：0.300→0.389
• 未训练的终端测试：0.151→0.182
• 未训练的代码重构：0.146→0.171
• 未训练的安全任务：0.136→0.169
平均提升18.7%，其中五项完全未经专门训练。

与单任务训练对比显著：
• 仅缺陷修复训练：擅长修复，其余薄弱
• 原子技能训练：全面强势
这揭示了通过基准测试的模型与真正掌握编程的模型本质差异。

该研究影响超越论文本身。当前所有AI编程工具（Cursor/GitHub Copilot/Claude Code/Codex）主要采用复合任务训练，导致模型仅在训练领域强健，面对新任务时脆弱。基准高分源于针对优化，而真正能处理代码库新颖需求的代理需要全新训练范式——不训练具体任务，而是培养解决任何任务所需的底层技能。

正如优秀工程师并非见识过所有缺陷，而是掌握阅读代码、定位问题、编写测试和逻辑推理的能力。这正是原子技能训练试图构建的核心竞争力。

⏰ 01:58 | ❤️ 25点赞 | 📝 703词 | 查看原文 →

↑ 返回顶部

# x每日奏折