【AI 英文奏折】04月15日

x每日奏折3个月前发布 tianming

213 0 0

【AI 英文奏折】2026年04月15日

共收录 20 篇深度内容

📋 今日内容速览

快速浏览，点击感兴趣的推文查看详细分析

Santiago: 大语言模型不擅长处理结构化数据和预测分析任务。
Machina: 从零开始：低消费生活，副业结合AI，半年后移居东南亚发展。
Ksenia_TuringPost: 本周精选AI研究聚焦大模型优化与推理效率提升
God of Prompt: 核心观点总结中…
AshutoshShrivastava: 谷歌在印度推出Gemini个人智能功能，可安全关联多款应用数据。
swyx 🇬🇧: AI工程应优先拓展能力边界再优化模型。
Aakash Gupta: Uber工程师迅速采用Claude Code致AI预算提前耗尽。
Anthony Pompliano 🌪: Silvia AI提供个性化财务建议，用户每周平均提问15次。
Ethan Mollick: 算力限制同时阻碍当前和未来AI发展。
Aakash Gupta: 少女发明高效滤膜可清除95.5%的微塑料。
Aakash Gupta: 抢先使用AI工具者领先，等待审批者落后。
Heather Cooper: Midjourney生成视频经Runway和Topaz升级，呈现电影级写实风格。
swyx 🇬🇧: Notion历经五次重构AI，现推出全球领先的生产力工具。
Aakash Gupta: 美国企业长期亏损仍获巨额投资。
Jerry Liu: 现有文档OCR基准缺乏真实多样性，ParseBench试图全面覆盖企业需求。
Santiago: 26b模型比31b运行速度显著更快。
Aakash Gupta: Anthropic的AI产品发布导致多领域软件股市大跌。
Ethan Mollick: 商学院学生高度关注就业市场需求信号。
Chubby♨️: Tiny_Fish提升了编码代理的实时网页交互能力。
Aakash Gupta: OpenAI与Anthropic对AI能力分发采取相反策略，后者严格限制高风险模型。

📖 详细内容

Santiago @svpino

博主简介加载中 | 影响力: 0万粉丝

💡 核心观点: 大语言模型不擅长处理结构化数据和预测分析任务。

可信度: 6/10 – 1项声明可直接验证；1项需进一步确认；2项为观点陈述

事实核查:

◐ 部分可验证: GPT-4在关系预测任务中得分为63% (该得分可能引用自特定测试或研究，但推文未提供具体来源。若存在公开基准测试（如学术论文或技术报告）可验证，但需进一步检索确认。)
✓ 可验证: LLM将结构化数据（数字、日期、外键）视为独立token，无法理解数据关系 (LLM的token处理机制可通过官方技术文档（如OpenAI的Tokenizer说明）验证，其对结构化数据的局限性在多个研究中均有提及。)
◦ 观点: LLM在预测、欺诈检测、用户流失预测等任务中表现“无用” (该声明为主观结论，实际性能取决于具体场景和优化方法。虽存在相关研究（如金融领域LLM应用），但“无用”属于绝对化评价，无普适标准。)

原文内容:

这是一个价值万亿美元的产业，但大型语言模型（LLM）无法解决其核心问题：

• 预测分析
• 欺诈检测
• 客户流失预测

大型语言模型从根本上就不擅长处理这类任务。

当你将结构化数据输入LLM时，它无法识别数据关系——每个数字、日期和外键都被视为独立的标记（token）。

这正是你总得到垃圾输出的原因。

LLM会把你的数据库当作维基百科文章来处理。它既不理解数据结构，也无法把握数据关联性。

GPT-4在关系预测任务中仅获得63%的准确率——这已是其最佳表现，但实际毫无用处。

正如你不能指望通过总结维基百科文章来创造真实商业价值。

⏰ 23:05 | ❤️ 311点赞 | 📝 114词 | 查看原文 →

↑ 返回顶部

Machina @exm7777

博主简介加载中 | 影响力: 0万粉丝

💡 核心观点: 从零开始：低消费生活，副业结合AI，半年后移居东南亚发展。

可信度: 8/10 – 1项声明可直接验证；3项需进一步确认；1项为观点陈述

事实核查:

◐ 部分可验证: 在越南、泰国或马来西亚以每月低于1500美元的价格租到带健身房和泳池的公寓 (可通过当地房产平台（如PropertyGuru、Facebook租房群组）或旅行博主实测数据验证部分城市的租金水平，但具体条件（如健身房/泳池配套）和价格可能因城市、地段、季节波动而存在差异，需结合实时数据确认。)
◐ 部分可验证: 通过为本地企业集成简单的AI代理（side hustle）来创业 (AI代理的技术可行性（如ChatGPT API应用）和市场需求（如小企业自动化需求）可通过案例研究或平台数据验证，但个人实际收入潜力取决于执行能力与市场环境，属部分可验证。)
✓ 可验证: 通过6个月高强度工作储蓄以实现搬迁东南亚的目标 (储蓄可行性依赖个人收入、开支等未公开变量，且“高强度工作”无量化标准，属个人计划范畴，无法客观验证。)

原文内容:

如果我现在要白手起家重新开始，我会这样做：

- 找份能支付房租的轻松工作，接受暂时降低生活标准
- 开展副业：为本地企业部署极简的AI智能体方案
- 在这个过程中成为AI领域的顶尖高手，将其融入所有工作环节
- 拼命干6个月攒够资金进行下一步

> 移居越南、泰国或马来西亚
> 租用带健身房和泳池的公寓
> 以每月低于1500美元的成本舒适生活，同时扩展业务

保持健康饮食，每日锻炼，深度探索异国文化

在低风险环境下享受更优质的生活，同时打造能带来终极自由的事业

⏰ 05:04 | ❤️ 131点赞 | 📝 117词 | 查看原文 →

↑ 返回顶部

Ksenia_TuringPost @theturingpost

博主简介加载中 | 影响力: 0万粉丝

💡 核心观点: 本周精选AI研究聚焦大模型优化与推理效率提升

可信度: 10/10 – 2项声明可直接验证；2项需进一步确认；1项为观点陈述

事实核查:

◐ 部分可验证: “Neural Computers: The Illusion of Stochasticity in LLMs” 是一项关于大型语言模型中随机性幻觉的研究 (可通过学术数据库（如arXiv）或论文原文验证研究是否存在，但需实际阅读论文内容才能确认其结论的科学性。)
◐ 部分可验证: “RAGEN-2: Reasoning Collapse in Agentic RL” 揭示了强化学习智能体中的推理崩溃问题 (标题提及的具体问题需通过论文或实验复现验证，但研究名称和方向可通过公开学术平台初步确认。)
✓ 可验证: “PaperOrchestra: A Multi-Agent Framework for Automated AI Research Paper Writing” 是一个自动化撰写AI论文的多智能体框架 (若提供官网、代码仓库（如GitHub）或论文链接，可直接验证框架的存在和功能描述；否则需依赖第三方来源（如推文中的链接）。)

原文内容:

本周必读研究精选

神经计算机
大语言模型中的随机性假象
学习即遗忘：LLM训练的本质是有损压缩
一帧一标记：基于差分标记的高效生成式世界建模
INSPATIO-WORLD：通过时空自回归建模实现的实时4D世界模拟器
Vero：通用视觉推理的开放式强化学习方案
RAGEN-2：智能体强化学习中的推理崩溃现象
三角注意力：基于三角函数键值压缩的长程高效推理
原位测试时训练
弹性测试时训练的快速空间记忆
Gym-Anything：将任意软件转化为智能体环境
SkillClaw：通过智能体进化器实现技能的集体演化
PaperOrchestra：自动化AI科研论文写作的多智能体框架

获取所有论文链接及本周其他重要AI资讯请访问：https://turingpost.com/p/fod148

⏰ 02:00 | ❤️ 147点赞 | 📝 127词 | 查看原文 →

↑ 返回顶部

God of Prompt @godofprompt

博主简介加载中 | 影响力: 0万粉丝

💡 核心观点: 核心观点总结中…

可信度: 10/10 – 2项声明可直接验证；1项需进一步确认；2项为观点陈述

事实核查:

◐ 部分可验证: VoxCPM 2可以根据纯文本描述生成声音 (需实测或查看开源代码/文档以确认是否支持纯文本输入生成声音，但“生成”效果可能依赖主观听感评价。)
✓ 可验证: VoxCPM 2支持30+种语言和48kHz音频输出 (可通过官方文档或开源代码库直接验证支持的语言列表和音频采样率参数。)
✓ 可验证: VoxCPM 2是开源项目且无需参考音频（Zero reference audio） (开源状态可通过代码托管平台（如GitHub）验证；“Zero reference audio”需结合技术文档或论文确认实现原理。)

原文内容:

TTS预设模板已成过去

传统模式：
从列表中挑选一个声音，期待它能符合需求。

全新方式：
用简单文字描述你想要的声音。

VoxCPM 2 从头开始生成语音。

支持30多种语言。48kHz采样率。开源项目。无需参考音频。

这就是颠覆性变革所在

⏰ 04:44 | ❤️ 41点赞 | 📝 46词 | 查看原文 →

↑ 返回顶部

AshutoshShrivastava @ai_for_success

| 影响力: 7.7万粉丝

💡 核心观点: 谷歌在印度推出Gemini个人智能功能，可安全关联多款应用数据。

可信度: 10/10 – 2项声明可直接验证；3项需进一步确认

事实核查:

✓ 可验证: Google has released Personal Intelligence for the Gemini app in India, allowing Gemini to securely connect and reason across personal data from Google apps. (可通过Google官方博客、开发者公告或应用商店更新日志直接验证功能发布及地区限制信息。)
◐ 部分可验证: Connects Gemini to Gmail, Google Photos, YouTube, and Search to retrieve specific details and reason across sources. (功能连接性需实测验证（如订阅用户测试权限），但数据源范围可通过官方文档部分确认。)
◐ 部分可验证: Does not train directly on Gmail inbox or Google Photos library. (隐私声明需依赖Google官方技术说明，但实际数据处理逻辑可能涉及内部机制，用户无法完全独立验证。)

原文内容:

GEMINI 更新：谷歌已在印度为Gemini应用推出个人智能功能，使Gemini能够安全连接并综合分析来自谷歌应用的个人数据。

要点速览
- 将Gemini与Gmail、Google相册、YouTube及搜索功能互联
- 跨多个数字源获取具体信息并进行逻辑推理
- 默认关闭，需用户主动授权应用关联
- 功能设计涵盖旅行计划总结、照片检索及基于历史记录的内容推荐
- 不会直接读取Gmail收件箱或Google相册库进行模型训练
- 针对健康等敏感话题设有隐私保护机制
- 用户可提供修正反馈以提升个性化准确度
- 首批面向印度Google AI Plus、Pro和Ultra订阅用户开放
- 支持网页端、Android及iOS平台访问

视频来源：谷歌官方博客

⏰ 10:19 | ❤️ 47点赞 | 📝 116词 | 查看原文 →

↑ 返回顶部

swyx 🇬🇧 @swyx

博主简介加载中 | 影响力: 0万粉丝

💡 核心观点: AI工程应优先拓展能力边界再优化模型。

可信度: 8/10 – 1项声明可直接验证；2项需进一步确认；2项为观点陈述

事实核查:

◦ 观点: All Engineering is about making tradeoffs (这是一个概括性的主观观点，无法通过客观事实直接验证，属于对工程本质的抽象总结。)
◐ 部分可验证: AI Engineering is about pushing AI Pareto Frontiers with any combo of model + harness at your disposal (部分可验证，因为“Pareto Frontiers”是优化理论中的概念，但具体如何通过“model + harness”实现需依赖实际案例或技术文档佐证，推文未提供具体证据。)
✓ 可验证: Don’t try to directly break a model frontier – instead you should first capabilitymaxx, then distil (方法论表述，缺乏具体案例或数据支持，且“capabilitymaxx”等术语非标准表述，无法通过公开资料验证其普适性。)

原文内容:

很高兴看到@excalidraw的布道理念在cog公司逐渐流行起来

这里的洞见比单纯的错误检查更具普适性：
- 所有工程本质上都是在做权衡取舍
- AI工程的核心在于利用现有模型+工具链的任意组合来推进AI帕累托前沿
- 不要试图直接突破模型边界——正确的做法是先最大化能力，再进行蒸馏
- 这个方法几乎屡试不爽[需要引用]
- @appliedcompute目前就是各家开展这类研究的Agent Lab的军火商，看着这种模式被部署到每个高流量AI问题上实在令人着迷

在AI领域赚钱只有两种方式：要么整合能力，要么拆解能力！

⏰ 10:01 | ❤️ 39点赞 | 📝 103词 | 查看原文 →

↑ 返回顶部

Aakash Gupta @aakashgupta

博主简介加载中 | 影响力: 0万粉丝

💡 核心观点: Uber工程师迅速采用Claude Code致AI预算提前耗尽。

可信度: 10/10 – 3项声明可直接验证；2项需进一步确认

事实核查:

✓ 可验证: Uber gave 5,000 engineers access to Claude Code in December. By February, usage had nearly doubled. (该声明涉及Uber内部工具使用数据和增长情况，但未提供具体来源或公开报告支持。此类内部运营数据通常不对外公开，除非Uber或Anthropic官方披露，否则无法独立验证。)
✓ 可验证: By April, the CTO told the company they’d burned through the entire annual AI budget. (此声明引用Uber高管的内部沟通内容，属于未公开的内部信息。除非有官方声明或泄露文件佐证，否则无法验证其真实性。)
◐ 部分可验证: At enterprise API pricing, Claude Code runs $100 to $200 per developer per month on Sonnet alone. (Anthropic的Claude企业版定价可能通过官方渠道或客户协议查询，但具体价格可能因客户规模、谈判条款等差异而变动。需实际企业用户或官方确认才能完全验证。)

原文内容:

优步在去年12月向5000名工程师开放了Claude Code的使用权限。到次年2月，使用量几乎翻倍。待到4月，首席技术官向全公司宣布：年度AI预算已消耗殆尽。

这条采用曲线说明了一切。2024年12月，优步32%的工程师在使用Claude Code；到2026年2月，这个数字飙升至63%。这绝非渐进式推广——而是产品实用到让工程师们将其融入工作流程的速度，远远快于财务部门测算成本的速度。

优步约34,000名员工中，工程师占比15%，约5100人。按企业API定价，仅Sonnet模型每月就为每位开发者产生100至200美元费用。但这只是订阅费计算方式。实际成本取决于token消耗量——优步工程师开发的可不是入门级应用，而是横跨70多个国家的乘客司机匹配算法、动态定价引擎和实时物流系统，每项任务都在疯狂吞噬上下文窗口。

这些工程师运用AI的规模令人咋舌：92%的优步开发者每月使用AI代理，集成开发环境中65%至72%的代码由AI生成，11%的拉取请求由AI代理发起。公司自研的AI代码审查系统uReview每周分析超过65,000次代码变更中的90%。

自2024年以来，优步AI相关成本激增6倍。

首席技术官普拉文·内帕利·纳加坦言："我不得不重新规划。"这位掌管1440亿美元企业的技术领袖承认，工具效果太好导致团队难以维持当前使用强度。

更惊人的是市场尚未察觉的趋势：截至2026年2月，Anthropic公司的Claude Code年化收入已达25亿美元，较2025年11月的10亿美元暴涨。这是企业软件史上最快的增长曲线，其驱动力正来自此类场景：企业部署Claude Code→工程师爱不释手→使用量暴增→预算迅速见底。

优步绝不会是最后一个遭遇此困境的企业。平均每位Claude Code开发者每日消耗约6美元。当数千名工程师运行复杂的代理工作流，每个子代理又维护独立上下文窗口时，成本呈指数级攀升。一个工程团队在自动化CI/CD流程中使用Claude Code，数日内就能耗尽月度预算。

如今CFO的难题成为企业级AI落地的瓶颈：技术确实有效（75%的AI代码审查建议被工程师标记为有用），生产力提升真实可见。但传统年度预算制度是为固定人均成本设计的工具，而AI编程代理的使用曲线犹如2015年的云计算账单——在有人察觉前始终呈指数增长。

所有企业的CTO都将面临与普拉文相同的会议：工具好到无法撤回，成本波动大到不容忽视。那些率先实现token成本优化的企业，将在竞争对手仍用年度预算对抗指数级增长曲线时，建立起结构性优势。

⏰ 10:03 | ❤️ 53点赞 | 📝 510词 | 查看原文 →

↑ 返回顶部

Anthony Pompliano 🌪 @apompliano

博主简介加载中 | 影响力: 0万粉丝

💡 核心观点: Silvia AI提供个性化财务建议，用户每周平均提问15次。

可信度: 6/10 – 1项声明可直接验证；2项需进一步确认；1项为观点陈述

事实核查:

◐ 部分可验证: The average active user on @cfosilvia asks her 15 questions per week. (该声明涉及具体数据（15 questions per week），但需访问@cfosilvia的官方后台或公开统计数据才能验证。若无公开数据支持，则需实测或依赖平台方提供信息。)
◐ 部分可验证: Silvia provides the power of AI with personal context for your financial portfolio. (功能描述（AI+个人财务背景）可通过试用服务或查看官网功能说明部分验证，但“personal context”的具体实现细节可能涉及隐私或未公开技术，需进一步确认。)
✓ 可验证: Free access: http://cfosilvia.com (链接可直接访问，验证是否存在免费服务或注册入口。)

原文内容:

@cfosilvia 的平均活跃用户每周会向她提出15个问题。

15个！

如果你想获得人工智能的强大能力，同时又能结合个人财务组合的具体情况，那么选择Silvia对你来说再简单不过了。

免费访问：http://cfosilvia.com

⏰ 09:49 | ❤️ 30点赞 | 📝 43词 | 查看原文 →

↑ 返回顶部

Ethan Mollick @emollick

博主简介加载中 | 影响力: 0万粉丝

💡 核心观点: 算力限制同时阻碍当前和未来AI发展。

可信度: 5/10 – 2项需进一步确认；2项为观点陈述

事实核查:

◐ 部分可验证: 在推理端，需要提高价格、限制使用或提供更差的模型 (可通过企业定价策略、用户反馈或模型性能基准测试部分验证，但具体实施细节可能因公司内部决策或未公开数据而无法完全确认。)
◦ 观点: 计算限制会损害当前增长 (这是基于因果关系的主观推论，缺乏直接数据证明计算限制与增长下滑的必然联系，可能受其他因素影响。)
◐ 部分可验证: 在训练端，无法训练下一代模型以保持竞争力 (可通过行业报告或企业公开的技术路线图间接验证，但“无法训练”的绝对性表述需依赖内部资源信息，公开渠道难以完全确认。)

原文内容:

算力约束是一个双重困境：

在推理端，你不得不（a）提高价格，（b）限制使用量，或（c）提供性能更差的模型。这会损害当前的增长。

在训练端，你无法训练下一代模型以保持竞争力。这将损害未来的增长。

⏰ 09:27 | ❤️ 97点赞 | 📝 50词 | 查看原文 →

↑ 返回顶部

Aakash Gupta @aakashgupta

博主简介加载中 | 影响力: 0万粉丝

💡 核心观点: 少女发明高效滤膜可清除95.5%的微塑料。

可信度: 10/10 – 2项声明可直接验证；3项需进一步确认

事实核查:

◐ 部分可验证: Microplastics have been found in human brains, blood, placentas, and testes across 1,300 species. (该声明涉及广泛的研究数据，需查阅多个科学文献或权威报告（如WHO、环境研究期刊）验证。但“1,300物种”的具体范围和检测方法需进一步确认，可能存在统计差异或研究局限性。)
◐ 部分可验证: An 18-year-old in Virginia built a filter in her garage that removes 95.5% of microplastics. (需核实该青少年的公开项目记录（如新闻采访、科学竞赛资料）或独立测试报告。但“95.5%”的去除率需实验室复现，个人声明可能缺乏同行评审。)
✓ 可验证: Traditional water filters clog constantly when catching microplastics due to particle size (1μm-5mm), making them impractical for households. (可通过过滤技术文献或制造商数据验证微塑料尺寸范围及传统滤膜的局限性，但“不实用”的结论需结合成本分析，部分可验证。)

原文内容:

研究人员已在1,300个物种的人类大脑、血液、胎盘及睾丸中发现微塑料污染。弗吉尼亚州一名18岁少女在自家车库研发出过滤装置，可清除95.5%的微塑料。其背后的物理原理值得探究。

传统净水器采用固体滤膜结构：水流通过时截留颗粒物。但微塑料尺寸从5毫米到1微米不等，能拦截最微小颗粒的滤膜极易堵塞，需频繁更换。高昂的维护成本使其难以普及家用。

米娅·海勒在弗吉尼亚州沃伦顿镇水质检测出PFAS和微塑料污染后，反复尝试改进传统滤膜。政府机构表示没有公共资金支持，居民只能自救。

海勒另辟蹊径：她的系统采用磁流体——一种悬浮着磁性纳米颗粒的油状液体。核心原理在于极性差异。微塑料与水的极性不同，相比水分子，微塑料更易被油性磁流体吸附。当磁流体注入污染水体时，微塑料会自主向其迁移。

随后施加磁场。由于磁流体具有磁性，磁铁能将其拖离水体，依附其上的微塑料也随之清除。该系统磁流体回收利用率达87.15%。

无需滤膜。杜绝堵塞。告别频繁更换。

历经五次原型迭代终获成功。该装置单次可过滤约1升水，体积适合厨下安装。她还自制浊度传感器验证清除率，避免依赖肉眼观测。

市政饮用水厂的微塑料清除率依技术不同介于70%-97%之间。她的车库原型机达到95.52%，为此斩获再生元国际科学与工程大赛500美元奖金。

现有瓶颈在于磁流体的大规模生产成本较高。该设计面向家庭用户而非水处理厂。但以极性与磁力替代物理过滤的机制，正是最佳工程学所需的第一性原理思维。

五次原型迭代。一间车库。五百美元奖金。

⏰ 02:34 | ❤️ 420点赞 | 📝 331词 | 查看原文 →

↑ 返回顶部

Aakash Gupta @aakashgupta

博主简介加载中 | 影响力: 0万粉丝

💡 核心观点: 抢先使用AI工具者领先，等待审批者落后。

可信度: 8/10 – 2项声明可直接验证；1项需进一步确认；1项为观点陈述

事实核查:

✓ 可验证: At OpenAI, someone on the GTM team built a full iOS app on her phone. Someone on the comms team built an HTML tool this morning to drag-and-drop a seating chart for an event. (该声明描述了OpenAI内部员工的具体行为，但缺乏公开证据（如应用链接、工具截图或官方确认），属于内部未公开案例，无法独立验证。)
◐ 部分可验证: Ed Bayes spends 70-80% of his time in Codex. Gui Seiz’s designers are pushing polish directly into staging. (涉及个人工作习惯和团队流程，需当事人或公司公开确认（如LinkedIn动态、团队博客等）。若存在公开访谈或案例研究可部分验证，否则依赖单方面陈述。)
◦ 观点: The real split is between people who opened the tool and started versus people waiting for a rollout plan. (这是对行业现状的主观观察，无具体数据支持，属于观点性陈述。)

原文内容:

如果你在等待公司批准使用AI工具后才开始构建，那么你已经落后于那些没有等待的人。

在OpenAI，市场推广团队的一名成员用手机开发了一个完整的iOS应用。通讯团队有人今早构建了一个HTML工具，用于拖拽式生成活动座位表。这两人都不是职业程序员。

与此同时，联合健康保险和Ginkgo生物科技的设计师和产品经理仍在询问公司何时会开放权限。

这才是真正的分水岭——与技术能力或公司规模无关，区别在于有人直接打开工具开始创造，而有人还在等待部署计划。

Ed Bayes将70-80%的时间投入Codex。Gui Seiz团队的设计师正直接将精修成果推送到预发布环境。这种工作模式18个月前还不存在，如今却被头衔写着"通讯"和"市场推广"的人们重新定义。

对于那些困在2024年工作流程中的人，Ed和Gui给出的路线图其实只有一句话：动手尝试。

这些工具不在乎你来自哪个行业。它们在医疗领域和OpenAI同样适用。唯一变量是你是否在等待许可。

2026年被聘用的产品经理早已有所建树。而那些还在询问该学什么的人，面试时将与他们同台竞争。

⏰ 04:27 | ❤️ 22点赞 | 📝 230词 | 查看原文 →

↑ 返回顶部

Heather Cooper @hbcoop_

Privacy-first AI research tool with access to ChatGPT, Grok, Claude, Gemini and DeepSeek in one app. Try it at https://t.co/7C2QxQNem1 (by @pnegahdar and @trungtphan) | 影响力: 5.3万粉丝

💡 核心观点: Midjourney生成视频经Runway和Topaz升级，呈现电影级写实风格。

可信度: 9/10 – 2项声明可直接验证；2项需进一步确认

事实核查:

◐ 部分可验证: Midjourney生成的视频通过Seedance 2.0在RunwayML平台上发布，并使用Topaz Astra进行视频升级 (Midjourney和RunwayML的官方功能是否支持此类协作及视频升级需查阅平台文档或实测验证，但无直接公开链接证明此推文中的具体操作流程。)
✓ 可验证: 视频采用超现实35mm变形宽银幕纪录片风格，镜头为35mm广角定焦，色彩分级为青橙分色 (推文描述的影视技术细节（如镜头参数、色彩分级）属于创作意图或后期效果声明，无公开原始文件或制作记录佐证，仅能通过最终视频主观判断是否符合描述。)
◐ 部分可验证: 拍摄使用实景照明（开放式火焰和荧光灯），相机动作为一镜到底的Steadicam滑轨运动 (若视频公开，可通过画面分析照明和运镜方式是否匹配描述，但“实景”和“无剪辑”等声明需依赖创作者提供的幕后制作资料，普通用户无法独立验证。)

原文内容:

Midjourney → 在@runwayml平台呈现Seedance 2.0版本  
视频由Topaz Astra进行画质提升  

提示词：  
[电影化场景设定]  

影片风格：超写实35毫米变形宽银幕，纪录片式实景拍摄  

镜头：35毫米广角定焦  

色彩分级：青橙双色调。画面右侧由炒锅火焰投射暖橙色，背景人群与湿漉漉的路面则被荧光招牌染上冷青色  

布光：纯自然光源——开放式火焰炒锅在面部投下硬质橙光；头顶荧光灯管将青色洒满巷道  

运镜方式：斯坦尼康稳定器单镜头无间断滑移。中广角起始于烹饪台，缓慢左移穿过人群，最后回旋定格在炒锅腾起的火焰  

[画面参考]  

@image1：夜市街道——画面右侧两位女性在炒锅台前烹饪，湿路面反射青色招牌，巷道挤满人群。全程保持此色温对比与镜头高度  

[时间轴——连续镜头]  

0-3秒：固定镜头。中广角匹配@image1构图。主厨（成年女性，深色高马尾，蓝绿T恤，绿色围裙）用长柄铲翻炒钢锅。油花爆裂，白色蒸汽裹挟橙红火光升腾。副厨正往碗里舀汤。音效：滋滋油爆声、金属刮擦声  

3-7秒：左移镜头。斯坦尼康腰部高度缓慢左滑进入人群巷道。年轻情侣俯身指向摊位菜单板，三名食客穿梭塑料凳间迎面走来。湿路面拖曳出青橙交织的垂直光痕。另一摊主（白色背心、深色围裙男性）手腕猛翻平底锅炒面。音效：湿混凝土脚步声、泰语对话、面条爆炒声  

7-11秒：回旋镜头。摄影机向右后方原摊位漂移。前景食客携带泡沫餐盒横穿画面短暂遮挡。头顶青色招牌闪烁一次。人群微动——手势交谈，女士调整肩包。音效：人群低语、荧光灯电流声  

11-15秒：爆炒火焰。镜头落回主厨（成年女性，深色高马尾，蓝绿T恤，绿色围裙），她向上猛颠食材时锅膛骤然腾起火焰，橙黄强光掠过面部。蒸汽涌入上方青色灯棚。音效：锅铲呼啸、火焰轰鸣、油脂爆裂声  

[画质要求]  

8K照片级真实，自然35毫米胶片颗粒。蒸汽/烟雾/火焰物理模拟精准——杜绝粒子特效滥用。湿滑路面反射严格遵循光源轨迹。主厨面部特征稳定不畸变。杜绝重复摊位形象。零剪辑切镜。HDR同步保留火焰高光与暗部细节

⏰ 02:00 | ❤️ 21点赞 | 📝 406词 | 查看原文 →

↑ 返回顶部

swyx 🇬🇧 @swyx

博主简介加载中 | 影响力: 0万粉丝

💡 核心观点: Notion历经五次重构AI，现推出全球领先的生产力工具。

可信度: 6/10 – 1项声明可直接验证；2项需进一步确认；1项为观点陈述

事实核查:

◐ 部分可验证: Notion has rebuilt Notion AI 5 times. (该声明涉及Notion内部开发历史，需依赖官方公开披露或核心团队成员（如Simon）的直接证实。目前无公开资料明确提及具体迭代次数，但可通过采访或官方博客进一步验证。)
◐ 部分可验证: Notion is one of the top ~3 knowledge work tools in the world. (市场份额或行业排名需依据第三方报告（如Gartner、Statista）或用户量对比数据。虽然Notion的普及度较高，但“top 3”的表述缺乏明确标准（如用户数、收入、覆盖行业），需具体数据支持。)
✓ 可验证: Notion crossed 100M users in 2024. (用户数量通常由公司官方公告或财报披露。若Notion在2024年公开过此数据（如官网、新闻稿），则可直接验证；否则需等待官方确认。)

原文内容:

终于等到：@simonlast + @sarahmsachs 做客Latent Space节目！

Notion已对Notion AI进行了五次重构，这是西蒙首次完整讲述整个历程。

我为此访谈筹备了近三年。自创立之初，我们@latentspacepod团队就和所有顶尖科技公司一样在Notion上运营。作为全球知识工作工具前三强，Notion在2024年用户突破1亿，如今正推出@ivanhzhao口中"组织机构的钢铁与蒸汽"的AI生产力套件——这场"无限心智新工业革命"的核心支柱，将彻底改变世界。

⏰ 09:07 | ❤️ 38点赞 | 📝 94词 | 查看原文 →

↑ 返回顶部

Aakash Gupta @aakashgupta

博主简介加载中 | 影响力: 0万粉丝

💡 核心观点: 美国企业长期亏损仍获巨额投资。

可信度: 10/10 – 3项声明可直接验证；2项需进一步确认

事实核查:

✓ 可验证: 亚马逊自1997年上市后，直到2015年才首次实现持续年度盈利，亏损持续18年 (亚马逊的上市时间和盈利历史可通过其SEC年报、财报或权威财经媒体（如彭博、路透）公开数据验证。)
✓ 可验证: 特斯拉成立于2003年，直到2020年才首次实现全年盈利，亏损持续17年 (特斯拉的成立时间和盈利记录可通过公司财报、SEC文件或可信商业数据库（如Crunchbase）验证。)
◐ 部分可验证: 2025年美国占全球人口的4%，但吸引了64%的全球风险投资（2740亿美元） (人口比例可通过世界银行等机构验证，但2025年风险投资数据为未来预测，目前仅能依据历史趋势（如PitchBook或CB Insights报告）部分验证。)

原文内容:

战略性亏损的艺术

亚马逊1997年上市后持续亏损，直到2015年才首次实现全年盈利——整整十八年的亏损历程。特斯拉2003年创立，2020年才迎来首个盈利财年，耗时十七载。优步累计烧掉310亿美元后，终于在2023年实现年度盈利。

在多数国家，连续三年亏损的企业将面临重组、收购或倒闭。而在美国，这样的企业往往能再获十亿美元注资。美国以全球4%的人口，在2025年吸纳了全球64%的风险投资，总额达2740亿美元。其金融体系专为此设计：特拉华州公司注册制度让创始人在烧钱时仍握有控制权；有限合伙人架构使养老基金能进行长达十年的投资；附带权益税收政策吸引顶尖金融人才为那些十五年都难盈利的企业输血。

这套机制造就了全球市值前十企业中有八家来自美国。只要最终能实现规模性成功，金融体系就会奖励那些敢于"错"上十年的赌徒。

⏰ 09:04 | ❤️ 59点赞 | 📝 170词 | 查看原文 →

↑ 返回顶部

Jerry Liu @jerryjliu0

博主简介加载中 | 影响力: 0万粉丝

💡 核心观点: 现有文档OCR基准缺乏真实多样性，ParseBench试图全面覆盖企业需求。

可信度: 9/10 – 2项声明可直接验证；2项需进一步确认

事实核查:

◐ 部分可验证: Existing document OCR benchmarks are either too narrowly focused on a specific type or on documents that aren’t reflective of real-world tasks (可通过查看提到的基准（如FinTabNet、ChartQA、OmniDocBench、OlmOCR-bench）的公开文档或论文来验证其范围和局限性，但需主观判断是否“过于狭窄”或“不反映真实任务”。)
✓ 可验证: ParseBench comprehensively covers real-world document distributions within the enterprise and evaluates across 5 dimensions (tables, charts, etc.) (可通过ParseBench官网（http://parsebench.ai）、白皮书或GitHub仓库直接验证其覆盖范围和评估维度。)
◐ 部分可验证: ParseBench uses metrics optimizing for agent semantic understanding rather than structural similarity (需通过白皮书或代码仓库中的指标定义验证其设计目标，但“语义理解”与“结构相似性”的对比需专业解读。)

原文内容:

文档OCR基准测试仍是一个悬而未决的难题

现有文档OCR基准测试要么过于局限于特定类型（如FinTabNet、ChartQA），要么基于脱离实际任务的文档（如OmniDocBench、专注于学术论文的OlmOCR-bench）。

ParseBench正是解决这一问题的尝试：
* 力求全面覆盖企业场景中的真实文档分布
* 包含表格、图表、内容保真度、格式规范、语义关联五大维度的综合评估
* 采用优化智能体语义理解（而非结构相似性）的评估指标

我们昨日发布了海量资源：
1. 白皮书
2. Hugging Face数据集
3. GitHub代码库
4. 博客文章
5. 讲解视频

而今天，我们隆重推出ParseBench官方网站http://parsebench.ai，欢迎访问！

延伸阅读推荐：
博客：https://llamaindex.ai/blog/parsebench?utm_medium=socials&utm_source=xjl&utm_campaign=2026-apr-…
论文：https://arxiv.org/abs/2604.08538?utm_medium=socials&utm_source=twitter&utm_campaign=2026-apr-…

⏰ 09:01 | ❤️ 50点赞 | 📝 161词 | 查看原文 →

↑ 返回顶部

Santiago @svpino

博主简介加载中 | 影响力: 0万粉丝

💡 核心观点: 26b模型比31b运行速度显著更快。

可信度: 9/10 – 2项声明可直接验证；2项需进一步确认

事实核查:

◐ 部分可验证: Gemma 4 26b模型在Mac Studio M4 Max上的prompt处理速度比31b快37.0%（66.16 vs 48.29 tokens/s），eval rate快283.7%（85.57 vs 22.30 tokens/s） (需实测复现相同硬件（Mac Studio M4 Max 128GB RAM）和软件环境（Ollama），但缺乏公开基准测试数据支持。速度差异可能受本地配置影响。)
✓ 可验证: 26b是MoE模型（仅4B活跃参数），31b是Dense模型（全参数激活） (模型架构信息可通过Gemma官方文档或开源代码库（如Hugging Face）确认，但需明确版本对应关系。)
✓ 可验证: 26b与31b在输出质量（如PDF问答任务）上无明显差异 (基于个人短期测试的主观结论，未提供量化评估指标或第三方对比数据，且任务场景（PDF解析）的复杂性可能影响普适性。)

原文内容:

在我的Mac Studio上并行运行Gemma 4 26b和31b模型。

硬件配置：Mac Studio M4 Max，128GB内存。通过Ollama本地运行两个模型。

附图为两个模型完成简单任务的对比（第一张是26b，第二张是31b）。

正如预期，26b模型速度明显更快：

• 提示处理速度快37.0%（66.16 vs 48.29 tokens/s）
• 评估速率快283.7%（85.57 vs 22.30 tokens/s）

26b模型是混合专家模型，仅激活40亿参数。而31b是稠密模型（所有参数全程激活）。

目前仅对比测试数小时，尚未发现两者输出质量存在显著差异。

我的使用场景是让它们阅读PDF文档并回答问题。截至目前，两个模型给出的结果基本相当。

还尝试过8b版本，在我的电脑上速度极快（407.19 tokens/s），但输出质量较差（更愚钝的模型）。适合写作场景，但也仅此而已。

顺便提一句，虽然Mac上运行的26b模型比31b快，但与云端托管模型相比仍然非常缓慢。

⏰ 20:41 | ❤️ 138点赞 | 📝 194词 | 查看原文 →

↑ 返回顶部

Aakash Gupta @aakashgupta

博主简介加载中 | 影响力: 0万粉丝

💡 核心观点: Anthropic的AI产品发布导致多领域软件股市大跌。

可信度: 6/10 – 1项声明可直接验证；2项需进一步确认；1项为观点陈述

事实核查:

◐ 部分可验证: Figma、Adobe、Wix、GoDaddy的股价因Anthropic的AI设计工具传闻下跌（分别下跌6%、2.7%、5%、3%） (股价变动可通过公开股市数据验证，但下跌原因是否直接关联Anthropic传闻需结合财经媒体或公司公告分析，存在其他市场因素干扰的可能性。)
◐ 部分可验证: 2026年内Anthropic的三次公告导致不同软件领域股价暴跌（1月Cowork影响法律金融软件，2月插件致Thomson Reuters跌16%，本次传闻影响设计软件） (历史股价波动可验证，但需确认Anthropic公告与下跌的因果关系，需排除同期其他行业事件影响。)
✓ 可验证: Anthropic的AI工具可通过自然语言生成网站/演示文稿/落地页，直接威胁Figma等公司的核心价值主张 (工具功能描述基于传闻，无官方产品发布或实测证据，且“威胁程度”属推测性结论。)

原文内容:

Figma因这则消息市值蒸发6%。Adobe下跌2.7%。Wix重挫近5%。GoDaddy跌幅达3%。

一款尚未面世的产品，就让整个设计软件行业损失数十亿美元。

这已是2026年第三次出现单个人工智能公司公告摧毁整个软件板块的情况。1月Cowork发布时拖垮了法律和金融软件股；2月Cowork插件推出后，汤森路透单日暴跌16%；如今仅凭AI设计工具的传闻，设计类股票就在产品发布前集体崩盘。

据传这款工具能让任何人通过自然语言指令创建网站、演示文稿和落地页。Figma、Wix、Webflow和Squarespace的核心价值主张，就这样被压缩成了一个文本框。

最脆弱的并非Adobe这类企业。通过Creative Cloud工作流程形成的企业用户黏性，往往需要数年才能瓦解。真正危险的是那些以"我们让设计更简单"为卖点的公司——当AI让工具层彻底消失时，"更简单"构筑的护城河将瞬间瓦解。

而同期发布的Opus 4.7模型更表明：这绝非附加功能。这款设计工具正是新模型的旗舰演示产品。

⏰ 08:39 | ❤️ 30点赞 | 📝 197词 | 查看原文 →

↑ 返回顶部

Ethan Mollick @emollick

博主简介加载中 | 影响力: 0万粉丝

💡 核心观点: 商学院学生高度关注就业市场需求信号。

可信度: 5/10 – 1项声明可直接验证；1项需进一步确认

事实核查:

◐ 部分可验证: 教授在商学院任教 (可通过查询该教授的公开履历或学校官网的教职工名单验证其任职情况，但需具体身份信息（如姓名、学校）才能完全确认。)
✓ 可验证: 职业导向型学生（如商学院学生）对市场需求的信号极度敏感 (这是基于个人观察的主观观点，缺乏具体数据或广泛研究支持，无法通过公开渠道直接验证其普遍性。)

原文内容:

作为一名商学院教师，我可以告诉你，相较于文科生或那些追求学术研究或个人兴趣领域的学生，职业导向型学生群体对他们感兴趣领域的预期市场需求信号极为敏感。

⏰ 08:24 | ❤️ 168点赞 | 📝 47词 | 查看原文 →

↑ 返回顶部

Chubby♨️ @kimmonismus

Privacy-first AI research tool with access to ChatGPT, Grok, Claude, Gemini and DeepSeek in one app. Try it at https://t.co/7C2QxQNem1 (by @pnegahdar and @trungtphan) | 影响力: 10.0万粉丝

💡 核心观点: Tiny_Fish提升了编码代理的实时网页交互能力。

可信度: 4/10 – 2项需进一步确认；1项为观点陈述

事实核查:

◐ 部分可验证: @Tiny_Fish 显著提高了编码代理在实时网络中的可用性 (需实测或查看具体技术文档/案例，验证其工具或方法是否实际改善了代理的网络交互能力，但缺乏公开直接的数据或官方声明支持“显著”程度。)
◐ 部分可验证: 现实中的网络交互通常是代理工作流程崩溃并需要大量设置的地方 (部分可验证，可通过行业报告或开发者社区反馈佐证代理在真实网络环境中的常见问题，但“通常”和“大量”等表述需具体数据支撑。)
◦ 观点: 这是一项关键改进 (主观评价，取决于个人或群体对“关键”的定义，无客观标准。)

原文内容:

1/ @Tiny_Fish 极大地提升了实时网络对编码智能体的可用性——这是一项关键改进，因为在现实世界的网络交互中，智能体工作流程常常会中断并需要大量设置。

⏰ 02:19 | ❤️ 60点赞 | 📝 30词 | 查看原文 →

↑ 返回顶部

Aakash Gupta @aakashgupta

博主简介加载中 | 影响力: 0万粉丝

💡 核心观点: OpenAI与Anthropic对AI能力分发采取相反策略，后者严格限制高风险模型。

可信度: 10/10 – 3项声明可直接验证；1项需进一步确认；1项为观点陈述

事实核查:

◐ 部分可验证: Anthropic的Mythos模型发现了每个主要操作系统和浏览器中的数千个零日漏洞，包括OpenBSD中一个存在27年的漏洞 (Anthropic可能通过官方博客或技术报告披露部分漏洞细节（如OpenBSD案例），但“数千个零日漏洞”需具体漏洞列表或CVE编号验证，目前缺乏公开数据。)
✓ 可验证: Anthropic限制Mythos模型访问权限，仅开放给约50个精选组织，提供1亿美元积分，无公开发布计划 (Anthropic的访问政策、合作计划及资金投入可通过其官网或官方公告验证（如存在相关声明）。)
✓ 可验证: OpenAI采取开放策略，允许通过身份验证的个体防御者和安全团队访问其AI网络安全能力 (OpenAI的访问政策及身份验证要求通常会在官网或开发者文档中明确说明，可直接核查。)

原文内容:

OpenAI与Anthropic刚刚展示了两种截然相反的AI网络安全能力分发理念，前后仅相隔一周。

Anthropic通过Mythos项目采取的策略是：该模型在各大主流操作系统和浏览器中发现了数千个零日漏洞，包括OpenBSD中一个存在27年的漏洞。测试期间它甚至突破了自身沙箱限制，主动向研究人员发送邮件，并在未被要求的情况下将漏洞利用细节发布到公开网站。Anthropic的应对方案是全面封锁：仅限约50家精选机构使用，提供1亿美元额度，且无公开发布计划。

而OpenAI今日宣布的方案是全面开放：面向数千名独立防御者、数百个安全团队，任何通过身份验证者皆可访问。他们的核心理念是："在网络安全领域，不该由任何企业来决定谁胜谁负。"

一家公司将网络模型视作机密武器系统，另一家则当作授权工具。面对相同的威胁模型，却采用完全对立的信任假设。

这本质上是全披露与责任披露之争的升级版——只不过如今的漏洞扫描器已能自主串联五种攻击路径。

时机选择值得玩味。Anthropic此前数周持续获得媒体对Mythos危险性的狂热报道。OpenAI虽自二月就推出"网络安全可信访问计划"，但这次伴随着新微调模型发布的扩展方案及其哲学立场的直接反驳，恰好在七天后登场。两家公司的竞争态势正在加速推动它们声称谨慎管控的能力实现广泛分发。

留给每位首席信息安全官的难题是："武装精英"与"武装所有通过验证者"，哪种方案能带来更优的安全结果？历史经验表明广泛访问更胜一筹，全披露始终比隐蔽安全更有效。但当下这些模型自主发现、串联并利用漏洞的规模，已远超任何人脑团队的能力范畴。

两家公司都清楚这些模型即将变得更强大。当前这些计划正是为下一代技术到来时所需的访问控制基础设施铺路。

⏰ 08:10 | ❤️ 22点赞 | 📝 310词 | 查看原文 →

↑ 返回顶部

# x每日奏折