【AI 英文奏折】2026年05月22日
共收录 19 篇深度内容
📋 今日内容速览
快速浏览,点击感兴趣的推文查看详细分析
- Rohan Paul: AI以通用模型破解1946年数学难题,凸显其普适推理能力。
- Rohan Paul: Meta用工程师工作数据训练AI,替代外包代码提升模型性能。
- AshutoshShrivastava: Antigravity CLI是使用Gemini 3.5 Flash的最佳平台且限速提升三倍。
- Google Gemini: Gemini Omni能根据视频和照片生成创意场景。
- Heather Cooper: Gemini Omni能智能理解世界并精准生成内容。
- ChatGPT: ChatGPT可自动生成并编辑PPT演示文稿。
- Amira Zairi: 热成像扫描展现色彩渐变的高科技监控效果。
- Alex Prompter: SOUL. md文件定义AI代理的身份、价值观和行为准则。
- Google Gemini: Gemini新增多款应用支持,可一键完成订餐购物等操作。
- fofr: 优化AI生成内容的细节与连贯性技巧。
- Rohan Paul: Qwen 3.7 Max接近顶级模型,现可免费试用。
- AshutoshShrivastava: Qwen 3.7 Max发布,性能更强且代码能力突出。
- Rimsha Bhardwaj: AI教育效果遭质疑,研究显示负面影响显著。
- Bearly AI: AI助手按需求评分帮CEO高效安排时间。
- Rohan Paul: 特朗普推迟AI行政令以防阻碍美国领先中国。
- Rohan Paul: Anthropic盈利超预期,企业AI支出快速转化为收入。
- Rimsha Bhardwaj: 苹果ID被盗将导致多年数字资产全面丢失,需立即加强防护。
- Rohan Paul: 阿里发布Qwen3.7-Max旗舰模型,性能接近GPT-5.4,侧重任务可靠性。
- Rohan Paul: 多令牌预测技术显著提升本地大模型推理速度。
📖 详细内容
Rohan Paul @rohanpaul_ai
Compiling in real-time, the race towards AGI. The Largest Show on X for AI. | 影响力: 0万粉丝
💡 核心观点: AI以通用模型破解1946年数学难题,凸显其普适推理能力。
可信度: 10/10 – 2项声明可直接验证;2项需进一步确认;1项为观点陈述
事实核查:
- ◐ 部分可验证: OpenAI的通用推理模型推翻了1946年的Erdős猜想 (需查阅OpenAI官方公告或数学期刊论文验证,目前仅依赖推文描述,无直接公开链接或学术文献佐证。)
- ◐ 部分可验证: OpenAI模型通过无限族构造实现了多项式改进,且证明经外部数学家验证 (需核实OpenAI发布的构造细节及外部验证记录,但推文未提供具体数学家或机构名称,需进一步查证。)
- ✓ 可验证: 模型并非专用于该问题的定理证明引擎,其成功依赖更多推理计算而非额外训练 (推文提及“官方帖子”但未提供来源,且模型内部机制和测试计算细节未公开,无法独立验证。)
原文内容:
人工智能在数学领域再次创造历史——OpenAI的通用推理模型成功推翻了1946年提出的埃尔德什著名猜想。 关键不在于AI解决了一道数学难题,而在于它几乎无需特殊工具就实现了突破。数十年来,平面单位距离问题看似简单得令人尴尬:在平面上布置若干点,求其中单位距离点对的最大数量。长期以来,最优解都像是拉伸后的方格阵列,数学家们因此认为网格结构几乎就是最佳方案。 而OpenAI的内部模型通过发现无限构造族打破了这一认知,实现了多项式级别的改进,其证明已获外部数学家验证。值得注意的是,该模型并非针对此问题专门训练的定理证明引擎,官方博客指出其成功率随着推理时计算资源的增加而提升——这意味着进步来自推理过程中的深度思考,而非单纯依赖训练数据。 这一突破意义重大,因为研究进展往往取决于能否将脆弱的思维链条串联起来,实现跨领域的跃迁。本次研究便在朴素几何问题与深奥代数数论之间架起桥梁,涉及无限类域塔和戈洛德-沙法列维奇理论等复杂工具。 我们现在看到,通用推理系统似乎能够探索人类审美偏好、学科界限和传统猜想无形中窄化的概念空间。因此未来并非机器取代人类判断,而是让机器在判断开始前,先为我们拓展认知的疆域。
⏰ 14:56 | ❤️ 25点赞 | 📝 256词 | 查看原文 →
Rohan Paul @rohanpaul_ai
Compiling in real-time, the race towards AGI. The Largest Show on X for AI. | 影响力: 0万粉丝
💡 核心观点: Meta用工程师工作数据训练AI,替代外包代码提升模型性能。
可信度: 10/10 – 2项声明可直接验证;3项需进一步确认
事实核查:
- ◐ 部分可验证: Meta正在使用其工程师的工作痕迹(如代码、工具使用、点击记录等)来训练编码AI (该声明基于泄露的音频片段,但Meta官方未正式确认或否认。部分内容(如内部数据用于AI训练)可通过员工爆料或技术博客间接佐证,但具体范围和方式未公开。)
- ◐ 部分可验证: 扎克伯格认为AI通过观察“真正聪明的人”执行任务(如内部代码编写、问题解决)能获得更高质量的训练数据 (扎克伯格过去曾公开讨论AI训练理念(如行为克隆),但音频中具体言论的真实性需进一步核实。Meta的AI研究方向可通过论文或公开演讲部分验证,但内部会议细节未公开。)
- ✓ 可验证: Meta计划裁员约8,000人(占员工10%),并将7,000名员工转向AI相关工作 (裁员和重组计划已由Meta官方公告(如2023年3月“效率年”声明),具体数字和部门调整可通过财报或新闻稿验证。但“转向AI工作”的具体岗位分配需内部数据确认。)
原文内容:
哇,一段Meta公司4月30日全员会议的录音遭泄露。 据报道,Meta正利用自家工程师的工作痕迹训练编程AI,同时裁减数千个岗位。扎克伯格在录音中强调,当模型观察"真正聪明的人"执行任务时学习效果更佳——这意味着Meta内部代码、工具使用记录、点击流数据和问题解决过程,能比外包人员编写的示例提供更高质量的训练数据。 其核心理念是行为克隆:Meta不仅向AI输入最终成品代码,更能提供优秀工程师解决问题的完整路径,包括编辑过程、测试记录、错误修正、工具选择等全流程。 这种训练方式不仅能教会模型正确代码的形态,更能展现资深开发者如何将模糊需求转化为可行解决方案的完整思维轨迹。 据报道Meta将裁员约8000人(约占员工总数10%),同时将7000名员工转岗至AI相关岗位。残酷的现实是:在这些员工离职前,他们的专业经验正被转化为训练数据。 该消息尚未完全获得第三方验证,但趋势已不可逆转:科技公司不再将AI视作员工辅助工具,而是能吸收工作模式并将其压缩进软件系统的存在。
⏰ 12:45 | ❤️ 96点赞 | 📝 204词 | 查看原文 →
AshutoshShrivastava @ai_for_success
| 影响力: 0万粉丝
💡 核心观点: Antigravity CLI是使用Gemini 3.5 Flash的最佳平台且限速提升三倍。
可信度: 6/10 – 1项声明可直接验证;1项需进一步确认;1项为观点陈述
事实核查:
- ◦ 观点: The best place to use Gemini 3.5 Flash is Antigravity CLI. (该声明是主观观点,缺乏客观标准或公开数据支持“最佳使用场景”的结论。)
- ◐ 部分可验证: It’s pretty simple to set up and get started with Antigravity CLI. (可通过实际安装体验验证,但“简单”是主观描述,可能因用户技术背景而异。)
- ✓ 可验证: The rate limits for Gemini 3.5 Flash are now 3x higher. (可通过官方文档或更新日志直接对比新旧速率限制,确认数值变化。)
原文内容:
使用Gemini 3.5 Flash的最佳平台是Antigravity CLI。若您尚未安装,其配置与启动流程极为简便。更令人惊喜的是,当前速率限制已提升至原先的三倍。
⏰ 19:49 | ❤️ 151点赞 | 📝 37词 | 查看原文 →
Google Gemini @geminiapp
The Gemini app turns research into reality, bringing frontier AI experiences like Veo 3.1, Deep Think, Nano Banana, and more to hundreds of millions of people. | 影响力: 488.10k万粉丝
💡 核心观点: Gemini Omni能根据视频和照片生成创意场景。
可信度: 6/10 – 1项声明可直接验证;2项需进一步确认;1项为观点陈述
事实核查:
- ◐ 部分可验证: Google Gemini Omni可以处理视频和照片输入 (需实测或查看官方文档确认Gemini Omni是否支持多模态输入(视频+照片),但技术可行性基于Google既往AI产品功能(如Gemini系列)。)
- ◐ 部分可验证: Google Gemini Omni能根据用户输入生成“梦境场景”类创意内容 (生成能力取决于模型实际功能,需通过官方演示或用户实测验证,但类似AI生成案例(如DALL·E、MidJourney)支持其可能性。)
- ✓ 可验证: 推文中的“梦境场景”输出内容与用户提供的素材(Benny的照片/视频)直接相关 (无公开输入/输出对比数据,且生成结果可能受提示词调整等未披露因素影响,无法独立验证相关性。)
原文内容:
谷歌Gemini Omni再次突破极限。 我上传了一段视频和几张救助犬Benny的照片,要求生成一个梦幻场景,这就是它给我的作品。 美梦由兔子和满满一碗狗粮构成。
⏰ 08:15 | ❤️ 23点赞 | 📝 44词 | 查看原文 →
Heather Cooper @hbcoop_
Privacy-first AI research tool with access to ChatGPT, Grok, Claude, Gemini and DeepSeek in one app. Try it at https://t.co/7C2QxQNem1 (by @pnegahdar and @trungtphan) | 影响力: 0万粉丝
💡 核心观点: Gemini Omni能智能理解世界并精准生成内容。
可信度: 10/10 – 2项声明可直接验证;3项需进一步确认
事实核查:
- ◐ 部分可验证: Google Gemini Omni具备对世界的深刻理解能力 (需通过实际测试或官方演示验证其理解能力的具体表现,目前仅凭推文描述无法完全确认。)
- ◐ 部分可验证: Google Gemini Omni无需详细解释即可理解特定地点或事件 (需用户实测或官方提供案例验证其上下文理解能力,推文中的描述缺乏具体证据。)
- ◐ 部分可验证: Google Gemini Omni能生成精确的文本渲染和排版 (需查看实际生成的视频或图像输出,但推文未提供可公开验证的成果链接。)
原文内容:
我提前体验了Google Gemini Omni和@FlowbyGoogle平台上的新工具,其中最引人注目的功能是它对世界的理解能力。 你无需详细解释特定地点或事件。其精准的文本渲染与排版效果令人惊叹。 提示词:创建一个视频,依次展示南美洲伟大文明的古代遗址,每个遗址呈现1秒。在画面下方三分之一处显示遗址名称,保持10秒视频节奏均匀。搭配渐强的戏剧性音效和电影配乐,无对白。
⏰ 00:10 | ❤️ 30点赞 | 📝 97词 | 查看原文 →
ChatGPT @chatgptapp
ChatGPT is for the people. | 影响力: 543.86k万粉丝
💡 核心观点: ChatGPT可自动生成并编辑PPT演示文稿。
可信度: 4/10 – 3项需进一步确认
事实核查:
- ◐ 部分可验证: ChatGPT can now create and edit presentations directly in PowerPoint. (需实测或查看官方公告确认功能是否已正式集成到PowerPoint中,目前仅提到“beta”阶段,未提供直接功能演示或官方文档链接。)
- ◐ 部分可验证: Build, update, understand, and polish presentations directly in PowerPoint while keeping slides editable. (功能描述具体,但需通过实际测试验证是否支持全部操作(如“understand”等模糊表述),且依赖用户反馈或官方详细说明。)
- ◐ 部分可验证: Now in beta, we’d love your feedback. (若推文来自官方账号(如@OpenAI或@Microsoft),可确认测试阶段真实性;否则需核实账号来源。)
原文内容:
你可曾暗自想过:我真的不想做这个PPT。 好消息是:ChatGPT现在可以直接在PowerPoint中创建和编辑演示文稿。 无需切换界面,直接在PowerPoint中完成演示文稿的构建、更新、内容理解与润色,所有幻灯片始终保持可编辑状态。 该功能目前处于测试阶段,我们期待您的反馈。
⏰ 04:32 | ❤️ 2197点赞 | 📝 48词 | 查看原文 →
Amira Zairi @azed_ai
AI Educator & Creator | Ambassador @Adobe @LeonardoAi & @tripoai | Partner with leading brands | Collaboration → [email protected] | 影响力: 57.13k万粉丝
💡 核心观点: 热成像扫描展现色彩渐变的高科技监控效果。
可信度: 9/10 – 2项声明可直接验证;2项需进一步确认
事实核查:
- ◐ 部分可验证: 推文描述了一种热成像扫描图像,显示在像素化的暗背景上,带有发光的热梯度颜色 (热成像扫描技术是真实存在的,但推文中描述的特定图像(如颜色组合、像素化背景等)无法直接验证,除非提供具体来源或原始文件)
- ◐ 部分可验证: 图像叠加了数据读数、网格线和诊断标记,模拟未来主义监控系统的效果 (热成像软件通常支持叠加数据和网格线,但“未来主义监控系统”的描述是主观的,具体实现方式需依赖实际工具或设计验证)
- ✓ 可验证: 主体通过数字失真表现出热量和强度 (“热量和强度”是主观描述,数字失真的具体效果无法验证,除非提供原始图像或技术参数)
原文内容:
提示词分享:热成像扫描 提示: 对[主体]进行的热成像扫描,在像素化的暗色背景上以发光的[颜色1]和[颜色2]热梯度呈现。图像叠加了数据读数、网格线和诊断标记,展现出未来感十足的监控系统正在运作的效果。主体通过数字失真散发出热量与强烈感。 可参考ATLs获取灵感
⏰ 19:00 | ❤️ 70点赞 | 📝 53词 | 查看原文 →
Alex Prompter @alex_prompter
Marketing + AI = $$$
@godofprompt (co-founder) | 影响力: 94.19k万粉丝
💡 核心观点: SOUL. md文件定义AI代理的身份、价值观和行为准则。
可信度: 6/10 – 1项声明可直接验证;2项需进一步确认;1项为观点陈述
事实核查:
- ◐ 部分可验证: SOUL.md是AI代理在行动前必须读取的身份文件 (需查看具体AI代理系统的官方文档或代码实现,确认是否存在强制读取SOUL.md的机制,目前无公开直接证据。)
- ✓ 可验证: SOUL.md包含9个关键部分(如Identity、Values等),用于定义AI的个性、边界和工具使用 (可通过开源项目或AI框架(如AutoGPT、LangChain等)的文档验证类似配置文件的结构,但“SOUL.md”是否为通用标准需进一步确认。)
- ◦ 观点: 没有SOUL.md的AI代理仅是原始LLM,缺乏记忆、个性和边界 (该声明假设SOUL.md是唯一实现个性化与边界的途径,但实际可通过其他技术(如微调、外部数据库)达成,属于主观主张。)
原文内容:
我刚刚解析了AI智能体完美SOUL.md文件的结构剖析。 SOUL.md是每个AI智能体在执行任何操作前必读的身份文件。 没有它,你的智能体就只是一个没有记忆、没有个性、没有边界的原始大语言模型。 有了它,你的智能体就能明确自己的身份、交流方式、拒绝事项以及工具选择。 以下是构成有效SOUL.md的9个核心部分: → 身份(智能体"是谁",而非"做什么") → 价值观(规则未涵盖时的决策依据) → 沟通风格(语气、篇幅、正式度) → 专业领域(具体工具和知识范畴,而非模糊的"知晓事务") → 边界(免疫系统。即使在压力下仍坚守的原则) → 工作流程(每项任务的步骤化程序) → 工具使用(应用时机与方法,而非简单罗列) → 记忆策略(保留内容与擦除标准) → 交互示例(一个优质范例胜过十条抽象规则) 多数人只写"保持专业且乐于助人"。 这种描述毫无意义——所有AI本就试图做到这点。 真正有效的智能体都拥有包含真实观点、具体限制和"优秀"标准实例的SOUL.md文件。 优质的SOUL.md篇幅应在200-500词之间。越精炼,智能体越敏锐。 保存这份指南。当你构建第一个智能体时就会用到它。
⏰ 22:58 | ❤️ 201点赞 | 📝 211词 | 查看原文 →
Google Gemini @geminiapp
The Gemini app turns research into reality, bringing frontier AI experiences like Veo 3.1, Deep Think, Nano Banana, and more to hundreds of millions of people. | 影响力: 488.10k万粉丝
💡 核心观点: Gemini新增多款应用支持,可一键完成订餐购物等操作。
可信度: 6/10 – 1项声明可直接验证;1项需进一步确认;1项为观点陈述
事实核查:
- ✓ 可验证: Gemini can now connect to even more apps, including @OpenTable, @Canva, and @Instacart. (可通过Gemini、OpenTable、Canva和Instacart的官方网站或官方公告验证集成功能是否真实存在。)
- ◐ 部分可验证: Whether you’re booking a table at a restaurant, creating a flyer, or ordering groceries, Gemini doesn’t just find info, it helps you take action seamlessly with connected apps. (需实测Gemini是否支持通过OpenTable订餐、Canva设计或Instacart购物等具体操作,功能描述可能因用户权限或地区限制存在差异。)
- ◦ 观点: Gemini helps you take action seamlessly with connected apps. (“无缝操作”是主观体验描述,取决于用户对流畅性的感知,无客观标准验证。)
原文内容:
Gemini现已支持连接更多应用,包括@OpenTable、@Canva和@Instacart。无论是预订餐厅座位、设计宣传单还是采购杂货,Gemini不仅能查找信息,更能通过互联应用帮助您无缝完成操作。
⏰ 03:52 | ❤️ 634点赞 | 📝 43词 | 查看原文 →
fofr @fofrai
Head of Engineering @ growth-stage AI company. Scaling models and teams toward AGI. Notes and thoughts along the way. | 影响力: 0万粉丝
💡 核心观点: 优化AI生成内容的细节与连贯性技巧。
可信度: 6/10 – 1项声明可直接验证;2项需进一步确认;1项为观点陈述
事实核查:
- ◐ 部分可验证: 使用特定提示词(如”Change [x]. Keep everything else the same”)与Omni生成内容 (需实测或查看Omni官方功能文档确认是否支持此类提示词,但用户个人使用习惯无法直接验证。)
- ◐ 部分可验证: 提示词要求生成”One long unbroken scene/No jump cuts”的内容 (需测试Omni是否支持生成连续场景的功能,但具体效果可能因模型版本或用户输入差异而不同。)
- ◦ 观点: 提示词强调”Include plenty of appropriate detail in the background elements”以增强真实感 (“真实感”是主观评价,无法客观验证;Omni是否优先响应此类提示需实测,但用户对效果的描述属于个人观点。)
原文内容:
以下是我在Omni生成器中频繁使用的提示词: - 修改[x]。其余部分保持不变 - 单一连续镜头/禁止跳切 - 无对白 - 在背景元素中融入丰富的恰当细节,使场景呈现真实自然的质感
⏰ 03:52 | ❤️ 37点赞 | 📝 44词 | 查看原文 →
Rohan Paul @rohanpaul_ai
Compiling in real-time, the race towards AGI. The Largest Show on X for AI. | 影响力: 0万粉丝
💡 核心观点: Qwen 3.7 Max接近顶级模型,现可免费试用。
可信度: 8/10 – 2项声明可直接验证;1项需进一步确认;1项为观点陈述
事实核查:
- ◐ 部分可验证: Qwen 3.7 Max在编码和智能体能力上非常接近前沿模型 (需通过第三方基准测试(如Artificial Analysis)或实测对比验证,但未提供具体测试数据或链接,依赖用户自行测试或查阅报告。)
- ✓ 可验证: Qwen 3.7 Max在Artificial Analysis排名第5,与GPT 5.4 (xhigh)相当,略高于Gemini 3.5 Flash (可通过Artificial Analysis官网或公开排行榜直接查询模型排名和评分,但需确认“GPT 5.4 (xhigh)”是否为官方命名。)
- ✓ 可验证: AI/ML API现提供免费试用代码 (可通过查看推文引用链接或访问AI/ML API官网确认免费活动是否存在及具体规则。)
原文内容:
Qwen 3.7 Max在编程和智能体能力上已无限接近顶尖模型。 该模型现已登陆AI/ML API平台。 智能体可靠性是其核心优势,在Artificial Analysis榜单中位列第五,与GPT 5.4(xhigh版本)几乎持平,略胜于新发布的Gemini 3.5 Flash。 AI/ML API平台正为尝鲜用户发放免费试用码,详情参见转推内容。
⏰ 03:17 | ❤️ 30点赞 | 📝 76词 | 查看原文 →
AshutoshShrivastava @ai_for_success
| 影响力: 0万粉丝
💡 核心观点: Qwen 3.7 Max发布,性能更强且代码能力突出。
可信度: 9/10 – 2项声明可直接验证;2项需进一步确认
事实核查:
- ✓ 可验证: Qwen launched Qwen 3.7 Max and it’s now available on AI/ML API. (可通过Qwen或AI/ML API的官方网站或官方公告直接确认发布信息和API可用性。)
- ◐ 部分可验证: Qwen 3.7 Max scored 56.6 on the Artificial Analysis Intelligence Index. (需查询Artificial Analysis Intelligence Index的公开榜单或Qwen官方提供的测试报告,但若该指数未公开或未明确测试方法,则部分信息可能无法独立验证。)
- ◐ 部分可验证: Qwen 3.7 Max shows much stronger agentic performance and is great for coding with fewer hallucinations. (需通过基准测试(如代理任务、编码任务评测)或第三方复现结果验证性能,但“much stronger”“great”等表述可能包含主观比较,需依赖具体数据支撑。)
原文内容:
通义千问刚刚推出Qwen 3.7 Max版本,现已登陆AI/ML应用编程接口平台。 该模型在Artificial Analysis智能指数评测中斩获56.6分,展现出更强大的智能体性能表现。 相较于众多同类模型,其在编程任务中表现尤为出色,且产生幻觉内容的概率显著降低。 AI/ML平台现正发放免费试用兑换码,详情请见下文。
⏰ 03:03 | ❤️ 33点赞 | 📝 60词 | 查看原文 →
Rimsha Bhardwaj @heyrimsha
Helping you master AI daily with step by step AI guides, & practical tools • AI Educator & Writer • DM for Collab | 影响力: 23.09k万粉丝
💡 核心观点: AI教育效果遭质疑,研究显示负面影响显著。
可信度: 10/10 – 2项声明可直接验证;2项需进一步确认;1项为观点陈述
事实核查:
- ✓ 可验证: Hamsa Bastani是宾夕法尼亚大学沃顿商学院的教授,教授运营与信息课程。 (可通过宾夕法尼亚大学沃顿商学院官网或公开的教师资料页面直接验证其身份和职务。)
- ◐ 部分可验证: Hamsa Bastani及其合著者在2025年发表了一项关于AI对学习影响的随机对照试验研究,研究对象为土耳其的近千名高中生。 (若研究已发表于PNAS(《美国国家科学院院刊》),可通过期刊官网或学术数据库验证其存在性和基本设计,但需确认具体数据和方法细节是否公开。)
- ✓ 可验证: 研究将学生分为三组,其中一组使用GPT Base(标准ChatGPT-4接口),另一组使用GPT Tutor(经过提示调整的同一模型)。 (推文未提供研究的具体标题或DOI,且实验细节(如模型版本、提示调整内容)可能未完全公开,需依赖作者进一步披露。)
原文内容:
一位沃顿商学院的经济学家对土耳其近千名高中生进行了随机对照试验。 结果对"AI赋能教育"的叙事冲击如此之大,以至于必须经过《美国国家科学院院刊》的同行评审人们才会相信。研究者名叫汉莎·巴斯托尼,她在宾夕法尼亚大学沃顿商学院教授运营与信息管理。2025年她与合著者发表的这项研究,堪称关于"当AI退出学习场景后真实学习效果"最严谨的实验设计。 实验采用与临床药物试验相同的随机对照方法。土耳其近千名高中数学生被分为三组,每组完成四次90分钟的练习。第一组使用GPT Base(标准版ChatGPT-4界面,可直接回答问题);第二组使用GPT Tutor(同模型改进版,通过提示引导学生而非直接给答案);第三组仅使用教材自主练习。 练习过程中,AI组的表现堪称奇迹。GPT Base组解题量比自主练习组多48%,GPT Tutor组更是高出127%。任何教育管理者看到这些数据,恐怕都会迫不及待地发布"AI重塑教育"的新闻通稿。 但到了禁止使用AI的正式考试时,情况急转直下。使用过GPT Base练习的学生,成绩比自主练习组低17%——尽管他们在前期练习中多解决了近半数题目。那些曾与困惑搏斗、在没有工具救援情况下自主解题的"挣扎者",反而成为考场上真正掌握数学能力的群体。 研究团队通过分析聊天记录发现,练习期间GPT Base组根本没有在学习。他们不断提取答案快速通关,每个"顿悟时刻"实际都是模型在完成认知劳动,而学生大脑只是在等待下一道题目。论文精准描述道:缺乏约束时,学生会将GPT-4当作练习拐杖,导致独立表现更差。 所有教育AI讨论都该关注这个埋藏在后测调查中的细节:练习期间最依赖AI的学生,对"已掌握知识"的自信度最高。这些工具不仅教学失败,更制造了"虚假习得感"——这是种更彻底的失败,且更难纠正,因为学习者根本意识不到问题所在。 这根智能拐杖,同时造就了虚妄的自信与真实的脆弱。
⏰ 17:52 | ❤️ 1732点赞 | 📝 523词 | 查看原文 →
Bearly AI @bearlyai
Privacy-first AI research tool with access to ChatGPT, Grok, Claude, Gemini and DeepSeek in one app. Try it at http://Bearly.AI | 影响力: 0万粉丝
💡 核心观点: AI助手按需求评分帮CEO高效安排时间。
可信度: 6/10 – 1项声明可直接验证;1项需进一步确认;1项为观点陈述
事实核查:
- ◐ 部分可验证: Circle CEO Jeremy Allaire表示他使用AI构建了一个“CEO优先事项处理器” (需通过Jeremy Allaire本人、Circle公司官方声明或公开演示验证,但缺乏直接公开的技术文档或工具链接)
- ✓ 可验证: 该AI代理根据Jeremy Allaire的需求和日程,将时间请求评分1-5分 (具体评分逻辑、数据输入和模型细节未公开,属于内部工具功能,无法独立验证)
- ◦ 观点: Jeremy Allaire称“这是对时间的高度战略性使用” (属于个人主观评价,无客观标准或第三方证据支持)
原文内容:
Circle公司首席执行官杰里米·阿莱尔表示,他利用人工智能开发了一款"CEO优先级评估器"。当他收到会面请求时,该AI助手会根据他的需求与日程安排,以1-5分制进行优先级评分。 他称"这是对时间极具战略性的运用"。
⏰ 02:35 | ❤️ 24点赞 | 📝 40词 | 查看原文 →
Rohan Paul @rohanpaul_ai
Compiling in real-time, the race towards AGI. The Largest Show on X for AI. | 影响力: 0万粉丝
💡 核心观点: 特朗普推迟AI行政令以防阻碍美国领先中国。
可信度: 4/10 – 3项需进一步确认
事实核查:
- ◐ 部分可验证: President Trump postponed the planned AI executive order (可通过白宫官方记录、新闻发布会或权威媒体报道验证特朗普是否推迟了AI行政令,但需具体文件或官方声明确认推迟的直接原因。)
- ◐ 部分可验证: He feared parts of it could slow US AI companies while China is racing to catch up (特朗普的担忧属于动机推断,需其本人或内部人士公开表态才能直接验证;中国AI发展速度可通过行业报告验证,但两者关联性需进一步证据。)
- ◐ 部分可验证: “We’re leading everybody, and I don’t want to do anything that’s going to get in the way of that lead” (引号内为特朗普的主观表态(观点),但若找到其公开讲话记录可验证是否说过此话;美国在AI领域的领先地位可通过技术指标部分验证,但“领先所有人”是主观判断。)
原文内容:
特朗普总统推迟了计划中的人工智能行政令,因为他担心其中部分内容可能拖慢美国人工智能企业的发展,而中国正奋力追赶。 "我们目前领先所有国家,我不希望采取任何可能阻碍这种领先优势的措施"
⏰ 02:24 | ❤️ 23点赞 | 📝 49词 | 查看原文 →
Rohan Paul @rohanpaul_ai
Compiling in real-time, the race towards AGI. The Largest Show on X for AI. | 影响力: 0万粉丝
💡 核心观点: Anthropic盈利超预期,企业AI支出快速转化为收入。
可信度: 8/10 – 1项声明可直接验证;3项需进一步确认;1项为观点陈述
事实核查:
- ◐ 部分可验证: Anthropic预计在Q2首次实现营业利润,营收同比增长130%至10.9B美元 (该声明涉及Anthropic的财务预测数据,需通过公司官方财报或投资者关系公告验证,但当前信息来自推文引用的WSJ报道(未附原文链接),且包含未来预测(Q2数据未实际发生)。)
- ◐ 部分可验证: Anthropic的Q1营收为4.8B美元,并告知投资者预计Q2营业利润为559M美元 (具体财务数据需通过Anthropic官方披露的财报或SEC文件核实,但推文未提供直接来源链接。若WSJ的报道引用了公司公开声明(如投资者会议记录),则可部分验证。)
- ✓ 可验证: 驱动增长的因素是Agentic Coding(Claude处理更长软件任务而非单次问答) (该声明涉及产品技术细节和客户使用场景,需Anthropic官方技术白皮书或客户案例佐证。推文未提供具体证据,且“驱动因素”属于因果推断,需内部数据支持。)
原文内容:
《华尔街日报》:Anthropic预计将在第二季度首次实现运营盈利,营收激增130%至109亿美元,而此前预计盈利要到2028年左右才能实现。 令人震惊的不仅是盈利本身,更是企业AI支出转化为实际营收的速度。 Anthropic第一季度营收48亿美元,随后告知投资者预计在6月当季实现5.59亿美元运营利润。 这一增长的主要驱动力是自主编码功能——Claude现在能处理更长时间的软件任务,而非仅限单次问答。 这使产品从聊天机器人转变为可租赁的数字劳动力,客户因此愿意支付更高费用。 成本结构也发生变化:Anthropic第一季度每1美元营收中有71美分用于算力支出,但预计第二季度将降至56美分。 算力仍是AI行业的主要成本,但单位营收的算力支出降低意味着规模效应开始显现。 相较于OpenAI,Anthropic还受益于更多使用谷歌和亚马逊芯片、更少的免费用户群体,以及更少的大型数据中心承诺。
⏰ 02:16 | ❤️ 25点赞 | 📝 177词 | 查看原文 →
Rimsha Bhardwaj @heyrimsha
Helping you master AI daily with step by step AI guides, & practical tools • AI Educator & Writer • DM for Collab | 影响力: 23.09k万粉丝
💡 核心观点: 苹果ID被盗将导致多年数字资产全面丢失,需立即加强防护。
可信度: 6/10 – 1项声明可直接验证;2项需进一步确认;1项为观点陈述
事实核查:
- ◐ 部分可验证: Apple ID被劫持会导致iCloud照片、App Store购买内容、Find My iPhone、Apple Pay及同步设备全部无法访问。 (苹果官方支持文档(如[Apple ID安全指南](https://support.apple.com/en-us/HT201303))提到账户被盗可能影响关联服务,但具体影响范围需结合用户实际使用情况(如是否启用双重认证等),无法一概而论。)
- ◦ 观点: 一个被入侵的Apple ID可能抹去用户10年的数字生活。 (该表述为夸张修辞(如“10年”无具体依据),旨在强调后果严重性,实际影响取决于用户数据存储量和备份情况,属于主观推断。)
- ✓ 可验证: 用户可在15分钟内锁定Apple ID以防劫持。 (苹果官方提供明确的账户保护步骤(如启用双重认证、修改密码等),操作时间可实测验证(如[Apple ID安全设置页面](https://support.apple.com/en-us/HT204152))。)
原文内容:
若你的Apple ID明日遭窃,你可能永久失去以下访问权限: - iCloud照片(所有珍贵回忆) - App Store已购项目 - "查找我的iPhone"功能 - Apple Pay及已存储支付卡 - 所有同步设备 一个被盗的Apple ID足以抹去你十年的数字生活。 15分钟快速防护指南 ↓
⏰ 19:48 | ❤️ 68点赞 | 📝 56词 | 查看原文 →
Rohan Paul @rohanpaul_ai
Compiling in real-time, the race towards AGI. The Largest Show on X for AI. | 影响力: 0万粉丝
💡 核心观点: 阿里发布Qwen3.7-Max旗舰模型,性能接近GPT-5.4,侧重任务可靠性。
可信度: 10/10 – 2项声明可直接验证;3项需进一步确认
事实核查:
- ✓ 可验证: Alibaba released Qwen3.7-Max, their best flagship model for real-world tasks and production environments (可通过阿里巴巴官方公告或开源平台(如Hugging Face/GitHub)验证模型发布信息及定位描述。)
- ◐ 部分可验证: Qwen3.7-Max scored 56.6 on the Artificial Analysis Intelligence Index, up 4.8 points from Qwen3.6-Max, ranking 5th and on par with GPT 5.4 (xhigh) (若”Artificial Analysis Intelligence Index”为公开基准测试(如类似MMLU/HELM),可通过其官网查证分数;但需确认”GPT 5.4 (xhigh)”是否为官方命名或第三方测试结果。)
- ◐ 部分可验证: Intelligence Index gains over Qwen3.6 Max are concentrated in scientific reasoning, agentic capability, and coding (需依赖官方发布的基准测试细分领域数据(如技术报告),若未公开具体对比细节则无法完全验证。)
原文内容:
阿里巴巴刚刚发布了Qwen3.7-Max。 这款旗舰级模型专为实际任务和生产环境打造,代表着当前最高水平。 - 其核心突破在于智能体可靠性——模型能够规划步骤、调用工具、检查结果、修正错误,即使在首次决策失误后仍能持续运作不崩溃。 - 在人工智能分析指数中以56.6分位列第五,较Qwen3.6-Max提升4.8分,与GPT 5.4(xhigh版本)表现相当 - 相较于Qwen3.6 Max预览版,智能指数提升主要体现在科学推理、智能体能力和编程三大领域 - 服务栈关键组件推理内核经过深度优化,通过多轮GPU底层优化,其几何平均加速比从接近基线水平提升至10.0倍。
⏰ 01:32 | ❤️ 33点赞 | 📝 110词 | 查看原文 →
Rohan Paul @rohanpaul_ai
Compiling in real-time, the race towards AGI. The Largest Show on X for AI. | 影响力: 0万粉丝
💡 核心观点: 多令牌预测技术显著提升本地大模型推理速度。
可信度: 10/10 – 2项声明可直接验证;3项需进一步确认
事实核查:
- ✓ 可验证: atomic[.]chat的本地-LLM可在计算机上100%离线运行 (可通过访问atomic[.]chat官网或官方文档确认其离线运行功能)
- ◐ 部分可验证: MTP技术将27B密集Qwen模型的生成速度从51提升至117 tokens/s (需实测或查看官方发布的基准测试报告,但缺乏公开的直接数据链接)
- ◐ 部分可验证: MoE 35B-A3B模型在2x RTX 5090上速度从218提升至267 tokens/s (需依赖硬件实测或官方性能对比数据,但未提供具体测试条件)
原文内容:
原子聊天(atomic[.]chat)为本地大语言模型(LLM)带来又一利好消息——该工具可在计算机上实现100%离线运行。 其最新展示的多令牌预测技术(MTP)将27B稠密参数模型下的本地通义千问(Qwen)模型生成速度从51令牌/秒提升至117令牌/秒。而在双RTX 5090显卡环境下,35B-A3B混合专家模型(MoE)的生成速度更是从218令牌/秒跃升至267令牌/秒。 与传统逐令牌生成验证不同,MTP技术能同步预测并验证多个未来令牌,使得GPU在输出每个词汇时减少重复计算。当草拟令牌获得高频采纳时,本地LLM的运行效率将获得显著提升。 对于多数本地LLM而言,性能瓶颈往往不在于纯粹算力,而在于内存带宽——即GPU持续将权重参数输入计算核心的速度。传统文本生成过程中,GPU大部分时间都在为每个令牌反复从显存提取模型权重。MTP技术通过单次前向传播同时验证多个草拟令牌,有效降低了巨型权重矩阵的重复读取频率。 测试中最引人注目的发现是:在保持零精度损失且仅增加约1GB显存占用的前提下,草拟令牌采纳率可达约80%。这使得推测解码技术(speculative decoding)的实际价值得以充分展现——该技术通常仅在草拟令牌高频采纳时才能发挥效用。 这项突破之所以能带来显著的本地AI性能提升,关键在于它在不改变模型输出的前提下加速了生成过程。其中稠密模型受益最为明显,因其原本主要受限于内存带宽瓶颈。 该项目的GitHub仓库已完全开源。
⏰ 11:50 | ❤️ 50点赞 | 📝 239词 | 查看原文 →
Rohan Paul
AshutoshShrivastava
Google Gemini
Heather Cooper
ChatGPT
Amira Zairi
Alex Prompter
fofr
Rimsha Bhardwaj
Bearly AI