【AI 奏折】2026年06月24日
共收录 17 篇深度内容
📋 今日内容速览
快速浏览,点击感兴趣的推文查看详细分析
- 赵纯想: Laper半年营收7609美元,展现Agentic2.0产品潜力。
- 向阳乔木: 新智元AI总结出高点击率标题的字符、标点和结构规律。
- 苍何: 百度开源长文档OCR新模型,模仿人类抄书实现高效连续识别。
- GitHubDaily: Niamos提供开箱即用的精细化Obsidian知识管理模板与自动化流程。
- karminski-牙医: 双Agent协作通过评审迭代优化任务效果。
- GitHubDaily: 全栈AI学习路线整合教程与实战项目,适合零基础系统学习。
- 铁锤人: 运动是提升效率和收入的高效投资。
- huangserva: Topview推出无限生成套餐,降低视频创作试错成本。
- 泊舟: 开源《Codex橙皮书》整合零散教程,助新手系统掌握实战技能。
- Jackywine: flomo快速启动、录音转写和来源追溯功能提升随想记录体验。
- GitHubDaily: 开源工具一键将PDF转为逼真扫描件,支持多种效果自定义。
- Orange AI: Seed Audio 1.0首次实现智能生成多样化声音。
- GitHubDaily: Cloudflare开源AI工具深度扫描代码漏洞,减少误报提升覆盖率。
- dontbesilent: 复利式成长需系统支持,个人努力常不符合此结构。
- AI Will: 液冷技术让高温数据中心更省电且省水。
- 向阳乔木: 自媒体需研究新智元,百度开源高效OCR技术引关注。
- Berryxia.AI: 百度开源Unlimited OCR实现单次长文档解析。
📖 详细内容
赵纯想 @chunxiangai
http://laper.ai – AI剧作 http://bellybook.cn – 胃之书 http://love.chunxiang.space – 入门课程 http://chunxiang.ai – 顾问服务 http://motherbase.app – 出海神器 | 影响力: 38.16k万粉丝
💡 核心观点: Laper半年营收7609美元,展现Agentic2.0产品潜力。
可信度: 5/10 – 2项需进一步确认;2项为观点陈述
事实核查:
- ◐ 部分可验证: Laper 的 MRR(月度经常性收入)为7,609美元 (需通过Laper官方财报或第三方可信财务数据平台(如公开的SaaS指标工具)验证,但推文未提供直接链接或具体数据来源。)
- ◐ 部分可验证: 过去四周收入为10,031美元 (类似MRR,需依赖Laper官方披露的财务记录或第三方审计报告,但缺乏直接公开的验证渠道。)
- ◦ 观点: 微信公众号文章《OPC公司真实财报:Laper 发布的6个月后》包含Agentic2.0时代产品的思考和技术细节
原文内容:
六个月后,Laper 的 MRR ,7,609 美元。过去四周收入,10,031 美元。步履维艰,但是有些希望。 我在微信公众号发布了一篇《OPC公司真实财报:Laper 发布的6个月后》。里面有我对Agentic2.0时代产品的思考,以及许多难忘的小故事,外加一些技术细节分享。 感兴趣的朋友移步观看。谢谢!
⏰ 19:41 | ❤️ 116点赞 | 📝 93字 | 查看原文 →
向阳乔木 @vista8
喜欢摇滚乐、爱钓鱼的PM
网站:https://qiaomu.ai | 影响力: 0万粉丝
💡 核心观点: 新智元AI总结出高点击率标题的字符、标点和结构规律。
可信度: 6/10 – 1项声明可直接验证;2项需进一步确认;1项为观点陈述
事实核查:
- ◐ 部分可验证: 中位标题长度32字 (需实际统计“新智元”大量标题的字数分布才能验证,但未提供数据来源或样本量,公开渠道无直接结果可查。)
- ◐ 部分可验证: 标点常用感叹号和逗号,占比接近八成 (可通过分析其历史标题标点使用频率验证,但需人工或工具统计,推文未提供具体数据来源。)
- ✓ 可验证: 数字出现率56.7% (未说明统计样本范围或方法,且“数字出现率”定义模糊(如是否含日期/纯数字标题),缺乏公开数据支持。)
原文内容:
新智元起名果然有一套,AI总结的规律: 1. 中位标题长度 32 字 2. 标点常用 ! 和 , 接近八成 3. 数字出现率 56.7% 4. 英文模型/公司名出现率 90.8% 常见结构 “实体/数字/刚刚 + 动作/冲突 + 后果/榜单/人群影响” Skill安装 npx skills add joeseesun/qiaomu-xinzhiyuan-title 仅供娱乐,如有侵权,请联系删除。
⏰ 23:04 | ❤️ 38点赞 | 📝 83字 | 查看原文 →
苍何 @canghe
前大厂牛马开发,现 AI 创业,Microsoft MVP。 公众号【苍何】作者 。 专注AI出海,AI编程,智能体,MCP ,Skills。 出海寻找同频,分享 AI 干货。https://dinq.me/canghe | 影响力: 31k万粉丝
💡 核心观点: 百度开源长文档OCR新模型,模仿人类抄书实现高效连续识别。
可信度: 8/10 – 1项声明可直接验证;2项需进一步确认;2项为观点陈述
事实核查:
- ✓ 可验证: 百度开源了Unlimited OCR,采用R-SWA(参考滑动窗口注意力)机制 (可通过推文提到的开源地址(评论区链接)直接查看代码库或官方文档,确认是否开源及技术细节。)
- ◐ 部分可验证: 传统OCR模型处理长文档需逐页清空记忆,而R-SWA通过恒定KV Cache(128 token窗口)实现长文档连续处理 (技术原理可通过开源代码或论文验证,但实际性能(如“32K上下文够用”)需实测或依赖官方基准测试数据。)
- ◦ 观点: R-SWA灵感来自人类抄书时的“软遗忘”机制,仅保留最近上下文 (类比人类认知行为属于主观解释,无客观标准验证其设计必然源自该观察。)
原文内容:
百度开源了 Unlimited OCR,思路挺有意思。 现在所有 OCR 模型处理长文档,本质都是 for 循环,一页一页处理,每翻一页就清空记忆。这其实是工程上的权宜之计。 百度换了个思路:看人类怎么抄书的。 人在抄书时,不会把前面写过的每个字都记住,只关注原文、刚写的几个字、和下一个要写的字。已经写过的内容会慢慢淡出记忆,只保留最近的上下文来追踪进度。 这种「软遗忘」机制,才是人类能连续抄几百页不崩溃的关键。 基于这个观察,百度提出了 R-SWA(参考滑动窗口注意力):模型始终能看到完整的原始图像,但输出端只关注最近 128 个 token。KV Cache 大小恒定,不随页数膨胀。 效果就是一次前向推理,直接转录数十页文档,32K 上下文就够。 感觉百度最近搞 AI 的路子,确实变了。 开源地址见评论区:
⏰ 16:04 | ❤️ 24点赞 | 📝 260字 | 查看原文 →
GitHubDaily @github_daily
挖掘开源的价值
坚持分享 GitHub 上高质量、有趣、实用的教程、AI工具、前沿 AI 技术
A list cool, interesting projects of GitHub.
公众号:GitHubDaily | 影响力: 77.87k万粉丝
💡 核心观点: Niamos提供开箱即用的精细化Obsidian知识管理模板与自动化流程。
可信度: 8/10 – 2项声明可直接验证;1项需进一步确认;1项为观点陈述
事实核查:
- ✓ 可验证: Niamos是一个开箱即用的Obsidian模板库,包含文档模板、查询视图和操作手册 (可通过提供的GitHub链接(http://github.com/pricklywiggles/niamos)直接查看项目内容,确认是否包含所述功能。)
- ◐ 部分可验证: 集成Claude Code,可自动化新建页面、归档项目、每日复盘等操作 (需通过GitHub项目代码或文档确认是否实际集成Claude Code及其自动化功能,但需实测验证自动化效果。)
- ✓ 可验证: 内容模型分为目标、领域、项目、习惯、百科、日记六种类型,比原版PARA方法更细致 (可通过GitHub项目文档或模板结构直接验证分类设计,并与原版PARA方法(公开资料)对比。)
原文内容:
Niamos,把一套完整的 PARA 知识管理体系做成,开箱即用的 Obsidian 模板库。 只保留工作流的纯粹骨架,包含各类文档模板、查询视图以及详尽的操作手册。 集成 Claude Code,帮我们将新建页面、归档项目、每日复盘等繁琐操作直接自动化。 GitHub:http://github.com/pricklywiggles/niamos… 内容模型分成目标、领域、项目、习惯、百科、日记六种类型。 每种都有独立的模板和生命周期流程,比原版 PARA 方法更细致。 如果我们一直想在 Obsidian 里构建一套靠谱的知识管理流程,这个项目值得研究学习下。
⏰ 21:30 | ❤️ 25点赞 | 📝 161字 | 查看原文 →
karminski-牙医 @karminski3
A coder, road bike rider, server fortune teller, electronic waste collector, co-founder of KCORES, ex-director at IllaSoft, KingsoftOffice, Juejin. | 影响力: 36.92k万粉丝
💡 核心观点: 双Agent协作通过评审迭代优化任务效果。
可信度: 10/10 – 3项声明可直接验证;2项需进一步确认
事实核查:
- ✓ 可验证: Doubao-Seed-2.1-pro 已发布 (可通过字节跳动官方渠道(如官网、技术博客或发布会记录)验证模型发布信息。)
- ◐ 部分可验证: 使用双Agent(打工Agent+评审Agent)框架能提升复杂任务效果 (需实测或查看官方Demo代码/文档才能验证其具体实现和效果,但技术逻辑符合AI领域常见工作流设计(如Agentic Workflow)。)
- ✓ 可验证: Seed-2.1模型具备多模态能力,可基于城市相册建模整个城市 (未提供Demo具体数据或公开可访问的案例,需依赖现场观众反馈或官方后续披露细节。)
原文内容:
刚刚 Doubao-Seed-2.1-pro 发布啦! 给大家分享一个自我迭代 Agent 的构建技巧啊, 也是我在今天字节 seed-2.1 模型发布 demo 中用到的技巧. 这个技巧的核心就是, 干一件复杂的事情, 用两个Agent比用一个Agent要好. 简单来讲打工Agent干完活之后, 还要增加一个评审Agent, 这个Agent要给打工Agent的产出评分, 然后说明评分理由, 哪里做得好, 哪里做的不好. 然后, 一定要输出结构化的评分结果(JSON就行), 这样, 打工Agent接到评分后, 进行修改, 修改完毕再次交给评审Agent, 评审Agent再次打分, 这时候就可以跟上次的打分进行对比. 只有得分大于上次的得分, 你的框架才合并这次的修改. 这就是 Agentic 自我迭代了. 基于 AI 反馈的强化学习的雏形基本就是这样的了, 以及吴恩达提出的 Agentic Workflow 核心原则之一就是 Reflection(反思),框架让模型像人类程序员提交 PR一样:打工 Agent 提交 PR,裁判 Agent 跑测试、打分。只有 Review 通过才能 Merge 到主分支。这就是真正的“工程化迭代”了. 甚至我框架内其实就是采用的Git模式, 多个Agent进行并行评估模拟多个分支, 只有打分高的才会合并到主分支. 最终得益于 Seed-2.1 本身的自我迭代和多模态能力也很强, 在它的驱动下, 成功实现了这个【只需要上传一个城市的相册, 就能建模一整个城市】的demo. 相信在现场的同学已经看到这个 demo 了哈哈. 下一期告诉你当这个办法也失效了, 该怎么办☆. #AIAgent #seed21 #AI自我迭代
⏰ 20:53 | ❤️ 33点赞 | 📝 433字 | 查看原文 →
GitHubDaily @github_daily
挖掘开源的价值
坚持分享 GitHub 上高质量、有趣、实用的教程、AI工具、前沿 AI 技术
A list cool, interesting projects of GitHub.
公众号:GitHubDaily | 影响力: 77.87k万粉丝
💡 核心观点: 全栈AI学习路线整合教程与实战项目,适合零基础系统学习。
可信度: 10/10 – 2项声明可直接验证;2项需进一步确认;1项为观点陈述
事实核查:
- ✓ 可验证: fullstack-ai-agent-roadmap 学习路线包含 110 篇教程、58 万字,涵盖从零基础到独立开发 AI 产品的全栈知识 (可通过 GitHub 链接(http://github.com/Karovia/fullstack-ai-agent-roadmap)直接查看仓库内容,统计教程数量、字数及目录结构。)
- ◐ 部分可验证: 学习路线使用 Obsidian 组织,配有思维导图,内容从 Python/JS 基础延伸到大语言模型和 AI 智能体开发 (GitHub 仓库可能提供 Obsidian 文件或导图截图,但需下载实测确认完整性和逻辑连贯性。)
- ◐ 部分可验证: 每章包含验收项目(如异步爬虫、企业文档问答系统等),并提供 400 多个精选 GitHub 项目用于学习 (仓库中可查看项目列表和章节作业,但需实际运行代码或测试项目链接有效性以确认质量。)
原文内容:
想系统学全栈开发和 AI,网上教程东一篇西一篇,学完理论知识不知道找什么项目实战。 偶然看到 fullstack-ai-agent-roadmap 这份学习路线,共 110 篇教程、58 万字,带我们从零基础开始到能独立做出 AI 产品。 整个路线用 Obsidian 组织,配有思维导图,从 Python、JavaScript 基础开始,再到前端、后端、数据库,最终深入到大语言模型和 AI 智能体开发。 GitHub:http://github.com/Karovia/fullstack-ai-agent-roadmap… 每个知识点都用日常类比讲解,附带完整可运行代码和练习题。每章还必须完成一个验收项目,比如异步爬虫、协作白板、企业文档问答系统等,学完就有实际作品。 另外还精选了 400 多个 GitHub 项目,按入门、进阶、源码级分类,告诉我们每个项目该怎么用来学习。 零基础想转行或者想补齐全栈和 AI 知识体系的同学,可以收藏跟着学,每天花 3 小时。
⏰ 18:00 | ❤️ 106点赞 | 📝 245字 | 查看原文 →
铁锤人 @lxfater
我在用 AI 协助我创业,走向自由 github 维护 3w star 项目,写过 1200w 浏览文章,公众号:铁锤人 商务联系:tiechuiren101 | 影响力: 0万粉丝
💡 核心观点: 运动是提升效率和收入的高效投资。
可信度: 6/10 – 1项声明可直接验证;1项需进一步确认;2项为观点陈述
事实核查:
- ◐ 部分可验证: 半年前膝盖扭伤后,几乎没法运动,身体胖了很多 (可通过医疗记录或体重变化数据部分验证膝盖扭伤和体重增加,但需依赖用户提供具体证据。)
- ✓ 可验证: 今天早上开始爬楼梯了,爬到了32楼,突然感觉恶心想吐 (个人运动体验和身体反应无法通过公开渠道验证,属于主观感受。)
- ◦ 观点: 简单投入15分钟,一天效率提高肯定不止15分钟 (效率提升的量化表述是主观观点,缺乏客观数据或研究支持。)
原文内容:
这半年限制我收入的最主要因素是体能 半年前膝盖扭伤后,几乎没法运动,身体胖了很多,干啥也不得劲。很多当初定下的策略都没法好好执行下去。月收入一直没有巨大突破。 今天早上开始爬楼梯了,爬到了32楼,突然感觉恶心想吐,估计还没太适应这种强度的运动。 但今天的效果已经出来了,做事情得劲了。 简单投入15分钟,一天效率提高肯定不止15分钟。 运动真的是你能想到的最快,最容易见效的投资了。
⏰ 11:02 | ❤️ 24点赞 | 📝 164字 | 查看原文 →
huangserva @servasyy_ai
古早程序员 | AI出海 | 自由职业
机车游侠&机速购&骑享租创始人
15年前 freelance 起步 → 连续创业者 → 亏过1个亿,逆风翻盘中
分享创业,AI,读书,生活,健身 | 影响力: 28.75k万粉丝
💡 核心观点: Topview推出无限生成套餐,降低视频创作试错成本。
可信度: 10/10 – 2项声明可直接验证;2项需进一步确认;1项为观点陈述
事实核查:
- ◐ 部分可验证: Topview上线Seedance 2.0 Mini,Ultra Annual用户可享365天无限生成 (需通过Topview官网或官方公告确认是否存在该产品及具体订阅条款,但“无限生成”的具体限制(如分辨率、时长等)可能需要实测或联系客服核实。)
- ✓ 可验证: Credit Mode模式下生成速度为$0.05/秒 (定价信息通常可在官网或用户协议中直接查询,属于公开的商业条款,但实际生成速度可能受服务器负载等因素影响。)
- ◦ 观点: “模型不缺,缺的是敢多试几版” (这是对行业现状的主观描述,无客观数据支持,反映的是推文作者或目标用户的个人观点。)
原文内容:
365 天无限生成??? 做视频的人看到这,血压是不是先稳了? 剪片子的都懂:模型不缺,缺的是敢多试几版。一个方向多抽几次卡,钱就烧没了,好想法都被成本卡死了 Topview 这次上线 Seedance 2.0 Mini,Ultra Annual 直接给你 365 天无限生成:想跑多少版跑多少版,再也不用心疼那点额度。 先用 Mini 把方向批量铺开,挑出真正值得留的,再拿去精修。 追求速度的话,切到 @TopviewAIhq 的 Credit Mode,$0.05/秒,生成更快,急稿照样稳稳接住。 放开手造的爽,试过就回不去了。
⏰ 12:25 | ❤️ 46点赞 | 📝 152字 | 查看原文 →
泊舟 @bozhou_ai
AI 程序员 & Vibe 编码者 | 构建 Agent 、系统提示与高效流程 | 热爱设计、编码,将想法转化为影响力|AI中转站创业中| 合作&咨询 +V:bozhou_ai | 影响力: 22.30k万粉丝
💡 核心观点: 开源《Codex橙皮书》整合零散教程,助新手系统掌握实战技能。
可信度: 10/10 – 2项声明可直接验证;2项需进一步确认;1项为观点陈述
事实核查:
- ✓ 可验证: 《Codex 橙皮书》是一份206页的PDF教程,涵盖从零到能用Codex跑通真实项目的系统内容 (可通过提供的开源地址(https://github.com/bozhouDev/codex-orange-book)直接查看PDF内容,验证页数、章节结构和完整性。)
- ◐ 部分可验证: 教程包含五大核心章节(概念、安装配置、功能详解、工作流、实战案例),并配有实测截图 (开源链接可验证章节划分和截图是否存在,但需实际阅读内容以确认其详细程度和实用性(如“手把手做完”需用户操作验证)。)
- ◐ 部分可验证: 教程对比了Codex与ChatGPT、Cursor、Claude Code的差异,并提供了四个入口的选择建议 (差异分析可通过阅读教程验证,但关于“入口选择建议”的合理性需依赖用户技术背景判断,属部分可验证。)
原文内容:
市面上 Codex 的教程太散了。 官方文档一块、视频一块、各路博主又一块,新手想系统上手,光把这些东西拼到一起很花时间。 所以我和小伙伴花了十天,自己整理出一本《Codex 橙皮书》。今天免费开源,直接拿走。 一份 PDF 206页,从零到能用 Codex 跑通真实项目,挨个章节啃下来就够: 一. 先搞懂 Codex 是什么 它和 ChatGPT、Cursor、Claude Code 到底差在哪,四个入口怎么选,先把概念捋清楚。 二. 安装、配置与环境准备 App、CLI、IDE 插件、Web 四端,从下载到第一次跑通,一步步带着做。 三. 核心功能详解 自动化、插件、Skill、MCP、Git/GitHub、云端运行、记忆系统 AGENTS.md,一个个讲透。 四. 标准工作流 我们自己跑出来的标准六步法,再配一套能直接复制的任务模板。 五. 实战案例库 从宠物零食官网、管理后台,到招商 PPT、宣传视频,五个案例手把手做完。 全程中文,面向小白,配了一大堆实测截图。我们踩过的坑,基本都写进去了。 开源地址: https://github.com/bozhouDev/codex-orange-book…
⏰ 10:45 | ❤️ 1178点赞 | 📝 283字 | 查看原文 →
Jackywine @jackywine
Prompt Engineer | 端侧 AI | Anthropic,OpenAI,Google AI·用户
不过是工作之余分享一些 AI、设计、产品、一人公司的普通网友罢了
Telegram channel:http://t.me/jackywineEarth | 影响力: 42.44k万粉丝
💡 核心观点: flomo快速启动、录音转写和来源追溯功能提升随想记录体验。
可信度: 8/10 – 2项声明可直接验证;1项需进一步确认;1项为观点陈述
事实核查:
- ◐ 部分可验证: flomo 启动速度飞快,开发团队自己都在用 (启动速度可通过实测对比其他工具(如飞书)验证,但“开发团队自己都在用”需官方声明或团队公开确认。)
- ✓ 可验证: flomo 自带录音转写功能,会记录原录音并用 AI 润色 (功能描述明确,可通过官网或实际使用验证录音转写和 AI 润色的存在及操作流程。)
- ✓ 可验证: flomo 展示笔记来源,方便追溯 (笔记来源展示功能可直接通过产品界面或官方文档验证其存在和具体形式。)
原文内容:
我用 flomo 记随想已经很多年,原因如下: 首先 flomo 启动速度飞快,开发团队自己都在用,你可以对比一下,尤其是和飞书之类的笔记工具对比,快速记录稍纵即逝的想法 其次,flomo 自带录音转写,会记录你的原录音再给你用 AI 润色一点点 最后,flomo 展示笔记来源,这点方便追溯,相当方便 以上
⏰ 14:29 | ❤️ 20点赞 | 📝 109字 | 查看原文 →
GitHubDaily @github_daily
挖掘开源的价值
坚持分享 GitHub 上高质量、有趣、实用的教程、AI工具、前沿 AI 技术
A list cool, interesting projects of GitHub.
公众号:GitHubDaily | 影响力: 77.87k万粉丝
💡 核心观点: 开源工具一键将PDF转为逼真扫描件,支持多种效果自定义。
可信度: 10/10 – 3项声明可直接验证;2项需进一步确认
事实核查:
- ✓ 可验证: GitHub上的make-look-scanned工具可将PDF转换为逼真的扫描件效果 (可通过提供的GitHub链接(http://github.com/overflowy/make-look-scanned)直接访问项目,查看工具功能描述和示例效果。)
- ◐ 部分可验证: 工具支持添加歪斜、灰度、纸张泛黄、噪点、模糊、边缘阴影等效果 (GitHub项目页面可能列出这些功能,但需实际运行工具或查看示例输出以确认效果的真实性和完整性。)
- ◐ 部分可验证: 处理结果完全一致,重复操作无差异 (需通过多次测试同一文件验证输出一致性,但项目代码或文档可能提及此设计逻辑(如确定性算法)。)
原文内容:
需要把电子版 PDF 转成扫描件的效果,比如交材料、存档,特意跑去打印挺折腾的。 于是在 GitHub 上找到 make-look-scanned 这个开源小工具,一条命令就能把 PDF 变成逼真的扫描件效果。 甚至能给页面加上歪斜、灰度、纸张泛黄、噪点、模糊、边缘阴影这些效果,简直给扫描件一模一样。 GitHub:http://github.com/overflowy/make-look-scanned… 每个效果参数都能单独调节,还能把常用配置保存成预设方案,下次直接调用。 同样的文件每次处理结果完全一致,不用担心重复操作出现差异。 除了命令行版本,还提供了网页版,打开浏览器就能用,文件全程不上传服务器。
⏰ 14:00 | ❤️ 32点赞 | 📝 190字 | 查看原文 →
Orange AI @oran_ge
CEO of MarsWave @ColaOSOfficial | 影响力: 170k万粉丝
💡 核心观点: Seed Audio 1.0首次实现智能生成多样化声音。
可信度: 5/10 – 2项需进一步确认;2项为观点陈述
事实核查:
- ◐ 部分可验证: 豆包音频生成模型 Seed Audio 1.0 可以根据想象生成人声、音乐、音效、环境音及微妙细节 (需通过公众号链接提供的音频样本验证生成能力,但“根据想象生成”的描述缺乏具体技术细节或客观标准,需实测确认功能范围。)
- ◦ 观点: Seed Audio 是第一次将智能赋予声音,类似“香蕉”对图像的意义 (“第一次将智能赋予声音”是主观类比,缺乏技术定义或行业共识支持;与“香蕉”的对比为个人观点,无客观依据。)
- ◐ 部分可验证: 传统TTS仅为朗读机器,而Seed Audio是智能声音模型 (传统TTS功能可通过公开技术文档验证,但“智能声音模型”的差异化需对比实测或官方技术说明,目前描述模糊。)
原文内容:
声音模型的 Seedance 时刻,终于来了 今天我体验到一个全新的声音模型,跟以前所有的声音模型都不一样。 以前的声音模型一般叫 TTS(文本转语音),它们只能根据你给的文本来合成语音,它更像是一个朗读机器,而非智能声音模型。 但这个新模型,可以根据你的想象,生成一切你所需要的声音,包括人声、音乐、音效、环境音,以及这些声音里所富含的那些不可言说的微妙细节。 它的名字名字叫:豆包音频生成模型 Seed Audio 1.0。 在我看来,这就是声音模型的 Seedance 时刻。 就像香蕉是人类第一次将智能赋予图像,Seed Audio 是人类第一次将智能赋予声音。 接下来,就让我们一起听听它到底有何特别。 推特不能发音频,可转至公众号来听 https://mp.weixin.qq.com/s/GGjob8FJW6Xn-sulzc_MLg…
⏰ 13:05 | ❤️ 413点赞 | 📝 239字 | 查看原文 →
GitHubDaily @github_daily
挖掘开源的价值
坚持分享 GitHub 上高质量、有趣、实用的教程、AI工具、前沿 AI 技术
A list cool, interesting projects of GitHub.
公众号:GitHubDaily | 影响力: 77.87k万粉丝
💡 核心观点: Cloudflare开源AI工具深度扫描代码漏洞,减少误报提升覆盖率。
可信度: 6/10 – 1项声明可直接验证;2项需进一步确认;1项为观点陈述
事实核查:
- ✓ 可验证: Cloudflare 开源了 security-audit-skill,可将 AI Agent 转化为专业安全审计员以查找可利用漏洞 (可通过提供的 GitHub 链接(http://github.com/cloudflare/security-audit-skill)直接验证项目存在性、功能描述及开源状态。)
- ◐ 部分可验证: 该工具分六个阶段工作(侦察架构、多角度攻击等),并内置独立智能体对抗验证机制以减少误报 (GitHub 仓库可能提供阶段设计文档或代码逻辑,但需实际测试或审查代码才能确认其完整性和有效性。)
- ◐ 部分可验证: 工具支持多次运行以跳过已知问题并探索不同代码路径,覆盖率越跑越高 (需通过实测或分析代码逻辑验证“自动跳过”和“覆盖率提升”的机制,公开文档可能未完全覆盖实现细节。)
原文内容:
用 AI 写完代码让它做安全扫描审查,通常得到是一些无效信息,真正的漏洞埋在深处。 最近 Cloudflare 开源了一个技能 security-audit-skill,把 Agent 变成专业的安全审计员查找真正可利用的漏洞。 分六个阶段工作:侦察架构、多角度攻击、对抗验证、生成报告、结构化输出,最后再由独立智能体逐条核实。 GitHub:http://github.com/cloudflare/security-audit-skill… 内置对抗验证机制,发现漏洞的智能体和验证漏洞的智能体完全独立,专门用来干掉误报。 而且多次运行会自动跳过已知问题,每次探索不同的代码路径,覆盖率越跑越高。 支持针对同一个仓库多次运行以探索不同的代码路径,适合注重代码安全的开发者使用。
⏰ 12:30 | ❤️ 24点赞 | 📝 213字 | 查看原文 →
dontbesilent @dontbesilent
商业哲学爱好者
伪装为早期维特根斯坦的晚期维特根斯坦
抖音/小红书/视频号:dontbesilent 聊赚钱
6.12 广州线下课,微信 DBsilent | 影响力: 78.11k万粉丝
💡 核心观点: 复利式成长需系统支持,个人努力常不符合此结构。
可信度: 6/10 – 1项声明可直接验证;2项需进一步确认;1项为观点陈述
事实核查:
- ✓ 可验证: 《原子习惯》中提到「每天进步1%,一年后会变成37倍」是基于1.01^365的复利公式 (可通过查阅《原子习惯》原著或官方出版内容直接验证该公式的引用和解释。)
- ◐ 部分可验证: 复利结构成立的前提是前一次努力的结果能完整保留并作为下一次努力的基数 (数学上复利公式(1.01^365)确实需要连续累积,但“努力结果能否完整保留”需结合具体行为领域(如学习、健身)的实际效果验证,存在变量。)
- ◦ 观点: 人的努力大多不符合复利结构,因努力常为离散投入且增长过程有损耗 (该声明是对人类行为模式的概括性观点,缺乏普适性数据支持,不同领域(如技能学习vs.体力劳动)结果差异较大。)
原文内容:
在大名鼎鼎的《原子习惯》里面,竟然也看见了「每天进步 1 %,一年后会变成 37 倍」这个说法, 1.01^365 这个公式,成立的前提不是「你努力了 365 次」,而是「前一次努力产生的结果,能够完整保留并作为下一次努力的基数继续增长」 如果某个系统真的符合复利结构,它至少要满足几个条件: 前一期产出可以保留、后一期增长是按现有存量算的、增长过程损耗很低、单次增长可以稳定累积 本金生利息,比较接近这个结构,但人的努力常常不是这个结构 很多努力是离散投入,而不是连续的 如果一个动作能持续改变未来行为发生的概率,它就确实有累积效应,但这里的累积更接近于「条件改变」: → 行为概率改变 → 重复次数增加 → 能力或结果逐步拉开 这就不是简单的加法,也不是简单的乘法,它更像一个动态系统
⏰ 11:25 | ❤️ 206点赞 | 📝 277字 | 查看原文 →
AI Will @financeyf5
增长顾问 | AI行业分析师,Learn in Public | 影响力: 187.89k万粉丝
💡 核心观点: 液冷技术让高温数据中心更省电且省水。
可信度: 10/10 – 2项声明可直接验证;2项需进一步确认;1项为观点陈述
事实核查:
- ✓ 可验证: 英伟达Rubin服务器冷却液可以跑到45°C (可通过英伟达官网或官方技术文档查询Rubin服务器的冷却液温度参数)
- ◐ 部分可验证: 传统机房冷却占总用电高达40% (行业报告或研究(如Uptime Institute)可提供类似数据,但具体比例可能因机房设计而异)
- ◐ 部分可验证: 50MW数据中心每年光冷却能省400万美元以上 (需结合具体案例或英伟达提供的能效计算模型验证,但实际节省可能受电价、气候等因素影响)
原文内容:
数据中心越热,反而越省电? 英伟达Rubin服务器冷却液可以跑到45°C——比热水浴缸还烫。 传统机房靠冷风,冷却占总用电高达40%。新逻辑是液体直接贴着芯片带走热量,室外干冷器自然散热,零风扇、耗水量降到接近零。 50MW数据中心每年光冷却就能省400万美元以上。 机房不需要再像冰柜了。
⏰ 11:20 | ❤️ 80点赞 | 📝 109字 | 查看原文 →
向阳乔木 @vista8
喜欢摇滚乐、爱钓鱼的PM
网站:https://qiaomu.ai | 影响力: 0万粉丝
💡 核心观点: 自媒体需研究新智元,百度开源高效OCR技术引关注。
可信度: 8/10 – 2项声明可直接验证;1项需进一步确认;1项为观点陈述
事实核查:
- ◐ 部分可验证: 百度在OCR方面的技术很强,昨天开源Unlimited OCR更强,3B参数500M激活,这么小的模型竟然有这么好的效果,出乎意料。 (百度是否开源了Unlimited OCR、模型参数(3B参数500M激活)及效果可通过官方开源平台(如GitHub)或技术文档验证,但“技术很强”“出乎意料”属于主观评价,需实测对比其他模型才能客观验证效果。)
- ✓ 可验证: 文章提到的参考滑动注意力窗口技术值得关注。 (滑动注意力窗口技术是否为公开技术(如论文或开源项目中的方法)可通过学术数据库(arXiv、GitHub)或相关技术文章直接查证。)
- ◦ 观点: 做自媒体要研究新智元。 (此为个人主观建议,无客观标准验证其必要性或效果。)
原文内容:
大聪明(赛博禅心)一直跟我说,做自媒体要研究新智元。 喷归喷,但人家起标题真的是一绝。 百度在一直OCR方面的技术很强,昨天开源 Unlimited OCR更强,3B参数500M激活,这么小的模型竟然有这么好的效果,出乎意料。 先不管作者是不是从DeepSeek出走的,文章提到的参考滑动注意力窗口技术值得关注。 技术解读见第二条,后面有项目开源地址。
⏰ 08:10 | ❤️ 73点赞 | 📝 126字 | 查看原文 →
Berryxia.AI @berryxia
| 影响力: 39.76k万粉丝
💡 核心观点: 百度开源Unlimited OCR实现单次长文档解析。
可信度: 8/10 – 1项声明可直接验证;3项需进一步确认;1项为观点陈述
事实核查:
- ◐ 部分可验证: 百度开源的Unlimited OCR模型采用One-Shot Long-Horizon Parsing技术,可一次性处理多页文档 (可通过百度开源仓库或技术报告验证模型功能描述,但”一次性处理几十页”的性能需实测确认(如上下文长度限制、实际文档类型影响等)。)
- ✓ 可验证: Unlimited OCR的R-SWA机制模拟人类抄书时的注意力模式,仅维护前128个输出状态 (技术报告或论文中应包含该架构设计的详细说明(如滑动窗口注意力、恒定KV Cache等),属可公开验证的技术细节。)
- ◐ 部分可验证: 模型核心贡献者中的”YY”可能与DeepSeek团队有关联 (GitHub致谢栏提及DeepSeek-OCR可查证,但”YY”身份需交叉比对人员流动记录(如领英等),存在信息不完整风险。)
原文内容:
卧槽,这一波直接把DeepSeek的“墙角挖到了啊”! 昨晚看到HuggingFace刷到这个有意思的OCR开源模型和原来背后有趣的故事。 这个OCR模型直接与传统的OCR模型完全不同! 光着速度和精准度真的就无敌了~~ 先说说背景,熟悉的朋友都知道,我最近做过几次OCR评测(可以翻阅我的前面文章),测过18个文档、6类场景,搭过本地工作流。对OCR的能力边界,算是有点体感。 之前评测最头疼的并不是准确率,是多页文档的工作流。所有模型都是逐页处理。 每一页清空一次记忆,再用外部调度器拼接结果。 本质上是个for-loop (循环),并不是真正的长程理解。 而百度这次开源的Unlimited OCR,解法完全不同。 它不逐页处理。 一次前向推理,几十页文档直接转录完。 核心卖点就一句话:One-Shot Long-Horizon Parsing(单次长时解析),也就是说句话说:无需大规模标注数据,低成本实现长文本深度句法理解,适配大语言模型少样本能力。 一张图或者一本多页PDF,直接扔进去就能一次性解析完,不用再切成小块反复跑。这特么是真的爽啊! 据说这个模型灵感来源很有意思,人类抄书的时候,不会把整本书都记在脑子里。 只关注三个点:原文、刚写完的几个字、下一个要写的字。较早的内容自然淡出。 近期的上下文用来追踪进度。这种日常行为揭示了一种与当前模型截然不同的注意力模式。 Unlimited OCR的核心机制R-SWA,参考滑动窗口注意力,就是模拟这个过程。 每个token能看到完整图像。但输出端只维护前面128个状态。32K上下文,一次推理几十页。KV Cache大小恒定,不随文档长度增长。 这其实是把OCR从认字工具往文档理解引擎又推进了一步。以前大家觉得长文档处理必须分块。 现在越来越清楚:只要上下文够长、模型够强,一镜到底反而更高效、更准确。 技术报告的写法也很有意思,故事性极强,想法激进。 有种探索者的气质,这种风格此前都是DeepSeek技术报告的专属标签。 然后事情就开始变得有趣了。 翻了下技术报告的核心贡献者。 三位中,两个人用真名。 唯独技术总监挂了个两字母缩写YY。YY是谁? 顺着线索往回找下看看? GitHub致谢栏把DeepSeek-OCR和DeepSeek-OCR-2排在了前两位。 DeepEncoder最初就是在DeepSeek OCR中被引入的。 这次Unlimited OCR恰恰完美融合了这一高压缩率编码器。 里面提及DeepSeek OCR的部分,语气不像在对标竞品。更像在对自己之前的研究展开反思和优化。 国内OCR圈也不算太大哈。 能做出R-SWA这种级别突破、还对DeepSeek OCR架构有亲手做过级别熟悉的人,一只手数得过来。 我们再看看另一外个细节哈。 2026年4月24日,DeepSeek-V4正式发布。58页技术报告末尾,近300个名字按字母顺序排列。 其中有10个名字旁边标注了一个小小的星号:已离职。 从2025年下半年到2026年初,不到半年,DeepSeek走了五个人。 他们去了哪。YY是谁。报告没直说,但越读越觉得答案在字里行间。 也明显看出来百度走最近的路子确实不一样了,你可要知道一直最强的OCR 莫属于他们啊,几乎没有什么对手啊! 从PaddleOCR到这次的Unlimited OCR,能感觉到在往一个更前沿的方向走。 这更新迭代速度,这人才储备的能力,以及发展方向,未来可期。 不管八卦,单论技术。一镜到底的长文档OCR这个方向确实是对的。 项目、模型都是开源,感兴趣的自己试试地址评论区。
⏰ 08:01 | ❤️ 272点赞 | 📝 1022字 | 查看原文 →
赵纯想
向阳乔木
苍何
GitHubDaily
karminski-牙医
铁锤人
huangserva
泊舟
Jackywine
Orange AI
dontbesilent
AI Will
Berryxia.AI