Workflow
AI前线
icon
搜索文档
Karpathy盛赞DeepSeek-OCR“淘汰”tokenizer!实测如何用Claude Code 让新模型跑在N卡上
AI前线· 2025-10-21 12:54
DeepSeek-OCR模型技术突破 - 模型发布6.6GB专门为OCR微调的模型,首次量化视觉-文本token压缩比,验证10倍近无损压缩、20倍仍保有60%精度的可行性[2] - 提出DeepEncoder解决现有编码器高分辨率-低内存-少token不可兼得的问题,在实用场景达到SOTA且token消耗最少[2] - 采用仅12层的精简架构,因OCR本质是模式识别任务,不需要太多推理或长程记忆[5] - 进入新兴小型专家混合范式,总规模较大但每次推理仅激活5亿参数,能单批次处理大量数据[7] - 采用激进编码策略结合语义池化,在输入阶段进行大量信号压缩,显著提升处理速度[7] 输入范式革命性观点 - Karpathy提出根本性问题:对大语言模型而言像素可能比文本是更好的输入形式,文本token可能是浪费而糟糕的输入方式[3] - 认为Tokenizer必须被淘汰,许多文本到文本任务可重构为视觉到文本任务,但反过来行不通[4] - 未来用户输入可能都是图像,模型输出仍是文本,因生成像素级输出不现实且暂时不需要[4] - 图像输入优势:信息压缩更高效,在更短上下文窗口中包含更多信息;信息流更丰富,能自然包含加粗、颜色、格式等视觉要素[6] - 输入可天然使用双向注意力,而非语言模型必须的自回归逐步处理,结构表达更强大[6] 行业影响与竞争格局 - 代表轻量高效OCR模型最佳范例,可能成为未来所有OCR系统的起点[4] - 在多模态视觉语言模型出现前,业界领先的Google Cloud OCR模型规模仅一亿参数左右[4] - 17亿参数的dots.ocr在内部和公开基准测试中准确率普遍超过OpenAI、Anthropic,某些任务优于Gemini,成本仅为后者一小部分[4] - 模型意义在于成为真正基础型OCR模型,找到推理效率与性能最佳平衡点,奠定工程基础[8] - 要在大规模真实业务中应用,仍需针对特定领域进行数据标注和定制化流程设计[8] 开发者实践与部署案例 - 资深开发者Simon Willison花40分钟成功在NVIDIA Spark上运行模型,通过Claude Code用4次提示解决兼容问题[9] - 环境搭建涉及Docker容器、CUDA配置、npm安装Claude Code等步骤[10] - 遇到PyTorch 2.5.1不支持新GPU问题,通过寻找ARM版本CUDA wheel包,升级到PyTorch 2.9.0解决兼容性[14][15] - 模型成功识别文本与定位框,生成检测结果,不同提示词模式表现各异[16][17][19] - 实践总结成功要点:给予充分环境与目标、沙箱模式完全自主执行、关键时刻用经验引导[22]
告别无效投入:如何用零成本启动企业全员AI能力建设 | 极客时间企业版
AI前线· 2025-10-21 12:54
最近和几位企业管理者交流,发现大家在 AI 投入上普遍陷入两种困境: 有的企业盲目跟风"全员 AI ",斥资数百万购买系统、组织培训,结果员工只学会了用 AI 聊天、做 PPT,业务场景依然原地踏步;有的企业则因" AI 替代焦 虑"仓促调整组织架构,反而导致团队士气低落、业务衔接不畅。 这些现象背后,反映了一个共同问题:大多数企业的 AI 投入,都走错了方向。 真正的 AI 能力建设,从来不是靠堆砌预算或盲目调整团队,而是要找到那个能同时实现"技术普及"与"业务价值"的精准切入点。 一次零成本的 AI 能力提升机会 正是看到企业在 AI 落地中的这些痛点,在极客时间企业版 8 周年之际,我们推出了「 AI 应用全员加速中 」特别活动——旨在让企业完全零成 本验证 AI 人才培养的可行性。 从现在到 10 月 31 日,企业可免费申领 30 天 SVIP 权益,不限账号数量,让全体员工无障碍体验平台上的 AI 课程资源。 这不是又一次"蜻蜓点水"的体验,而是一次完整的 AI 能力建设验证: 过去,企业要启动同等规模的 AI 培训,至少需要数十万的预算投入和数月的筹备期。现在,这个门槛被彻底打破了。 为什么这次 ...
Anthropic这两天真没闲着:上线网页版Claude Code,还让Claude搞科研
AI前线· 2025-10-21 12:54
编辑 | 木子、 高允毅 好消息!刚刚,编程门槛又降低了, 用 AI 写代码只需一个浏览器 。 今天,Anthropic 推出了他家大热 AI 编程助手 Claude Code 的网页版 ,用户通过浏览器就能打开, 无需在本地安装命令行工具 ,也 不再需要在"终 端"中输入复杂的命令了 。 此前 ,Claude Code 主要以命令行工具(CLI)的形式存在。 也就是说, 只能通过一种专门的"程序窗口"来使用 ,该窗口不像普通应用软件那样有图形界面,还需要通过输入指令来操作,这种方式更适合有编程 经验的人。 目前,Claude Code 网页版还处于测试阶段,作为研究版只对 Anthropic 的 Pro 和 Max 订阅用户开放,目的是收集使用反馈和改进功能。 据 TechCrunch 消息,Anthropic 产品经理 Cat Wu 分享说,她之前是一名工程师,而她自己现在很少纯手敲代码了,大部分时间只审阅 Claude Code 的输出;未来 Anthropic 将继续在更多地方部署 Claude Code。 另外,值得一提的是,有人在 GitHub 上放了一份 Claude 的开发指南(Claude ...
六问讯飞 AI:新品耳机发布背后,如何理解讯飞 AI 翻译战略与技术创新?
AI前线· 2025-10-20 13:23
AI同传技术升级与新品发布 - 公司对中英同传效果进行优化,翻译主观体验提升至4.6分(满分5分),首字响应时间降低至2秒 [2] - 专业词库扩充至10万以上,覆盖医疗、金融、法律等高壁垒行业,并新增中英到阿拉伯语、西班牙语的端到端同传互译功能 [2] - 中英同传引入“声音复刻”功能,用户仅需一句话语音样本即可用自身音色播报翻译结果 [2] 翻译硬件产品功能升级 - 新一代AI翻译耳机搭载“多感融合AI降噪系统”,采用骨导与气导结合的开放式设计,支持60种语言同传互译,内置10万以上专业词库 [4] - 耳机中英同传首响播报延迟低至2秒,采用蓝牙6.0连接技术,覆盖通话实时翻译、面对面翻译、线上同传和旁听同传四大核心场景 [4] - 双屏翻译机2.0新增讲话人分离功能,可智能区分讲话人并支持自定义名称,结合星火办公大模型新增会议纪要生成与内容分享功能,预计10月底上线 [4] 技术实力与行业地位 - 国际权威咨询机构IDC最新报告显示,公司在AI翻译速度、效果、专业度等8大核心维度中排名第一,其中6项获得满分 [6] - 公司坚持大模型自主研发战略,核心是“自主研发 + 场景落地”,所有研发均基于自主芯片与国产化硬件,确保技术自主可控 [9][10] - 公司在大模型领域致力于打造多语种能力突出的模型,并与教育、医疗、翻译等行业场景深度融合,解决行业实际问题 [10] 核心技术与创新优势 - 公司在语音识别、多语种翻译准确率等核心技术持续投入,星火语音大模型支持101种语言识别、全国202个地市级方言识别,并支持55种语言的语音合成 [11] - 翻译耳机采用全球首创的“多感融合能源降噪”,配备2个数字硅麦克风和1个骨传导麦克风,结合自研降噪算法,在嘈杂场景下能清晰拾音 [12] - 复杂降噪算法全离线运行,通过模型芯片化将复杂模型压缩至几十KB大小,在内存有限的设备上实现高效实时处理 [12] 方言与小语种翻译突破 - 针对方言翻译,公司已覆盖全国202个地市级方言,并与输入法合作推行“方言保护计划”以持续收集数据 [15] - 在多语言方面,公司支持101个语种的识别和55个语种的合成,采用多语种共享建模关键技术提升小语种语音系统性能 [15] - 通过设计多语种通用音素体系和基本语言单元,实现多语种统一音素韵律体系的构建,利用元学习和语族分组进行共享建模 [15] 产品战略与场景应用 - 公司AI翻译战略定位围绕全球化交流深化趋势,形成“语音识别-翻译-语音合成-端侧产品”的完整技术链条 [8] - 构建全产品矩阵,从轻量级软件到标准化硬件,再到软硬件一体解决方案,不同场景适配不同产品形态,技术底座打通 [8][9] - 随着“一带一路”推进和中国企业出海,跨国商务沟通对即时、准确、便携的翻译工具需求激增,公司硬件产品覆盖从个人使用到企业级会议的全场景 [17] 外事场景定制化解决方案 - 双屏翻译机2.0采用双屏设计,在对话过程中为工作人员和外国乘客提供专属屏幕,提升沟通效率并体现尊重 [18] - 设备支持在线翻译为200多个国家和地区的语言,能识别35种语言,可自动识别语言以快速打破沟通壁垒 [18] - 配备5麦克风阵列与AI降噪技术,支持全向、定向两种收音模式,能过滤1米外背景噪音,在嘈杂环境下精准锁定目标音源 [19] - 设备具备离线模式,在无网、弱网情况下依然可使用,适配高保密场景 [19]
万条推文“怒轰”、估值下跌, OpenAI被误导性“突破”反噬!陶哲轩:有实力,但方向错了?
AI前线· 2025-10-20 13:23
整理 | 华卫 "搬起自己的 GPT 石头砸了自己的脚。"这是 Meta 首席 AI 科学家 Yann LeCun 对 OpenAI 研究员们的最新评价。 事件起因是,此前这些研究员因 GPT-5 的一项新数学"突破"而高调庆祝,但在受到整个 AI 社区质疑后又迅速撤回了该说法。连谷歌 DeepMind 首席执 行官 Demis Hassabis 也对此提出批评,称其沟通存在疏漏。 GPT-5"突破" 被证明是一个错误 取得"突破"的消息,最早是由前微软副总裁、现 OpenAI 研究科学家 Sebastien Bubeck 放出。他在 X 上称,两位研究人员在周末借助 GPT-5 找到了 10 个埃尔德什问题(Erdős problems)的答案。埃尔德什问题是匈牙利数学家 Paul Erdős 提出的一系列数学问题的统称,其中既包含未解决的难题,也有 已解决的问题,著名案例包括 "不同距离问题"(Distinct Distances Problem)与 "偏差问题"(Discrepancy Problem)。这类问题以难度高著称,常成为 学界深入研究的对象,部分问题甚至设有现金奖励,鼓励研究者攻克。 10 ...
明星AI编码助手涨价10倍惹怒开发者!CEO 回应:有人花千元薅了我们10多万,不挣钱不可持续
AI前线· 2025-10-19 13:33
到了 5 月初,原有方案被替换为 "更简洁的新定价"—— 按成功处理的消息数量计费。具体为:免费用户每月可发送 50 条消息;50 美元的开发者 版可发送 600 条;100 美元的专业版可发送 1500 条;250 美元的最高级版可发送 4500 条。 当时就有一名开发者抱怨:" 现在的价格比 Cursor 和 Windsurf 两款工具的费用加起来还高 。" 此后,免费版直接下架,取而代之的是 "独立开发 者版":每月 20 美元,仅包含 125 条消息额度。 而这仅仅是个开始。 作者|冬梅 Augment 代码助手定价模式变更,用户称涨价超 10 倍 10 月 16 日,据外媒消息,AI 代码助手 Augment Code 已更新其定价模式,不再以消息交互次数为依据,而是改为按 AI 使用量计费。该公司表 示原定价模式 "不具备可持续性",但有用户计算后发现,新定价模式下成本上涨了 10 倍以上。 这家初创公司于 2024 年 4 月成立,联合创始人包括前微软软件工程师伊戈尔・奥斯特罗夫斯基(Igor Ostrovsky)和前谷歌 AI 研究员盖伊・古 尔 - 阿里(Guy Gur-Ari),并获得了包 ...
Python新版本去GIL刷屏,Karpathy 点赞敢死队,Python 之父:冷静,别神话并发
AI前线· 2025-10-19 13:33
编译 | 核子可乐、Tina 这周,Python 3.14 正式发布,把悬念了多年的"去 GIL(全局解释器锁)"写进官方发行版。 此次更新并非只是一项开关,而是一整套能力同步上线:自由线程支持、并发解释器、改进的调试器支持,以及一个可选的新解释器路径,官方预 估在默认单线程构建不变的前提下还能带来约 3%~5% 的性能提升。 Python 中的自由线程功能可禁用全局解释器锁(GIL),目前已在 PEP 703 中得到完整实现。它还配套了一个自适应解释器思路,源自 Mark Shannon 领衔的 Faster CPython 项目(尽管微软已在今年 5 月停止官方支持,相关成果已沉淀进实现)。 长期以来,GIL 既像安全网也像减速带:通过"同一时刻仅允许运行一个 Python 线程"来保障内存安全、避免许多棘手的并发 Bug,却也限制了 CPU 密集型多线程程序对多核的利用,除非借助繁琐的变通方案。如今,3.14 提供的自由线程(no-GIL)构建移除了这道栅栏,使多线程能够真 正并行,重计算场景下的性能收益尤为明显。当然,权衡也必须看见——单线程速度通常会略有回落,内存占用大约增加 10%。这意味着开发者 ...
谷歌 DeepMind 推出 CodeMender:自动修复代码的智能代理
AI前线· 2025-10-18 13:11
CodeMender技术特点 - 谷歌DeepMind推出由AI驱动的新型智能代理CodeMender,能够自动检测、修复并加固软件漏洞[1] - 该项目基于最新的推理模型与程序分析技术,结合大型推理模型、静态与动态分析、模糊测试以及符号求解器等多种技术来推理程序行为[1] - 系统检测到漏洞时会生成多个修复候选方案,并通过自动化测试验证补丁是否解决根本问题且不破坏现有功能,只有通过验证的修复方案才会提交人工最终审查[1] 实际应用成效 - 在过去六个月中,CodeMender已为开源项目贡献72个经过验证的补丁,其中一些项目的代码量超过400万行[1] - 早期修复案例包括修复XML栈处理错误相关的堆缓冲区溢出问题,以及通过复杂代码修改解决对象生命周期管理漏洞[2] - 系统支持主动防御机制,例如自动为广泛使用的libwebp图像库添加安全注解,防止特定类型的缓冲区溢出攻击在未来被利用[2] 行业反响与影响 - 社区反响普遍积极,认为自动化修复让AI从"发现风险"迈向"主动强化基础设施",验证层是关键信任因素[3] - 行业讨论认为未来黑客也会使用类似模型寻找漏洞,拥有最新模型和最强算力的一方将占据优势[4] - DeepMind强调所有CodeMender生成的补丁在正式合并前都会经过人工审核,可靠性"和"透明性"是项目核心原则[4]
沉痛悼念!杨振宁逝世,享年103岁;传智谱AI解散数十人产研中心,有人当天就走;李书福儿子创立具身智能公司被曝解散|AI周报
AI前线· 2025-10-18 13:11
行业热点事件 - 智谱AI在9月底进行组织调整,商业化部门旗下的产研中心约60人团队被整体解散,其中一半员工离职,另一半分流至交付部门,赔偿标准为N+1 [5][6] - 李书福之子李星星创立的具身智能公司一星机器人被曝解散,该公司于2025年5月成立,上个月刚完成数亿元种子轮融资,技术团队已遭哄抢 [8][10] - OpenAI CEO宣布ChatGPT将于2025年12月推出支持成人内容的版本,仅限于经过验证的成年用户使用 [17] - 甲骨文在AI World大会上宣布,30天内与四家公司签订了650亿美元新的云基础设施合同,公司预计到2030财年云基础设施收入将增长至1660亿美元 [18] - 大量用户反馈iPhone17新机出现无法激活问题,苹果客服回应为服务器问题正在维修,同时苹果宣布纯eSIM机型iPhone Air将于10月22日全面发售 [20][21] - 前滴滴高级副总裁付强正式加入蘑菇车联出任公司总裁,全面负责AI业务的战略落地与商业化布局 [22] - 蚂蚁集团宣布组织架构调整,将搜索、广告、推荐的工程与算法团队合并成立AIRS部门,全面承接短视频、短剧、直播等所有内容相关业务 [23] - 小米与北京大学联合署名论文发表于arXiv,曾被曝获雷军千万年薪招募的DeepSeek前核心开发者罗福莉出现在通讯作者之列 [24][25] - 成都警方通报小米SU7碰撞后爆燃事故,经检测当事人涉嫌酒后驾驶机动车,事故造成当事人死亡 [26] 大模型技术发布 - 百度正式发布并开源自研多模态文档解析模型PaddleOCR-VL,该模型参数仅0.9B,在OmniBenchDoc V1.5评测中以92.6分取得全球第一成绩 [28][29] - Manus发布通用AI代理系统Manus 1.5,平均任务完成时间从15分钟缩短至不足4分钟,效率提升近4倍,复杂任务质量提升约15% [30] - 阿里旗下通义千问正式推出Qwen Chat Memory功能,使模型能够在多轮对话中记住用户偏好、习惯及过往交流内容 [31] - 李飞飞团队发布实时生成世界模型RTFM,能够与用户交互时实时生成视频,单张H100 GPU即可运行 [32] - 火山引擎发布豆包大模型系列更新,截至2025年9月底,豆包大模型日均tokens调用量已突破30万亿,相比今年5月底增长超80% [33] - 甲骨文推出新一代云端AI超级计算机OCI Zettascale10,峰值性能可达16zettaFLOPS [34] - 智元机器人发布新一代工业级交互式具身作业机器人精灵G2,目前已获数亿元订单并开启首批商用交付 [35] - Anthropic推出小型AI模型Claude Haiku 4.5,编码性能与Sonnet 4基本持平,成本仅为后者三分之一,处理速度提升超过两倍 [37][38] - 英伟达宣布AI超级计算机DGX Spark正式交付,提供1 PFLOP AI性能和128GB统一内存,可本地运行最高2000亿参数的AI模型推理 [39] 企业应用与合作 - 微软宣布Windows 11的Copilot应用正式支持语音唤醒指令"Hey Copilot",同时在所有市场上线Copilot Vision功能 [42] - 影目科技发布新一代AI智能眼镜INMO GO3,并宣布打造AI+AR产业生态平台影目世界,携手腾讯、蚂蚁集团、智谱AI等公司共建原生内容生态 [42] - 华泰证券上线AI原生应用"AI涨乐",该应用为国内首个专注交易场景的AI原生应用,推出语言用户界面主打盯盘和选股功能 [42] - 沃尔玛宣布与OpenAI建立合作,消费者可在ChatGPT内直接购物并使用即时结账功能 [42] - 谷歌与世界银行宣布建立全新联盟,合作聚焦部署开放网络堆栈,整合谷歌云AI技术与世界银行发展专长 [42] - X旗下AI助手Grok正式推出即时语音搜索功能,用户可通过语音直接触发网页搜索并获取答案 [42]
“Claude Skills很棒,可能比 MCP 更重要”
AI前线· 2025-10-17 15:00
Claude Skills 产品概述 - Anthropic 发布 Claude Skills,这是一种让模型获取新功能的全新模式 [2] - Skill 是一个包含 SKILL.md 文件的目录,内含为代理提供附加功能的指令、脚本和资源 [4] - Claude 只会在 Skill 与当前任务相关时才会调用,使用后能更好地完成特定任务,例如使用 Excel 或遵循组织内部的品牌指南 [5] Skills 的技术实现机制 - 会话开始时,Claude 会扫描所有可用 Skill 文件,并从 Markdown 文件的前置 YAML 中读取简短说明,每 Skills 仅占用几十个额外 token,具有极高的成本效益 [6] - Skills 机制的实现依赖于模型能够访问文件系统、具备导航工具以及在该环境下执行命令的能力 [12] - Skills 将复杂部分交给大模型框架和计算机环境处理,本身更接近大模型的精髓——提供文本让模型自行解决问题 [27] Skills 的实际应用案例 - Claude 的全新文档生成功能完全通过 Skill 实现,现已被纳入 Anthropic 代码库,涵盖.pdf、.docx、xlsx 以及.pptx 文件 [4] - slack-gif-creator skill 示例可创建专为 Slack 优化的 GIF 动图,包含尺寸约束验证器,Slack GIF 的最大体积不会超过 2 MB [7][10] - 通过设置装满 Skills 的文件夹,可以构建"数据新闻智能体",实现从获取人口普查数据到发布可视化结论的全流程自动化 [16][19] Skills 与 MCP 的竞争优势 - 相比模型上下文协议(MCP),Skills 避免了 MCP 对 token 的大量消耗问题,GitHub 官方 MCP 本身就消耗了巨量上下文 token [18] - 几乎一切原本需要 MCP 实现的功能,现在都可以用 CLI 工具解决,大模型知道如何调用 cli-tool –help 并自行处理 [20] - Skills 非常易于共享,预计将有大量 Skills 以单文件形式实现,更复杂的则采取文件夹形式包含更多文件 [21] Skills 的跨模型兼容性与生态展望 - Skills 能与其他模型配合使用,例如将 Codex CLI 或 Gemini CLI 指向 Skills 文件夹,整个流程可以正常起效 [23] - 预计后续将迎来 Skills 生态的寒武纪大爆发,相比之下今年的 MCP 热潮都显得平淡无奇 [24] - Claude Code 不仅仅是一款编码工具,更是一款通用型计算机自动化工具,可视为一种通用智能体 [15]