Workflow
AI前线
icon
搜索文档
Anthropic这两天真没闲着:上线网页版Claude Code,还让Claude搞科研
AI前线· 2025-10-21 12:54
编辑 | 木子、 高允毅 好消息!刚刚,编程门槛又降低了, 用 AI 写代码只需一个浏览器 。 今天,Anthropic 推出了他家大热 AI 编程助手 Claude Code 的网页版 ,用户通过浏览器就能打开, 无需在本地安装命令行工具 ,也 不再需要在"终 端"中输入复杂的命令了 。 此前 ,Claude Code 主要以命令行工具(CLI)的形式存在。 也就是说, 只能通过一种专门的"程序窗口"来使用 ,该窗口不像普通应用软件那样有图形界面,还需要通过输入指令来操作,这种方式更适合有编程 经验的人。 目前,Claude Code 网页版还处于测试阶段,作为研究版只对 Anthropic 的 Pro 和 Max 订阅用户开放,目的是收集使用反馈和改进功能。 据 TechCrunch 消息,Anthropic 产品经理 Cat Wu 分享说,她之前是一名工程师,而她自己现在很少纯手敲代码了,大部分时间只审阅 Claude Code 的输出;未来 Anthropic 将继续在更多地方部署 Claude Code。 另外,值得一提的是,有人在 GitHub 上放了一份 Claude 的开发指南(Claude ...
六问讯飞 AI:新品耳机发布背后,如何理解讯飞 AI 翻译战略与技术创新?
AI前线· 2025-10-20 13:23
AI同传技术升级与新品发布 - 公司对中英同传效果进行优化,翻译主观体验提升至4.6分(满分5分),首字响应时间降低至2秒 [2] - 专业词库扩充至10万以上,覆盖医疗、金融、法律等高壁垒行业,并新增中英到阿拉伯语、西班牙语的端到端同传互译功能 [2] - 中英同传引入“声音复刻”功能,用户仅需一句话语音样本即可用自身音色播报翻译结果 [2] 翻译硬件产品功能升级 - 新一代AI翻译耳机搭载“多感融合AI降噪系统”,采用骨导与气导结合的开放式设计,支持60种语言同传互译,内置10万以上专业词库 [4] - 耳机中英同传首响播报延迟低至2秒,采用蓝牙6.0连接技术,覆盖通话实时翻译、面对面翻译、线上同传和旁听同传四大核心场景 [4] - 双屏翻译机2.0新增讲话人分离功能,可智能区分讲话人并支持自定义名称,结合星火办公大模型新增会议纪要生成与内容分享功能,预计10月底上线 [4] 技术实力与行业地位 - 国际权威咨询机构IDC最新报告显示,公司在AI翻译速度、效果、专业度等8大核心维度中排名第一,其中6项获得满分 [6] - 公司坚持大模型自主研发战略,核心是“自主研发 + 场景落地”,所有研发均基于自主芯片与国产化硬件,确保技术自主可控 [9][10] - 公司在大模型领域致力于打造多语种能力突出的模型,并与教育、医疗、翻译等行业场景深度融合,解决行业实际问题 [10] 核心技术与创新优势 - 公司在语音识别、多语种翻译准确率等核心技术持续投入,星火语音大模型支持101种语言识别、全国202个地市级方言识别,并支持55种语言的语音合成 [11] - 翻译耳机采用全球首创的“多感融合能源降噪”,配备2个数字硅麦克风和1个骨传导麦克风,结合自研降噪算法,在嘈杂场景下能清晰拾音 [12] - 复杂降噪算法全离线运行,通过模型芯片化将复杂模型压缩至几十KB大小,在内存有限的设备上实现高效实时处理 [12] 方言与小语种翻译突破 - 针对方言翻译,公司已覆盖全国202个地市级方言,并与输入法合作推行“方言保护计划”以持续收集数据 [15] - 在多语言方面,公司支持101个语种的识别和55个语种的合成,采用多语种共享建模关键技术提升小语种语音系统性能 [15] - 通过设计多语种通用音素体系和基本语言单元,实现多语种统一音素韵律体系的构建,利用元学习和语族分组进行共享建模 [15] 产品战略与场景应用 - 公司AI翻译战略定位围绕全球化交流深化趋势,形成“语音识别-翻译-语音合成-端侧产品”的完整技术链条 [8] - 构建全产品矩阵,从轻量级软件到标准化硬件,再到软硬件一体解决方案,不同场景适配不同产品形态,技术底座打通 [8][9] - 随着“一带一路”推进和中国企业出海,跨国商务沟通对即时、准确、便携的翻译工具需求激增,公司硬件产品覆盖从个人使用到企业级会议的全场景 [17] 外事场景定制化解决方案 - 双屏翻译机2.0采用双屏设计,在对话过程中为工作人员和外国乘客提供专属屏幕,提升沟通效率并体现尊重 [18] - 设备支持在线翻译为200多个国家和地区的语言,能识别35种语言,可自动识别语言以快速打破沟通壁垒 [18] - 配备5麦克风阵列与AI降噪技术,支持全向、定向两种收音模式,能过滤1米外背景噪音,在嘈杂环境下精准锁定目标音源 [19] - 设备具备离线模式,在无网、弱网情况下依然可使用,适配高保密场景 [19]
万条推文“怒轰”、估值下跌, OpenAI被误导性“突破”反噬!陶哲轩:有实力,但方向错了?
AI前线· 2025-10-20 13:23
整理 | 华卫 "搬起自己的 GPT 石头砸了自己的脚。"这是 Meta 首席 AI 科学家 Yann LeCun 对 OpenAI 研究员们的最新评价。 事件起因是,此前这些研究员因 GPT-5 的一项新数学"突破"而高调庆祝,但在受到整个 AI 社区质疑后又迅速撤回了该说法。连谷歌 DeepMind 首席执 行官 Demis Hassabis 也对此提出批评,称其沟通存在疏漏。 GPT-5"突破" 被证明是一个错误 取得"突破"的消息,最早是由前微软副总裁、现 OpenAI 研究科学家 Sebastien Bubeck 放出。他在 X 上称,两位研究人员在周末借助 GPT-5 找到了 10 个埃尔德什问题(Erdős problems)的答案。埃尔德什问题是匈牙利数学家 Paul Erdős 提出的一系列数学问题的统称,其中既包含未解决的难题,也有 已解决的问题,著名案例包括 "不同距离问题"(Distinct Distances Problem)与 "偏差问题"(Discrepancy Problem)。这类问题以难度高著称,常成为 学界深入研究的对象,部分问题甚至设有现金奖励,鼓励研究者攻克。 10 ...
明星AI编码助手涨价10倍惹怒开发者!CEO 回应:有人花千元薅了我们10多万,不挣钱不可持续
AI前线· 2025-10-19 13:33
到了 5 月初,原有方案被替换为 "更简洁的新定价"—— 按成功处理的消息数量计费。具体为:免费用户每月可发送 50 条消息;50 美元的开发者 版可发送 600 条;100 美元的专业版可发送 1500 条;250 美元的最高级版可发送 4500 条。 当时就有一名开发者抱怨:" 现在的价格比 Cursor 和 Windsurf 两款工具的费用加起来还高 。" 此后,免费版直接下架,取而代之的是 "独立开发 者版":每月 20 美元,仅包含 125 条消息额度。 而这仅仅是个开始。 作者|冬梅 Augment 代码助手定价模式变更,用户称涨价超 10 倍 10 月 16 日,据外媒消息,AI 代码助手 Augment Code 已更新其定价模式,不再以消息交互次数为依据,而是改为按 AI 使用量计费。该公司表 示原定价模式 "不具备可持续性",但有用户计算后发现,新定价模式下成本上涨了 10 倍以上。 这家初创公司于 2024 年 4 月成立,联合创始人包括前微软软件工程师伊戈尔・奥斯特罗夫斯基(Igor Ostrovsky)和前谷歌 AI 研究员盖伊・古 尔 - 阿里(Guy Gur-Ari),并获得了包 ...
Python新版本去GIL刷屏,Karpathy 点赞敢死队,Python 之父:冷静,别神话并发
AI前线· 2025-10-19 13:33
编译 | 核子可乐、Tina 这周,Python 3.14 正式发布,把悬念了多年的"去 GIL(全局解释器锁)"写进官方发行版。 此次更新并非只是一项开关,而是一整套能力同步上线:自由线程支持、并发解释器、改进的调试器支持,以及一个可选的新解释器路径,官方预 估在默认单线程构建不变的前提下还能带来约 3%~5% 的性能提升。 Python 中的自由线程功能可禁用全局解释器锁(GIL),目前已在 PEP 703 中得到完整实现。它还配套了一个自适应解释器思路,源自 Mark Shannon 领衔的 Faster CPython 项目(尽管微软已在今年 5 月停止官方支持,相关成果已沉淀进实现)。 长期以来,GIL 既像安全网也像减速带:通过"同一时刻仅允许运行一个 Python 线程"来保障内存安全、避免许多棘手的并发 Bug,却也限制了 CPU 密集型多线程程序对多核的利用,除非借助繁琐的变通方案。如今,3.14 提供的自由线程(no-GIL)构建移除了这道栅栏,使多线程能够真 正并行,重计算场景下的性能收益尤为明显。当然,权衡也必须看见——单线程速度通常会略有回落,内存占用大约增加 10%。这意味着开发者 ...
谷歌 DeepMind 推出 CodeMender:自动修复代码的智能代理
AI前线· 2025-10-18 13:11
CodeMender技术特点 - 谷歌DeepMind推出由AI驱动的新型智能代理CodeMender,能够自动检测、修复并加固软件漏洞[1] - 该项目基于最新的推理模型与程序分析技术,结合大型推理模型、静态与动态分析、模糊测试以及符号求解器等多种技术来推理程序行为[1] - 系统检测到漏洞时会生成多个修复候选方案,并通过自动化测试验证补丁是否解决根本问题且不破坏现有功能,只有通过验证的修复方案才会提交人工最终审查[1] 实际应用成效 - 在过去六个月中,CodeMender已为开源项目贡献72个经过验证的补丁,其中一些项目的代码量超过400万行[1] - 早期修复案例包括修复XML栈处理错误相关的堆缓冲区溢出问题,以及通过复杂代码修改解决对象生命周期管理漏洞[2] - 系统支持主动防御机制,例如自动为广泛使用的libwebp图像库添加安全注解,防止特定类型的缓冲区溢出攻击在未来被利用[2] 行业反响与影响 - 社区反响普遍积极,认为自动化修复让AI从"发现风险"迈向"主动强化基础设施",验证层是关键信任因素[3] - 行业讨论认为未来黑客也会使用类似模型寻找漏洞,拥有最新模型和最强算力的一方将占据优势[4] - DeepMind强调所有CodeMender生成的补丁在正式合并前都会经过人工审核,可靠性"和"透明性"是项目核心原则[4]
沉痛悼念!杨振宁逝世,享年103岁;传智谱AI解散数十人产研中心,有人当天就走;李书福儿子创立具身智能公司被曝解散|AI周报
AI前线· 2025-10-18 13:11
行业热点事件 - 智谱AI在9月底进行组织调整,商业化部门旗下的产研中心约60人团队被整体解散,其中一半员工离职,另一半分流至交付部门,赔偿标准为N+1 [5][6] - 李书福之子李星星创立的具身智能公司一星机器人被曝解散,该公司于2025年5月成立,上个月刚完成数亿元种子轮融资,技术团队已遭哄抢 [8][10] - OpenAI CEO宣布ChatGPT将于2025年12月推出支持成人内容的版本,仅限于经过验证的成年用户使用 [17] - 甲骨文在AI World大会上宣布,30天内与四家公司签订了650亿美元新的云基础设施合同,公司预计到2030财年云基础设施收入将增长至1660亿美元 [18] - 大量用户反馈iPhone17新机出现无法激活问题,苹果客服回应为服务器问题正在维修,同时苹果宣布纯eSIM机型iPhone Air将于10月22日全面发售 [20][21] - 前滴滴高级副总裁付强正式加入蘑菇车联出任公司总裁,全面负责AI业务的战略落地与商业化布局 [22] - 蚂蚁集团宣布组织架构调整,将搜索、广告、推荐的工程与算法团队合并成立AIRS部门,全面承接短视频、短剧、直播等所有内容相关业务 [23] - 小米与北京大学联合署名论文发表于arXiv,曾被曝获雷军千万年薪招募的DeepSeek前核心开发者罗福莉出现在通讯作者之列 [24][25] - 成都警方通报小米SU7碰撞后爆燃事故,经检测当事人涉嫌酒后驾驶机动车,事故造成当事人死亡 [26] 大模型技术发布 - 百度正式发布并开源自研多模态文档解析模型PaddleOCR-VL,该模型参数仅0.9B,在OmniBenchDoc V1.5评测中以92.6分取得全球第一成绩 [28][29] - Manus发布通用AI代理系统Manus 1.5,平均任务完成时间从15分钟缩短至不足4分钟,效率提升近4倍,复杂任务质量提升约15% [30] - 阿里旗下通义千问正式推出Qwen Chat Memory功能,使模型能够在多轮对话中记住用户偏好、习惯及过往交流内容 [31] - 李飞飞团队发布实时生成世界模型RTFM,能够与用户交互时实时生成视频,单张H100 GPU即可运行 [32] - 火山引擎发布豆包大模型系列更新,截至2025年9月底,豆包大模型日均tokens调用量已突破30万亿,相比今年5月底增长超80% [33] - 甲骨文推出新一代云端AI超级计算机OCI Zettascale10,峰值性能可达16zettaFLOPS [34] - 智元机器人发布新一代工业级交互式具身作业机器人精灵G2,目前已获数亿元订单并开启首批商用交付 [35] - Anthropic推出小型AI模型Claude Haiku 4.5,编码性能与Sonnet 4基本持平,成本仅为后者三分之一,处理速度提升超过两倍 [37][38] - 英伟达宣布AI超级计算机DGX Spark正式交付,提供1 PFLOP AI性能和128GB统一内存,可本地运行最高2000亿参数的AI模型推理 [39] 企业应用与合作 - 微软宣布Windows 11的Copilot应用正式支持语音唤醒指令"Hey Copilot",同时在所有市场上线Copilot Vision功能 [42] - 影目科技发布新一代AI智能眼镜INMO GO3,并宣布打造AI+AR产业生态平台影目世界,携手腾讯、蚂蚁集团、智谱AI等公司共建原生内容生态 [42] - 华泰证券上线AI原生应用"AI涨乐",该应用为国内首个专注交易场景的AI原生应用,推出语言用户界面主打盯盘和选股功能 [42] - 沃尔玛宣布与OpenAI建立合作,消费者可在ChatGPT内直接购物并使用即时结账功能 [42] - 谷歌与世界银行宣布建立全新联盟,合作聚焦部署开放网络堆栈,整合谷歌云AI技术与世界银行发展专长 [42] - X旗下AI助手Grok正式推出即时语音搜索功能,用户可通过语音直接触发网页搜索并获取答案 [42]
“Claude Skills很棒,可能比 MCP 更重要”
AI前线· 2025-10-17 15:00
Claude Skills 产品概述 - Anthropic 发布 Claude Skills,这是一种让模型获取新功能的全新模式 [2] - Skill 是一个包含 SKILL.md 文件的目录,内含为代理提供附加功能的指令、脚本和资源 [4] - Claude 只会在 Skill 与当前任务相关时才会调用,使用后能更好地完成特定任务,例如使用 Excel 或遵循组织内部的品牌指南 [5] Skills 的技术实现机制 - 会话开始时,Claude 会扫描所有可用 Skill 文件,并从 Markdown 文件的前置 YAML 中读取简短说明,每 Skills 仅占用几十个额外 token,具有极高的成本效益 [6] - Skills 机制的实现依赖于模型能够访问文件系统、具备导航工具以及在该环境下执行命令的能力 [12] - Skills 将复杂部分交给大模型框架和计算机环境处理,本身更接近大模型的精髓——提供文本让模型自行解决问题 [27] Skills 的实际应用案例 - Claude 的全新文档生成功能完全通过 Skill 实现,现已被纳入 Anthropic 代码库,涵盖.pdf、.docx、xlsx 以及.pptx 文件 [4] - slack-gif-creator skill 示例可创建专为 Slack 优化的 GIF 动图,包含尺寸约束验证器,Slack GIF 的最大体积不会超过 2 MB [7][10] - 通过设置装满 Skills 的文件夹,可以构建"数据新闻智能体",实现从获取人口普查数据到发布可视化结论的全流程自动化 [16][19] Skills 与 MCP 的竞争优势 - 相比模型上下文协议(MCP),Skills 避免了 MCP 对 token 的大量消耗问题,GitHub 官方 MCP 本身就消耗了巨量上下文 token [18] - 几乎一切原本需要 MCP 实现的功能,现在都可以用 CLI 工具解决,大模型知道如何调用 cli-tool –help 并自行处理 [20] - Skills 非常易于共享,预计将有大量 Skills 以单文件形式实现,更复杂的则采取文件夹形式包含更多文件 [21] Skills 的跨模型兼容性与生态展望 - Skills 能与其他模型配合使用,例如将 Codex CLI 或 Gemini CLI 指向 Skills 文件夹,整个流程可以正常起效 [23] - 预计后续将迎来 Skills 生态的寒武纪大爆发,相比之下今年的 MCP 热潮都显得平淡无奇 [24] - Claude Code 不仅仅是一款编码工具,更是一款通用型计算机自动化工具,可视为一种通用智能体 [15]
智元精灵 G2 重磅发布,首批订单过亿,多场景作业能力拉满
AI前线· 2025-10-17 11:39
产品发布与市场表现 - 智元机器人于2025年10月16日正式发布新一代工业级交互式具身作业机器人智元精灵G2 [2] - 精灵G2在首发前已获得数亿元订单并开启首批商用交付 [3] - 公司将于10月16日下午与均普智能联合举办G2线下全球首发暨投产仪式并同步开启与均胜电子过亿元采购合同的首批交付 [18] 产品性能与技术升级 - 精灵G2在各项功能和参数上均较G1进行大幅升级搭载高性能关节执行器、多种传感器和高性能AI计算平台实现全场景全向避障和高精度力控作业 [5] - 产品腰部采用3自由度设计实现近似人类的弯腰、转腰和侧向摆动能力配置全球首款十字腕力控臂全臂搭载高精度关节扭矩传感器 [6] - 续航方面G2可自主回到充电站补能并拥有双电池热插拔换电能力满足24小时工厂产线节拍 [7] - 基于自研通用基座大模型GO-1和世界模型GE-1 G2处理复杂和长程任务能力得到全面提升 [10] - 得益于英伟达Jetson Thor T5000高达2070 TFLOPS的本地算力G2能够实时响应与决策本地处理多路传感器数据延迟低于10 ms [11] 交互与操作能力 - 精灵G2全面支持多人实时智能交互可基于知识库个性化定制讲解内容并根据语境切换讲解员人设和音色 [9] - 产品具备超低延迟遥操作功能在超视距遥操作情境下可实现高精度控制如精准射中飘动的气球 [11][13] - G2的力控臂反应柔顺工程师演示中用生鸡蛋推动臂膀以展示其柔顺反应 [9] 应用场景与商业落地 - 精灵G2具备工业、物流、导览等多场景通用能力 [2] - 在汽车零部件生产车间G2被应用于汽车安全带锁芯的生产流程完成压紧、物料搬运等操作 [14] - 在精密操作场景中G2基于真机强化学习算法仅耗时一小时即可学会内存条插接类精密柔性操作任务 [16] - 在物流分拣环节G2用于包裹供包上料其移动能力可适配95%以上的工厂地面 [16] - 在商业导览场景G2展现强大交互能力和拟人化肢体语言周身传感器使其具备全向感知和危险预判能力 [16] - 除已落地场景外公司还在积极探索安检、巡检、教育、科研等应用方向以拓宽客户群体和落地场景 [16]
程序员用AI写歌还赚钱了!用AI 批量生产“爆款”,这个副业“杀疯了”?
AI前线· 2025-10-17 11:39
AI音乐创作的发展现状 - AI参与创作的作品频繁出圈,例如原神玩家使用Suno作曲的《奥奇坎竟是我自己》在B站获得近640万播放量[2] - 程序员Yapie使用DeepSeek和Make Best Music工具创作的《七天爱人》上线网易云音乐后播放量迅速突破200万次,评论超4600条,并跻身主流榜单[3] - 该歌曲版权卖出数万元,实现了商业突破,为大众AI音乐变现带来启发[3] - 截至2023年,AI已生成超过一亿首乐曲,预计AI音乐市场收益将在2026年达到70亿美元,到2030年将占据50%的音乐市场份额[9] 创作者对AI态度的转变 - 创作者对AI的态度从2023年的担心被替代、充满不屑排斥,转变为2024年将AI作为助手和灵感来源,如今已不再争论"用不用"而是讨论"怎么用好AI"[8] - 网友Chaosprint表示,早期AI音乐音质较"糊",但现在扩散模型推动音质改善,人声合成和转换变得更为实用[6][7] - 当前AI创作工具已能生成"60分水平"的合格作品,保证有个人特色并满足基础创作需求[16] AI在音乐创作中的角色定位 - AI是执行者,人类负责定义问题与目标,通过不断反馈迭代、个性化记忆和设置创作边界来引导模型[10] - 技术能解决80%的工作,人类解决10%的错漏和10%的画龙点睛[10] - AI当前的核心价值是"补位":帮助普通人实现创作无需学习乐理,对专业创作者则是提升效率而非取代[10] - AI让创作大量内容变得容易,未来音乐创作趋势是"品味比技能更重要",能从海量内容中筛选好作品的人将更受认可[16] AI音乐技术进展与挑战 - 早期AI创作规则简单输出粗糙,如今大模型基于文本就能深刻理解情感与语义关系并生成完整音乐作品[11] - Suno采用Transformer架构,其竞争优势在于音频表征创新而非模型架构创新[11] - 生成速度是重要指标,10秒延迟比8秒差,会影响用户体验[12] - AI音乐在情感叙事、高端真人感、互动和实时方面还有优化空间,难以实现创新性词曲创造和复杂多曲风节拍设计[11][16] 未来发展方向 - 未来将出现"AI创作操作系统"或全能平台,特征包括统一创作者工作空间和全局理解与任务协作[12][15] - 工具提供方需要集成优质AI能力,优化工具流与工作流,降低成本,让创作流程简单高效[12] - GPU开销是很大支出项,厂商们希望GPU价格下降但大概率会使用更多GPU以持续进行高质量研究和技术迭代[13] - 人类创作者的壁垒在于"道"而非"术",包括如何理解世界、解构问题以及表达独特的生活感悟[15]