Workflow
量子位
icon
搜索文档
跟这个音乐Agent聊会儿,分分钟生成抖音神曲 | 对话音乐创作Agent产品Tunee
量子位· 2025-11-01 09:35
量子位智库 . 连接AI创新,提供产业研究 分析师 刘萌媛 奕然 量子位智库 | 公众号 AI123All 以下文章来源于量子位智库 ,作者量子位智库 歌词、节奏都很流畅,音乐风格舒服,有点子专业在身上。 (自恋ing,觉得是可以发抖音的程度了) " 人人都能玩点音乐 ",Tunee真的做到了。 这也说明,AI创作领域产品真的从"工具产品"迈向"智能体交互产品"了。 聊个天的功夫,就能生成一首歌了。 这不,用国内首个音乐生成Agent产品Tunee生成了一首歌,一起感受下。 在AI创作领域,玩家可不少。诸如星流、Manus、海螺AI、美图秀秀等成熟玩家,以及近期爆火的Liblib AI纷纷入场卷起Agent能力,产品功 能或围绕 平台生态 、或深入 垂直场景 不断迭代优化细节。 与AI平面设计、AI视频生成等其他创作垂类赛道不同,AI音乐生成具有 自由度高 、 审美高度个性化 的特点。 如何将用户的个性化音乐表达需求与AI Agent能力结合,是音乐生成领域需要持续思考的问题。 这意味着,音乐生成Agent的 产品设计路径 、 技术底座 ,会展现出与其他创作赛道Agent的巨大差异性。 为了了解这一新兴赛道, ...
大模型公司不搞浏览器搞Agent,实测找到原因了
量子位· 2025-10-31 14:27
产品核心功能 - 产品形态为桌面悬浮球Agent,可直接与本地操作系统交互[3][44] - 具备联网搜索、浏览器操作、Excel表格处理和终端控制能力[6] - 支持通过自然语言驱动计算机系统,实现"为所欲为"的本地操作[2][45] 技术操作能力 - 自动完成编程环境搭建,如下载conda、创建虚拟环境、安装指定包(Python 3.11.13、torch 2.8.0、torchvision 0.23.0等)[9][11][14][19] - 执行过程中自动纠错并修改方法,最终在本地打开Jupyter[15] - 自动升级代码项目,如用Pygame替换tkinter界面、增加分数排行榜功能、修复内存泄漏并生成exe文件[21][24][25] 任务管理特性 - 支持"妙计"功能实现操作步骤复用,如通过"/图片按时间分类"指令快速执行复杂操作[30] - 具备定时任务能力,可设置到点自动执行任务[8][32] - 支持并行处理任务,后台运行不干扰当前工作,任务结束时浮出提醒[8][34] 行业发展趋势 - Agent正打破人机交互边界,过去手动衔接的操作环节被语言指令串联[47] - 多家公司布局桌面Agent领域,如智谱推出主打推理和PPT生成的Agent,MiniMax推出能输出分析报告和代码的"超级员工"[41][42] - 技术趋势从浏览器Agent转向本地操作系统交互,未来人机互动可能像对话一样轻松[40][47] 产品当前局限 - 任务执行速度较慢,环境搭建需以分钟为单位计时[36][37] - 调试代码时对多个错误修改不完全,需多次检查[38] - 目前仅支持Mac系统,Windows版本尚未发布[39]
微软独家:OpenAI最新季度净亏损115亿美元
量子位· 2025-10-31 14:27
Jay 发自 凹非寺 量子位 | 公众号 QbitAI 咋回事啊,难不成小弟最近忙着给苹果做应用,真给老板整急眼了?? 来,一起看看,这到底是怎么一出。 这下知道OpenAI为啥要转型公共利益公司了…… 眼尖的网友发现,OpenAI上季度居然亏了 115亿美元 ! 重点是,这可不是哪家媒体的小道消息啊,而是OpenAI的最大金主——微软自己亲手捅出来的。 微软因小弟血亏31亿 咱就是说,微软在这波AI浪潮里真是赚得盆满钵满。 2025年第三季度, 微软净利润高达277亿美元,同比涨了12个百分点 。 不过,都赚了这么多,微软居然还有点「不开心」。 大概意思是,明明这季度利润还能一路高歌猛进闯过300亿大槛的,都怪有个小弟拖了后腿! 本年度的净利润和EPS受到来自OpenAI投资亏损的负面影响,分别减少了31亿美元和每股0.41美元。 | (In millions, except percentages and per share amounts) | | | | Three Months Ended September 30, | Percentage Change | | --- | --- | --- | ...
Kimi开源新线性注意力架构,首次超越全注意力模型,推理速度暴涨6倍
量子位· 2025-10-31 14:27
核心观点 - 月之暗面发布的Kimi Linear架构首次在相同训练条件下超越了全注意力Transformer模型,标志着AI架构可能正告别对传统Transformer的路径依赖,迈向多元创新时代 [1][2][32] 架构创新与核心机制 - Kimi Linear的核心创新是Kimi Delta Attention,通过引入细粒度遗忘门控,使模型能在每个通道维度上独立控制记忆保留,保留重要信息并丢弃冗余信息 [12] - 该机制基于改进的Delta Rule,在数学上保证了稳定性,即使在百万级token序列中梯度也不会爆炸或消失 [13][14] - 模型采用3:1的混合层设计,每3层线性注意力后加1层全注意力,以保留全局语义建模能力并在多数层节省计算资源 [15] - 架构移除了传统的RoPE位置编码,让KDA通过时间衰减核函数自行学习序列位置信息,结果模型更稳定、泛化能力更强 [16][17] 性能提升与效率优势 - 在长上下文任务中,Kimi Linear减少了75%的KV缓存需求,并实现了高达6倍的推理加速 [4][23] - 在1.4T tokens训练规模下,Kimi Linear在MMLU、BBH、RULER、GPQA-Diamond等多个基准测试上全面超越Transformer [22] - 具体表现为:MMLU得分73.8超越基线的71.6,MMLU-Pro得分51.0超越基线的47.2,BBH得分72.9超越基线的71.6 [23] - 在数学推理与代码生成任务上表现更稳定且得分更高,如GSM8K得分83.9,MATH得分54.7 [23][26] 工程优化与部署便利性 - 采用Diagonal-Plus-Low-Rank结构将注意力矩阵拆分为“对角块+低秩补丁”,使GPU在并行计算时能一次性处理更多内容,吞吐率直接翻倍 [18][19] - 通过分块并行计算和内核融合优化,极大地减少了显存I/O开销 [20] - 工程部署上可无缝对接vLLM推理框架,无需改动模型结构或缓存管理,任何基于Transformer的系统理论上都能一键升级为Kimi Linear [21] 行业趋势与替代架构 - Mamba的作者曾论述Transformer并非最终解法,状态空间模型在长序列建模和高效计算上展现出强大的替代潜力 [28] - 谷歌推出的MoR架构探索用递归结构取代部分注意力,通过动态计算深度来减少冗余推理 [29] - 苹果公司在多项研究中倾向采用Mamba而非传统Transformer,因SSM架构更节能、延迟更低、适合终端设备部署 [30] - 尽管新架构不断涌现,刚刚坐上开源模型王座的MiniMax M2却重新用回了全注意力机制,显示技术路线存在多样性 [33]
国产GPU第一股IPO获批,募资80亿
量子位· 2025-10-31 12:09
IPO进程与募资计划 - 摩尔线程IPO注册申请已获证监会批准,成为科创板国产GPU第一股[1] - 从递交招股书到通过注册仅用时4个月,进程非常迅速[3][17] - 此次IPO计划募集资金总额80亿元[4] - 募集资金主要投向研发项目:新一代AI训推一体芯片研发项目25.095798亿元、新一代图形芯片研发项目25.023323亿元、新一代AISoC芯片研发项目19.818033亿元,另10.062845亿元用于补充流动资金[5][6][9] 财务表现与业务转型 - 2025年上半年营业收入达7.017619亿元,已超过2024年全年收入4.384595亿元[9] - 2025年上半年净亏损2.709423亿元,较去年同期大幅收窄[10] - 公司管理层预计最早可于2027年实现合并报表盈利[10] - 收入结构发生根本性转变:从2022年桌面级图形加速产品占比71.44%转变为2025年上半年AI智算产品占比94.85%,收入达6.65亿元[11][12][13] 公司背景与技术架构 - 公司成立于2020年6月,注册资本3.3亿元,实控人张建中控制公司36.36%股份[18] - 张建中曾任英伟达全球副总裁、中国区总经理[19] - 公司采用Fabless经营模式,主营GPU及相关产品研发、设计和销售[21] - 核心技术为自主研发的MUSA统一系统架构,具备全功能GPU计算加速能力,已推出四代GPU芯片[22][24] 行业竞争格局 - 2024年11月完成Pre-IPO轮融资,38家投资机构合计投资约52.25亿元,启动上市时估值达255亿元[13][20] - 多家国产GPU公司正在进行IPO:沐曦科创板申请于2025年6月30日获受理,10月24日过会;燧原科技2024年8月启动IPO辅导,估值160亿元;壁仞科技2024年9月启动IPO辅导,估值约160亿元;瀚博半导体2025年7月启动A股IPO辅导[26][27][28][30] - 2025年成为国产GPU厂商密集上市的一年[31]
最火VLA,看这一篇综述就够了
量子位· 2025-10-31 12:09
Zelen 发自 凹非寺 量子位 | 公众号 QbitAI ICLR 2026爆火领域VLA(Vision-Language-Action,视觉-语言-动作)全面综述来了! 如果你还不了解VLA是什么,以及这个让机器人学者集体兴奋的领域进展如何,看这一篇就够了。 文章作者 Moritz Reuss 是2025年Apple AI/ML学者奖得主,曾在RSS、ICLR、NeurIPS等顶级会议多次发表研究成果。这篇综述既是一线 研究者的实战总结,也是洞察趋势的前沿观察。 文章一出,评论区好评不断,甚至顶级猎头Mark Wallace直接抛出了橄榄枝。 然而,在这片繁荣之下,一个问题也随之浮现: 当我们谈论VLA的进步时,我们到底在谈论什么? 明确VLA的概念 这个VLA,究竟有多火? 据统计, VLA模型 相关投稿量,从去年的个位数飙升至164篇,足足增长了18倍。 这股热潮背后,让机器人 "听懂人话、看懂世界、动手干活" ,正成为AI领域极具吸引力的前沿阵地。 在深入探讨技术趋势前,我们必须先明确一个基本概念: 什么样的模型,才有资格被称为VLA? 学术界对此尚无统一定义,但研究员 Moritz Reuss 在 ...
量子位2025年度榜单冲刺申报中!企业/产品/人物榜正在征集
量子位· 2025-10-31 12:09
组委会 发自 凹非寺 量子位|公众号 QbitAI 为了让更多从业者感受智能浪潮的跃迁,也为了给予更多同行同路人掌声与鼓舞,我们将正式启动 「2025人工智能年度榜单」评选报名 。 本次评选将从 企业 、 产品 、 人物 三大维度,设立五类奖项。欢迎企业踊跃报名! 让我们共同见证年度之星,点亮未来的方向。 企业榜 产品榜 人物榜 2025 人工智能年度 焦点人物 详细评选标准及报名方式如下。 2025 人工智能年度领航企业 将面向中国人工智能领域,评选出最具综合实力的企业, 参选条件 : 2025 人工智能年度 领航企业 2025 人工智能年度 潜力创业公司 2025 人工智能年度 杰出产品 2025 人工智能年度 杰出解决方案 1、注册地在中国,或主营业务主要面向中国市场; 2、主营业务属于人工智能及相关产业,或已将人工智能广泛应用于主营业务,并在细分领域居于行业领先地位; 评选标准 : 2025 人工智能年度潜力创业公司 聚焦于中国人工智能领域创新创业力量,将评选出最具投资价值和发展潜力的AI创业公司, 参选条件 : 评选标准 : 3、具备成熟的产品或服务,已获得实际客户应用及市场认可; 4、近一年在技术 ...
首个实例理解3D重建模型!NTU&阶越提出基于实例解耦的3D重建模型,助理场景理解
量子位· 2025-10-31 12:09
iGGT团队 投稿 量子位 | 公众号 QbitAI 人类能自然地感知3D世界的几何结构与语义内容 ,但对AI而言,这"两者兼得"一直是巨大挑战。 传统方法将3D重建(底层几何)与空间理解(高层语义)割裂处理 ,导致错误累积且无法泛化 。而新方法试图将3D模型与特定的视觉语言 模型(VLM)"锁死" ,这不仅限制了模型的感知能力(例如,无法区分同一类别的两个不同实例 ),更阻碍了其适应更强下游任务的扩展性 现在,NTU联合StepFun提出了IGGT (Instance-Grounded Geometry Transformer) ,一个创新的端到端大型统一Transformer,首次将空 间重建与实例级上下文理解融为一体。 为解决上述问题,本研究的主要贡献在于: 端到端统一框架: 提出IGGT,一个大型统一Transformer,将空间重建和实例级上下文理解的知识统一在同一个模型中进行端到端训练 。 大规模实例数据集: 构建了一个全新的大规模数据集 InsScene-15K,包含15K个场景 、2亿张图像 ,以及通过新颖数据管线标注的高质量、3D一致的实例 级掩码 。 实例解耦与即插即用: 首创"实例接地的 ...
自动驾驶公司,正在标配飞书
量子位· 2025-10-31 12:09
自动驾驶行业2025年发展态势 - 2025年行业迎来快速发展,L2辅助驾驶搭载量爆发增长 [1] - Momenta城市NOA市场占有率稳居头部,地平线征程芯片量产突破1000万大关,元戎启行方案量产上车超13万辆 [1] - 小鹏和理想开始向L4进发,小马智行冲刺落地千台规模Robotaxi车队,文远知行集齐7国自动驾驶牌照,新石器交付无人小车超1万辆 [1][2] - 今年1-7月国内乘用车辅助驾驶渗透率已达63%,预计到2030年L2搭载率会达到100% [34] - 2025年被称为Robotaxi“量产元年”,行业竞争空前激烈 [34] 行业核心挑战与效率需求 - 行业存在“既要快速迭代,又要安全可靠”的矛盾,不能采用传统软件行业的敏捷开发模式 [28] - 自动驾驶开发和测试需打通多个部门,传统协作方式流程繁琐、耗时且易导致信息流失 [30][35] - 行业竞争是一场长跑比赛,需要每天比别人跑得快一点点以获取更大市场份额 [34] - 传统工具如表格在车辆规模达上千台后出现性能瓶颈,影响工作效率 [36] 飞书作为提效工具的应用案例 - 地平线使用飞书构建研发协作和知识管理体系,为公司数百个项目建立知识库,每年沉淀文档超70万份 [5][6] - 地平线通过知识问答AI让员工快速获取知识,每天有数百名员工使用,研发待办事项关闭率提升至80%以上 [8][10] - Momenta基于飞书项目打造研发效率引擎,一键批量导入开发需求耗时从半天缩短到10分钟,并实现问题自动创建、聚类和预分析 [13] - 文远知行使用飞书多维表格管理车辆信息,记录项从2项扩展到57项,AI自动汇总问题,使下半年车辆维修情况比上半年降低约80% [36] 飞书提效的具体方法与成果 - 飞书通过低代码平台aPaaS和智能体搭建平台aily,帮助企业实现流程自动化和知识沉淀 [10][18] - 四维图新利用aily创建AI专利智能体,帮助快速撰写专利交底书,一年可避免100项专利累计320小时的无效投入,节省超30万元研发成本 [20][25] - 飞书举办AI效率先锋大赛,促进优秀提效案例传播,培养企业不断提效的文化 [16][17][26] - 飞书的权限管理和AI辅助识别资产密级功能,保障了知识资产的安全 [10] 飞书在物理AI领域的扩展影响 - 飞书已影响整个自动驾驶产业链,并扩展至具身智能领域,如智元机器人、优必选等公司 [40] - 飞书被视为物理AI浪潮的加速器,助力AI进入真实世界 [40] - 先进生产力企业需先用先进生产力工具,飞书已成为行业玩家的共同伙伴 [39][41]
OpenAI首个GPT-5找Bug智能体:全自动读代码找漏洞写修复
量子位· 2025-10-31 08:58
OpenAI Aardvark产品发布 - OpenAI发布由GPT-5驱动的AI安全研究员Agent Aardvark,旨在自动发现并修复代码安全漏洞 [2][3] - Aardvark在基准测试中识别出92%的已知与人工注入漏洞,并能定位复杂条件下出现的问题 [4][19] - 该产品通过威胁建模、漏洞发现、沙盒验证、Codex修复等流程工作,可集成GitHub和现有开发流程 [9][11][15] Aardvark技术能力与测试成果 - Aardvark运用大语言模型驱动的推理能力理解代码行为,不依赖传统程序分析技术 [10] - 内部测试显示其能识别安全漏洞、逻辑缺陷、不完整修复及隐私风险 [16] - 产品已应用于多个开源项目,发现并披露的漏洞中有10个已获得CVE编号 [20] 行业竞争格局 - 2024年10月,Anthropic、谷歌、微软相继发布类似AI代码安全产品,OpenAI此次发布相对较晚 [7][24][31] - Anthropic于10月4日将Claude Sonnet 4.5应用于代码安全,其性能超越Opus 4.1且价格更低、速度更快 [25][28] - 谷歌于10月6日发布基于Gemini Deep Think模型的CodeMender,微软于10月16日发布Vuln.AI [29][31] 市场驱动因素 - 人工Debug与传统自动化方法已无法满足大规模代码库的漏洞发现与修复需求 [32] - 企业级网络设备、服务、代码库数量巨大,同时AI技术也被用于快速寻找漏洞,导致漏洞数量激增 [33] - 借助AI自动化发现与修复漏洞成为确保软件安全和降低企业风险的关键手段 [34]