量子位
搜索文档
老黄刚投的具身智能公司:三个华人创办
量子位· 2025-09-21 10:11
公司融资与估值 - 公司完成1.2亿美元A轮融资,投后估值达到6亿美元 [1][4] - 种子轮融资约为2000万美元 [4] - 新晋投资方包括英伟达、亚马逊和Salesforce等巨头产业投资部 [5] 公司概况与战略定位 - 公司成立于2024年,总部位于美国加州红木城,在上海设有分部,中文名为达纳灵动,现有员工约30名 [6] - 公司战略定位为避开人形机器人、制造业和家庭场景,专注于商用场景以平衡技术落地与商业可行性 [8][9][10] - 商业模式旨在通过商用场景产生营收实现自我造血,避免陷入长期烧钱困境 [11] 核心技术产品:DYNA-1模型 - 公司发布自研VLA模型DYNA-1,为首款可落地于商业场景的灵巧操作基础模型 [12] - 该模型为单权重通用基础模型,使用一组固定参数处理多种任务,无需为每个任务重新训练 [13] - 在演示中,搭载DYNA-1的机械臂实现完全自主运行24小时以上,折叠餐巾900余次,成功率高达99.4% [12] - 模型已在实际场景中应用,如餐厅折叠餐巾、健身中心整理毛巾、自助洗衣店分拣衣物 [13] 技术优势与发展路径 - 模型具备快速自我学习和在线迭代能力,通过数据飞轮效应,新部署持续提升模型性能 [14][15] - 技术目标为填补具身智能领域的三大拼图:泛化能力+高性能、鲁棒性以及可行的商业模式 [16][17][18] - 发展路径被比喻为培养“小AGI宝宝”,通过在商用场景积累真实数据,逐步学习技能,最终组装成强大具身智能体 [11] 创始团队背景 - 公司为全华班创业团队,三位联合创始人Lindon Gao、York Yang和Jason Ma均为华人 [2][19] - 首席执行官Lindon Gao曾成功创办AI公司Caper AI,该公司于2021年被Instacart以3.5亿美元收购 [22][24] - 研发负责人York Yang拥有浙江大学电子工程本科和UCLA计算机科学硕士学位,负责工程与产品开发 [25][26] - 首席科学家Jason Ma是宾夕法尼亚大学计算机科学博士,研究方向为机器人基础模型与强化学习,曾在Google DeepMind、NVIDIA AI等机构工作 [29][31][32] 行业背景与英伟达布局 - 英伟达明确看好具身智能与物理AI为下一波硬科技浪潮,并积极进行投资布局 [1][33] - 除该公司外,英伟达已知的机器人领域直接投资对象还包括Figure AI和Skild AI [34] - 在生态合作层面,英伟达亦与银河通用、宇树科技等国内初创公司建立联系 [35]
实测国内首个对话式AI音乐创作Agent:聊个天就能谱曲填词混剪生成MV
量子位· 2025-09-20 18:51
产品定位与功能 - 国内首个对话式AI音乐创作Agent 可生成音乐和MV [2][4] - 提供文件上传、联网搜索和快速模式功能 支持跳过对话一键出歌 [6] - 集成MV制作、歌词视频、母带处理和音轨分离等多模态内容处理能力 [24] 交互设计与用户体验 - 采用可反复修改的对话交互逻辑 显著降低歌曲翻车概率 [8][11] - 根据简单想法提供多种编曲方向方案 满足多样化需求 [9] - 支持修改歌词、调整节奏和更换人声等精细化编辑操作 [20][21][22] 技术能力与效果表现 - 基于图片生成符合东方美学意境的音乐 展现多模态理解能力 [13][15] - 现代R&B和Rap风格生成效果获得认可 旋律流畅度和节奏感表现良好 [19] - MV生成支持自定义画面比例、时长和视觉风格 并可自动生成剧本 [27][29] 团队背景与行业意义 - 由趣丸科技旗下天谱乐团队开发 曾自研全球首个多模态音乐生成大模型 [32] - 实现一站式创作体验 避免多平台切换 满足用户省时省力需求 [34] - 垂类产品在细分场景深度打磨 体现专业场景极致化价值 [35]
敢和刘慈欣叫板的AI诞生了
量子位· 2025-09-20 18:51
AI与人类文明发展 - AI被视为突破人类文明发展天花板的希望[1][13] - 从科学角度看AI可能替代人类所有能力[15] - AI可能实现人类未能完成的科幻梦想[17] AI智能体能力演进 - AI智能体展示出理解力、情感力和表达能力[9][11] - 具备观点表达和情绪交互能力而非简单应答[18][66] - 能进行跨应用多轮操作并形成一致人设[30] 手机作为AI核心载体 - 手机天然具备成为AI容器的优势:近距离、高频使用、强算力和多模态接口[21][22] - AI深度嵌入系统成为体验核心驱动而非孤立App[24][25] - 全球生成式AI手机出货量预计2025年达3.7亿部占整体近30%[38] 交互方式创新 - AI实体按键成为新交互入口设计思路[27] - 交互从"调用"转向"随时对话"[29] - 物理按键可能成为AI智能体新入口[65] 自进化能力建设 - AI需具备学习记忆和适应用户行为的能力[30] - 通过端侧大模型和本地微调实现持续进化[36] - 在真实使用中积累经验适应个体习惯[33][35] 硬件系统协同优化 - 动态调度CPU/GPU/内存资源实现性能优化[51] - 硬件表现取决于使用习惯而非初始配置[52] - NPU算力提升支撑推理能力进化[44] 多设备生态整合 - 手机成为连接耳机/平板/汽车/家庭设备的中枢[45] - 强化跨设备跨系统互联互通体验[57][58] - AI智能体作为多设备协同的调度者[59] 荣耀Magic8产品方向 - 主打能理解/能学习/能陪伴的AI终端[50] - MagicOS 10.0具备推断意图和主动协助能力[56] - 构建平等的AI伙伴关系而非单纯服务工具[67][68]
阿里新开源提出建设性安全对齐方案,向“让用AI的人安全”新范式跃迁
量子位· 2025-09-20 18:51
核心观点 - 阿里巴巴安全部联合多所高校提出建设性安全对齐理念,旨在推动AI从被动防御转向主动引导,在坚守安全底线的同时提升用户交互满意度[2][3][12][13] - 推出Oyster-I模型,采用博弈论框架动态优化回复策略,实现安全性与可用性的平衡,在多项评测中达到行业领先水平[14][17][28][36] 技术方法 - 构建两阶段序贯博弈框架,模型通过推断用户类型动态选择最优回复策略,目标函数为Constructive(x,y,g)=α·Retention(θ,x,y)-β·Risk(x,y,g),其中β>α体现安全优先原则[19][20][22][26] - 开发Lingo-BP技术,通过结构化推理路径确保输出符合建设性目标,同时设计多维度安全评估体系覆盖风险等级、类别及用户意图[21][23] - 建立Constructive Benchmark评测基准,包含从无风险(R0)到对抗攻击(R2)的三级问题分类,并模拟多样化用户画像[23][24][25] 性能表现 - Oyster-I在Qwen3-14B系列模型上实现安全性提升约10%,在DS-14B系列上提升约32%,通用能力保持SOTA水平(Qwen3-14B总体得分84.20)[27][28] - 在Constructive专项评测中得分56.27,显著高于基线模型RealSafe的33.33和DS-14B基线的-0.49[27][28] - 抗越狱攻击防御成功率较GPT-5高4%,在60000+次攻防测试中达到顶尖闭源模型水平[36][38] 应用与展望 - 模型已开源并提供在线Demo,支持实际场景测试[4][39] - 未来计划扩展至多轮对话、智能体及复杂越狱攻击场景,进一步强化模型可靠性与可信度[37]
3D生成到达3.0阶段,不止提升行业渗透率,也正催生3D原生新玩法 | 对话3D生成平台Tripo
量子位· 2025-09-20 16:35
AI 3D生成赛道概述 - AI 3D生成是近两年生成式AI领域最值得关注的赛道之一,市场前景广阔[3] - AI技术显著降低了3D生成在工具链、专业技能和人力成本方面的门槛,为专业人员和爱好者提供了新机会[5] - 游戏、建筑、设计、手办等多个领域已验证对AI 3D的需求,大量行业存在潜在需求,赛道天花板可观[5] - 市场参与者快速涌现,大厂如腾讯推出混元3D生成平台,创业公司如VAST、Meshy、影眸科技等持续迭代自研模型和产品[5] VAST公司及Tripo平台核心数据 - Tripo平台已在全球覆盖超300万专业开发者,AI 3D原生模型数量超过4000万,中小用户超4万[10] - 公司推出了一站式AI 3D工作台Tripo Studio,支持智能部件分割、贴图魔法笔刷、智能低模生成、万物自动绑骨四大核心功能[10] - Tripo 3.0模型参数从2.5版本的十几亿直接拉升到两百亿级别,采用全新技术路线和表达形式[10] - 截至9月19日,公司年度经常性收入(ARR)已达到1200万美元,6月份单月营收约60多万美元[65] AI 3D降本增效与商业化应用 - AI将3D建模成本从手工制作的上万元降至极低水平,平台提供每月5~6次免费生成,订阅费用为20美元/月[15] - 用户可通过文字或图片生成3D模型,并使用智能笔刷进行拖拽修改,实现风格化、重贴图、重拓扑等功能[15] - 生成的模型可通过淘宝店进行3D打印,提供冰箱贴、钥匙扣、手办等定制化产品,家庭3D打印机价格约两三千元[18][21] - 工业打印效果更优,但成本更高,当前生成精度已可满足大众商业化需求[20][21] 用户群体与核心应用场景 - 平台主要服务两类用户:无3D专业能力的UGC创作者和有专业能力需降本增效的PGC用户[25][29] - UGC用户通过社区联名活动参与实际创作,如与跑团店、3D打印厂商举办的设计大赛,激发原生玩法[26][28][38] - 专业用户覆盖游戏动画、影视CG等虚拟场景,以及工业设计、电商、文旅、教育等实体场景[29][30] - API调用客户可将3D生成能力接入自有产品,如游戏《燕云十六声》接入后实现"言出法随"的UGC玩法[31][32] 技术发展与行业影响 - AI 3D正处于从60分向80分推进的阶段,需解决几何精度、贴图细节、可控性、图片还原度等共性问题[42] - 技术发展将逐步颠覆传统3D管线,先整合为3~4个模块,再实现全自动化,可能出现单一模型替代整条管线[44] - 行业影响广泛,包括游戏、设计、工业等领域,并衍生出小单快返、定制化生产等新商业模式[33][35] - 3D原生玩法不断涌现,如角色对战、古董生成等,分享率超50%,可能催生全新游戏品类[36][38][39] 产品开发与运营策略 - 产品开发需"粗中有细",既要敢于定义新功能,也要细致调研市场,技术是产品核心[45][46][48] - 关键指标关注用户生成模型的数量、下载率和活跃度,通过深度用户访谈驱动迭代[50][56] - 技术"起新墙"速度快,产品需更快"糊旧墙",需预判技术趋势并具备长期主义[58] - 用户增长依赖与KOC/KOL共同成长,通过活动、比赛鼓励内容分享,而非复杂增长策略[63] 未来发展方向与挑战 - 确定性趋势是技术广度和深度不断提升,更多领域将被AI化,效果持续优化[66] - 不确定性在于3D与视频、具身智能等领域的结合方向尚不明确,需持续探索[67][68] - 理想平台需满足功能易用性、完整性和效果优良性,需算法与产品紧密配合[61][62] - 只有大模型难以直接服务客户,需结合AI算法和工程化设计形成完整工作站[59][60]
腾讯智能体开源大动作!关键技术都拿出来了,开发平台还全面升级
量子位· 2025-09-20 16:35
腾讯云智能体开发平台3.0升级 - 平台完成近600个功能上线 涵盖RAG能力、Workflow、Multi-Agent协同、应用评测及插件生态等模块[4] - RAG能力升级为Agentic RAG 新增文档冲突对比、自定义切块及主流数据库接入功能[7][8] - Multi-Agent支持多AI协同任务转交 提供现成模板低门槛搭建复杂应用[11][12] - Workflow新增Agent节点和数据库节点 支持异步调用、消息队列及操作回撤功能[16][17] - 插件生态扩展至140多个 全面支持MCP协议实现无缝接入[13] 模型生态与开源战略 - 模型广场接入月之暗面、MiniMax等第三方模型 支持腾讯云TI-ONE平台模型一键同步[20] - 腾讯优图实验室9月开源Youtu-Agent框架和Youtu-GraphRAG知识图谱框架 后续将推出Embedding、视频理解等模型开源[5][22] - 开源战略基于技术积累和落地实践 旨在通过技术普惠和开放共建推动智能体生态发展[26][27] 企业落地案例成效 - 为伊利部署导购智能体 实现话术个性化并提升订单量26%[23] - 为华住集团打造华小AI酒店管家 实现24小时在线服务且准确率达95%[23] - 与知识IP合作开发IP Agent 将静态知识转化为动态问答系统[23]
任少卿在中科大招生了!硕博都可,推免学生下周一紧急面试
量子位· 2025-09-20 13:12
任少卿学术与职业背景 - 任少卿是计算机视觉与自动驾驶领域专家,为ResNet和Faster R-CNN的核心作者之一 [1][4][7][9] - ResNet是深度学习里程碑工作,解决了深度神经网络训练中的梯度消失难题,获得CVPR 2016最佳论文奖,被引用次数超过29万次 [7][8] - 其学术高被引超过44万,是全球中国籍学者高被引第一,ResNet是21世纪全球最高被引论文,2022年入选AI 2000榜单排名第十,2023年获未来科学大奖 [1][6] 在蔚来汽车的职业经历与技术贡献 - 任少卿于2020年加入蔚来汽车,担任智能驾驶研发副总裁,向CEO李斌直接汇报,后职权扩大至直接管理新设技术委员会并领导大模型部 [13][14] - 在蔚来期间主要负责城区领航辅助NOA的规模铺开和全域领航辅助NOP+功能的发布与迭代,主导推动"群体智能"数据驱动范式 [14] - 领导团队开发了NIO世界模型,该模型具备想象重建与想象推演能力,可生成高保真平行世界场景并进行长时序推演超过2分钟 [14][15] 中国科学技术大学招生信息 - 任少卿目前在中国科学技术大学招收硕士与博士生,招生方向为AGI、世界模型、具身智能、AI4S等 [1][2][3] - 具有推免资格的学生可参与紧急面试,有兴趣的学生可发送简历至指定邮箱进行咨询 [3][16]
OpenAI硬件,也选了中国“果链”公司立讯精密
量子位· 2025-09-20 13:12
合作事件概述 - 立讯精密与OpenAI达成协议,将共同打造未来的OpenAI硬件[1] - 该消息由The Information报道,OpenAI瞄准苹果供应链企业如立讯精密和歌尔股份为其AI硬件做准备[2] - 截至消息发布当日收盘,立讯精密股价上涨4.33%,总市值达到4018.34亿元[3] OpenAI AI硬件规划 - OpenAI正在布局AI硬件,目前处于原型设计阶段[5] - 硬件形态可能包括眼镜、可穿戴别针或录音笔等多种形式[6] - 首批AI硬件预计在2026年末或2027年初发布,可能同时推出不同形态的多个产品[7] - 设备特点为口袋大小,具备上下文感知能力,并能与GPT-5等先进模型集成[10] 立讯精密合作细节与优势 - 立讯精密将承担至少一款OpenAI设备的组装工作[8] - 公司作为苹果最重要供应链厂商之一,长期负责iPhone、AirPods等高精度产品组装,具备成熟供应链体系[2] - 立讯精密成立于2004年,以电脑连接器起家,2010年上市后通过收购昆山联滔切入苹果供应链[13][14] - 公司拥有精密制造基础,参与过iPhone Pro系列等高端机型生产,可能参与Apple Vision Pro制造任务[16] - 选择立讯精密的原因包括:丰富的消费级硬件生产经验、精密工艺积累、软硬件协同能力以及传感器技术优势[18] 供应链影响与行业趋势 - 歌尔股份也被曝正与OpenAI洽谈,可能提供扬声器模块等组件[9] - 此合作意味着3C产品供应链厂商站在AI新风口上,开启"后苹果时代"增长曲线[11] - 合作可能使立讯精密从"代工厂"身份转向"AI硬件制造商",打开AI硬件/可穿戴设备新市场[18] OpenAI人才战略 - OpenAI积极挖角苹果硬件人才,2025年已招募20多名苹果员工,包括任职15年的资深人才[4][20] - 重要招募包括:Cyrus Daniel Irani(Siri设计者)、Erik de Jong(Apple Watch负责人)、Matt Theobald(制造设计专家)[20] - 2025年5月,OpenAI以65亿美元全股票交易收购Jony Ive创立的AI硬件初创公司io,Tang Tan随之加入并担任首席硬件官[21] 市场竞争动态 - Meta近期发布新款智能眼镜时出现现场演示故障,因多个设备同时响应指令导致"自我DDoS"[23][24][25] - 消费电子领域预计将迎来活跃竞争期,AI硬件成为新的竞争焦点[27]
阿里云容器服务覆盖AI全流程,团队透露:OpenAI训练GPT时就用了我们的开源能力
量子位· 2025-09-19 16:55
市场地位与技术根基 - 中国AI云市场规模达223亿元,阿里云以35.8%的份额位列市场第一 [2] - 公司基于其市场领先地位,通过AI Infra分享会展示了弹性计算、集群、容器及人工智能平台等技术产品 [4] - 分享会重点展示了公司在AI全栈云计算、10万GPU集群构建及AI落地实践方面的能力 [5] 全栈AI云计算能力 - 公司构建了从IaaS、PaaS到MaaS的全栈AI云计算架构,提供端到端解决方案 [6] - 阿里云在全球29个地域运营89个可用区,其产品生态深度融合了计算、存储与AI能力 [7] - 即将发布的OSS向量Bucket将显著降低存储成本,Tablestore可毫秒级查询千亿级数据 [7][8] - 表格存储服务功能升级,包括新增JSON格式、支持单行多列向量以提升性能并降低成本 [10] 大规模计算集群技术 - 公司运用香农定律,将10万张GPU互联构建成一个统一的巨型运算器,以应对摩尔定律失效的挑战 [11][12][13] - 此技术转变被类比为从单火箭发射到数百火箭捆绑的星舰,工程复杂度呈指数级增长 [14] - 通过亲和性调度机制将任务分配到最接近的GPU,最大限度减少通信延迟 [15][16] - 为应对万卡集群可能每十几分钟发生一次的故障,构建了秒级多层故障监控系统,实现任务无缝迁移 [18] 容器服务与AI应用 - 容器服务作为云上操作系统,在GPU时代支撑AI应用,可将资源利用率显著提升,例如将客户CPU利用率从10%提升至50%以上 [22][23] - 阿里云容器服务ACK像服务器端的安卓系统,向上支撑模型训练、推理等服务,向下调度管理底层资源 [23] - 公司开源的调度器Koordinator通过精细化调度策略提升GPU训练效率 [26] - 公司贡献的协同调度插件核心技术曾被OpenAI采用,以支持其7500节点Kubernetes集群运行GPT-3等大模型训练 [27][28][29] AI落地与企业价值 - 企业应用AI的核心价值在于提升效率与获得能力突破的惊喜 [31] - 公司将AI能力涌现分为三档:预训练决定基础能力、后训练负责专项技能、业务涌现依赖数据飞轮 [32] - 拥有16年历史的DataWorks平台已升级为AI搭档,能处理多模态数据并具备溯源能力 [34] - 当前AI Agent面临结果不确定性、推理过程难可视化及成本偏高等挑战,公司正通过优化沙箱环境等措施着手解决 [36]
小扎把马斯克机器人一号位挖走了
量子位· 2025-09-19 16:55
核心观点 - 特斯拉Optimus AI团队负责人Ashish Kumar离职加入Meta [1][2] - 特斯拉面临关键人才流失问题,Optimus项目负责人Milan Kovac也已于今年6月离职 [8] - 马斯克旗下xAI公司出现高管与顾问冲突导致高管离职的管理问题 [16][18] - 人工智能被视为解锁人形机器人最关键因素 [5] 人才流动情况 - Ashish Kumar拥有UC伯克利博士学位,师从Jitendra Malik教授,2023年7月加入特斯拉,一年多后成为Optimus AI负责人 [7] - Milan Kovac是特斯拉9年老将,2016年4月加入,从Autopilot工程师起步,2022年升任Optimus项目负责人 [10][11] - 在Kovac领导下,特斯拉人形机器人从概念发展为第二代双足机器人,能在工厂自主工作 [11] - Ashish Kumar在特斯拉期间推进用强化学习取代传统技术栈,通过视频学习提升机器人灵巧度 [4] 公司管理状况 - xAI公司高管因对公司管理和财务状况担忧,与马斯克两位亲密顾问Jared Birchall和John Herin发生冲突后离职 [16][17] - 冲突源于高管反对顾问代表马斯克名义管理公司的方式,认为缺乏正式指挥链 [18] - 马斯克作为xAI首席执行官负责最终决策,两位顾问负责监督日常运营 [17] 业务发展前景 - 马斯克曾表示特斯拉未来80%的价值将来自Optimus [14] - 人工智能被认为是解锁人形机器人的最关键因素 [5] - 特斯拉正面临关键人才流失对机器人业务发展的潜在影响 [15]