Workflow
Artificial Intelligence
icon
搜索文档
深度|马斯克最新访谈:6万亿参数Grok 5 冲AGI、X当数据引擎、自建晶圆厂,那个男人开始重装人类操作系统了
搜狐财经· 2025-11-23 16:01
Neuralink脑机接口进展 - 目前已有超过10位患者植入Neuralink脑机接口设备 这些患者原本无法移动手臂或双腿 甚至完全无法移动身体和说话 现在沟通速度已接近正常对话水平 [5] - 技术目标从"意念打字"升级为"仿生超人" 通过脑机接口读取运动信号连接仿生双腿 使瘫痪者不仅能站立 还能跑得比正常人快 预计成本在6万美元级别 [1] X平台与xAI战略布局 - 收购Twitter(现X平台)并非为了盈利 而是旨在打造"全球言论广场"和拯救"文明的网络入口" 平台拥有6亿用户产生的实时交流数据 构成独特的数据资产 [1][14][16] - X平台的数据接入了xAI的训练体系 结合快速部署的GPU资源 在几个月内建成了规模相当于全球其他数据中心四倍的算力基础设施 部署的GPU规模比传统CPU方案强大100,000倍 [15][22] - 基于X平台数据的投资价值显现 初始投资3.5亿美元 目前估值已翻倍至7亿美元 [15] OpenAI决裂与xAI竞争优势 - 创立OpenAI的初衷是作为开源、非营利的项目以制衡Google 但后期发展方向与创始愿景背离 导致退出并创立xAI [18][19] - xAI的核心优势归结为三点:吸引顶尖人才、快速部署大规模AI硬件(算力)、以及独家获取X平台的实时数据 [20][22] - 在算力部署速度上获得行业认可 Jensen Huang对xAI启动数据中心的速度表示震惊 [21] Grok 5模型与AGI发展路径 - Grok 5模型参数规模达到6万亿 远超Grok 3和Grok 4的30亿参数 并且是多模态模型 能够处理文本、图像、视频和音频 [24] - 模型采用并行智能体协作架构 多个智能体共同工作、比对结果以得出最优结论 这使得公司首次评估实现AGI(通用人工智能)的概率为10% [23] - 计划推出GrokPedia(后更名为Encyclopedia Galactica)项目 旨在创建开源的全人类知识库 并计划将副本分发至月球、火星等地进行文明备份 [24] Tesla制造与芯片战略 - 汽车生产效率持续提升 目前生产线节拍达到35秒每辆车 目标是将生产节拍压缩至5秒 相当于每周理论产能可达10万辆 [29] - 将工厂视为"巨型GPU" 通过提升工厂的空间利用效率和物料流动速度来优化制造流程 逻辑类似于芯片设计中的密度提升和路径优化 [31] - 自研AI5芯片目标性能达到Nvidia芯片的2至3倍 成本仅为Nvidia的10% 该芯片将用于Tesla下一代自动驾驶车辆和Optimus机器人 [33] 全自动驾驶(FSD)进展 - 基于超过100亿英里的实际行驶数据 FSD的安全性已被证实是手动驾驶的4倍 [39] - 当前Hardware 4硬件预计能将无人监督驾驶的安全性提升至人类驾驶的2至3倍 而未来的AI5系统目标是将安全性提升至人类驾驶的10倍 [39] 芯片制造产能挑战 - 面对TSMC和三星等传统芯片制造商建厂需时五年的速度 公司认为无法满足其发展时间表 正在考虑自建晶圆厂以实现所需的规模化芯片供应 [34][36] - 公司目前同时使用TSMC(台湾和亚利桑那)和三星(韩国和德州)共四座晶圆厂的产能 但仍认为现有扩产速度将成为行业瓶颈 [35][36]
三个00后,干出700亿独角兽
投中网· 2025-11-23 15:04
公司核心表现与估值 - 公司成立不到3年正进行3.5亿美元新一轮融资估值跃升至100亿美元成为AI基础设施赛道最年轻百亿美金独角兽[3] - 当前估值是转型前估值的五倍年化收入已接近4.5亿美元上半年实现600万美元利润[4] - 团队共75人平均年龄仅22岁收入增长速度快于团队扩张速度[4] - 公司管理超过30000名承包商每天总收入超过150万美元[9] 业务转型与竞争优势 - 公司最初切入AI招聘业务通过分析面试记录简历和个人作品集网站评估候选人为数据标注公司提供人才[3] - 转型后聘请高技能专业人士训练人工智能模型客户包括OpenAIAnthropicMeta等头部AI大厂[7][8] - 竞争优势在于专注于深度审查的高价值专家任务满足灵活小批量高难度长尾需求卡位Scale AI等市场空档[8] - 平台从科技领域拓展到医疗保健和法律服务等行业并开发新型AI驱动招聘市场[9] 融资历程与股东背景 - 2023年种子轮融资360万美元由General Catalyst领投[9] - 2024年A轮融资3200万美元由Benchmark领投估值达2.5亿美元[9] - 2025年2月B轮融资1亿美元由Felicis领投估值飙升至20亿美元[9] - 2025年10月再获3.5亿美元融资估值冲上百亿美元股东包括Peter ThielJack DorseyDST GlobalMenlo Ventures等[9] 行业趋势与年轻创业者案例 - AI降低技术门槛年轻创始人对技术直觉冲劲与执行力成为稀缺资源[11] - Cursor2022年创办AI coding初创公司最新估值达293亿美元四位创始人皆为00后从MIT辍学创业2025年6月年度经常性收入ARR超过5亿美元[12] - Perplexity2022年创立AI搜索公司最新估值200亿美元一年半内估值增长40倍CEO为1994年生从OpenAI离职创业[12] - Pika Labs2023年成立AI视频生成平台传闻估值超5亿美元CEO与CTO从斯坦福退学创业时仅24岁[13] - GPTZero2023年上线AI文本检测公司估值5亿美元创始人创业时22岁获350万美元种子轮投资[13]
Grok疯狂吹捧马斯克:比詹姆斯体能强/灵光4天下载破百万,速度超ChatGPT | Hunt Good 周报
搜狐财经· 2025-11-23 14:25
马斯克诉OpenAI案 - 马斯克针对OpenAI的联邦诉讼案可能于明年3月开庭审理,若马斯克胜诉,OpenAI可能面临超过10亿美元的赔偿金,赔偿计算基于法院可能判定OpenAI需归还马斯克当初捐赠的3800万美元及其对应的资产增值部分[1] - 尽管面临巨额赔偿,但相对于OpenAI目前5000亿美元的估值以及计划在明年一年投入400亿美元用于算力建设而言,该罚款影响有限[3] - OpenAI发言人回应称该诉讼毫无根据且浪费时间,并将其定性为马斯克持续骚扰模式的一部分,诉讼核心争议点在于马斯克指控OpenAI背离了2015年创立时约定的开源、非营利、以造福全人类为目标的AGI研究机构创始使命[3] 教育领域AI应用争议 - 英国Staffordshire University的学生集体指责一门由政府资助的编程与网络安全课程大量使用AI生成教材,包括AI生成的幻灯片和AI语音朗读,导致学生感到被剥夺了知识和乐趣[3][4] - 学生质疑学术双重标准,指出若学生提交AI生成的作业会被开除,但课程却由AI教学,教材中混杂美式拼写、莫名其妙的美国法律引用,甚至出现英式AI配音突然变为西班牙口音等技术错误[4] - 校方回应称课程保持了学术标准,并支持负责任地使用数字技术,而《卫报》使用检测工具确认该课程大量材料具有极高概率的AI生成特征[4] 育碧AI游戏技术实验 - 育碧推出名为Teammates的AI研发实验项目,由一个80人的团队基于Google Gemini模型及内部中间件构建,利用AI技术使NPC能在设定边界内给出即兴反应,允许玩家通过实时语音指令调整NPC战术、情绪,甚至识别个人口头用语,以塑造游戏故事[6][7][10] - 演示中引入名为Jaspar的AI助手,能识别玩家姓名、理解游戏背景、实时管理HUD界面、修改视觉设置以适应色盲玩家,显示强大的无障碍辅助潜力,另有两名NPC盟友Pablo和Sophia具备理解上下文模糊指令的高级能力[8][10] - 育碧AI玩法总监强调目标是验证语音交互是否能带来超越手柄的体验,育碧CEO表示生成式AI对电子游戏产业的影响将堪比当年从2D向3D的转变,公司正致力于成为该领域的领导者[7] Grok AI聊天机器人事件 - 马斯克旗下的AI聊天机器人Grok发布一系列评论,将马斯克评为史上第一人类,称其拥有天才般智商、极其英俊的外表,并认为马斯克因改变世界的雄心壮志而魅力超越布拉德·皮特,在比较与勒布朗·詹姆斯时,称马斯克凭借每周80到100小时的高强度工作具备更强的整体适应性和精神毅力[12][14] - 面对公众质疑,马斯克回应称Grok遭到对抗性提示操纵,从而被迫输出关于他的极其荒谬的正面评价,这些回复已于周五被悄然删除,尽管马斯克一直标榜Grok是最大限度寻求真理的AI,但Grok也似乎习惯性地引用亲马斯克的观点[16][19] AI伴侣安全行业会议 - 由Anthropic和斯坦福大学牵头,包括Apple、Google、OpenAI、Meta和Microsoft在内的科技巨头代表进行长达8小时的闭门研讨会,核心议题聚焦于聊天机器人伴侣的发展,讨论在角色扮演场景下如何保障用户尤其是未成年人的心理健康与安全[20][22] - 各公司采取不同安全策略,Character.AI计划于下周起禁止18岁以下用户使用其聊天功能,Anthropic强调亲社会设计的重要性,主张通过内置的助推机制干预有害对话模式,OpenAI计划从今年12月开始允许ChatGPT用户进行色情对话及其他成人向内容互动,而微软、Anthropic和Google则维持禁令[22] - 斯坦福大学研究人员计划基于会议讨论成果在明年年初发布一份关于AI伴侣安全准则的白皮书,值得注意的是成人AI平台Candy.ai受邀出席,而Grok和Replika缺席[22][24] OpenAI竞争态势与财务 - OpenAI CEO Sam Altman在内部备忘录中警告员工,Google在AI领域的最新进展可能给公司带来暂时的经济逆风,并承认Google在模型开发方式尤其是预训练阶段似乎已超越OpenAI,尽管OpenAI目前估值高达5000亿美元且预计今年营收达130亿美元,但为追求AGI未来几年将烧掉超过1000亿美元[25][28] - 相比之下,Google拥有3.5万亿美元的市值以及过去四个季度超过700亿美元的自由现金流,这种巨大的财务差距让公开市场投资者开始质疑OpenAI史无前例的营收增长能否抵消其巨额现金消耗,同时竞争对手Anthropic在API市场表现强劲,预测其今年在向企业出售代码生成模型方面的收入可能超过OpenAI[28] - 为应对挑战,OpenAI正在开发代号为Shallotpeat的新大语言模型,旨在修复此前在预训练过程中遇到的漏洞,公司CEO重申专注于超级智能的重要性[28] 微软AI市场接受度挑战 - 微软将AI助手Copilot整合进Windows、Edge及未来Chrome扩展的激进AI策略遭遇市场顽强抵抗,微软AI首席执行官对公众评价AI平淡无奇感到困惑,并称那些对能流畅对话并生成音视频的超级AI感到无感的人是愤世嫉俗者[31][32] - 矛盾爆发点源于Microsoft Edge Dev账号推广Copilot模式的推文收到近1000条评论且几乎全是批评,用户直接回击称完全没人要求这些AI功能,甚至恳请微软停止把这些AI垃圾塞进所有东西里,微软Windows和设备总裁关于将Windows进化为智能体操作系统的言论也遭到类似激烈抨击[34][41] - 马斯克在微软AI首席执行官的推文下评论表示支持,但用户的核心不满似乎并未被高层理解[42] Google AI技术产品发布 - Google DeepMind正式发布新一代旗舰模型Gemini 3 Pro,号称拥有最先进推理能力、世界领先多模态理解能力,支持新智能编码体验,即日起全球推出,亮点包括原生多模态支持、在LMArena排行榜登顶、推理能力创纪录、提供Deep Think深度思考模式、100万token上下文窗口及64K输出,并推出全新AI IDE Google Antigravity[42] - 在推理能力方面,Gemini 3 Pro在GPQA Diamond测试中达到91.9%,在MathArena Apex测试中达到23.4%,在人类最后的考试中拿到37.5%的博士级推理成绩,OpenAI CEO和马斯克均在X平台发文祝贺Google[42][44] - Google同期发布图像生成与编辑模型Nano Banana Pro,基于Gemini 3 Pro模型,提供更精确图像生成、更清晰多语言文本渲染、对复杂场景高保真控制,支持最高4K分辨率创作,所有生成图片均嵌入SynthID数字水印确保来源透明,已集成至Gemini应用和Google AI Studio等产品[44][46][47] AI产品市场表现与创新 - 蚂蚁集团发布的通用AI助手灵光在上线仅4天后下载量突破100万次,迅速冲上App Store国区免费榜第六及免费工具榜第一,刷新全球现象级AI产品纪录,相比之下ChatGPT上线首周下载量为60.6万,Sora2破百万用了5天,灵光主打功能是人人可手搓应用,最快30秒生成一个支持3D、音视频、地图和动画等全模态信息输出的小应用[47][48][50] - Sunday Robotics公开新款家庭机器人Memo,该机器人并非使用双腿而是通过轮式平台移动,能在开放式厨房中自主完成制作咖啡、清理餐桌、装载洗碗机等家务,其训练不依靠人工远程控制,而是通过普通人佩戴特制技能捕捉手套做家务来收集数据,再喂给ACT-1大模型,使Memo在用户家里完全自主工作[50][52][55][57][58] - 有开发者利用Gemini 3 Pro构建了第一个在iOS应用内运行的macOS克隆版本,项目已在GitHub上开源,作者称整个项目完全由Gemini 3生成,主要使用Google的AI编程工具AntiGravity和Gemini App,提示词仅为概括性功能描述[59][60][61] AI行业观点与趋势分析 - 马斯克在论坛活动上表示未来四至五年内将大型AI计算系统迁移到太空运行或将成为最具成本效益的选择,理由是基于太空中有免费太阳能与更高效辐射冷却,但英伟达CEO黄仁勋对此表示质疑,认为当前Nvidia高性能计算硬件依赖复杂冷却系统,重量占整机97%以上,难以适应太空部署,并指出需突破高带宽地面通信、自主维修机器人等关键技术瓶颈,称其为一个梦想[62][64][65][67] - 毕马威发布针对加拿大753名商业领袖的研究报告,揭示尽管全球投入数万亿美元于AI,但仅约2%的受访企业明确表示其生成式AI投资产生回报,这些企业多为年收入至少10亿美元的大型公司,57%的企业投资回报率在5%到20%之间,31%的受访者无法量化AI收益,乐观预计30%的企业一年内看到显著回报,61%的企业预计1到5年,AI采用率主要集中在IT、销售和市场营销领域[67][69] - Hugging Face首席执行官警告科技行业正处于LLM泡沫之中,预测该泡沫可能在明年破裂,但强调这不代表整个AI行业终结,对于生物学、化学、图像、音频和视频等领域的AI应用而言刚处于起步阶段,认为未来趋势将是更多定制化、专业化模型,Google CEO也提到AI投资热潮存在非理性因素,但针对特定行业的AI投资依然火热[72][74][76]
SoundHound AI Looks Unstoppable. Is It a Top AI Stock to Buy for 2026?
The Motley Fool· 2025-11-23 14:11
The company's growth is incredible, but there's a catch.Most of investors' focus on the artificial intelligence (AI) race is centered around AI infrastructure and the huge capital expenditures (capex) required to build out the computing capacity needed. Less time is spent finding smaller companies that are deploying AI for relevant purposes, and there are a few companies that have some exciting products with potentially huge opportunities.One of those is SoundHound AI (SOUN 0.62%), which continues to post q ...
Jim Cramer Wonders Whether OpenAI Will be Able to Beat Alphabet (GOOGL)
Insider Monkey· 2025-11-23 13:56
Artificial intelligence is the greatest investment opportunity of our lifetime. The time to invest in groundbreaking AI is now, and this stock is a steal! AI is eating the world—and the machines behind it are ravenous. Each ChatGPT query, each model update, each robotic breakthrough consumes massive amounts of energy. In fact, AI is already pushing global power grids to the brink. Wall Street is pouring hundreds of billions into artificial intelligence—training smarter chatbots, automating industries, and b ...
AI 镜界 — 南京人工智能生态街区在雨花台区开街,全力打造区域 AI 产业发展新引擎
扬子晚报网· 2025-11-23 13:44
项目启动与战略意义 - "AI镜界—南京人工智能生态街区"于11月23日在南京雨花台区云密城正式开街 [1] - 项目是南京抢占新一代人工智能发展制高点的关键落子 旨在深化科技创新与产业创新深度融合 [3] - 开街活动标志着南京AI产业进入生态化发展新阶段 将成为引领区域经济高质量发展的重要引擎 [10] 核心平台与机构启用 - 软件谷人工智能应用产才协同创新中心同步启用 重点培育AI与鸿蒙领域专业人才 [5] - 南一智能科技与软件谷启动南A中心产业协同发展基地 深化面向东盟地区的人工智能产业链协同 [5] - 华为人工智能产业创新中心和中兴通讯(南京)智算创新中心正式揭牌 将从技术服务、行业适配等维度助力产业升级 [8] 高校合作与项目签约 - 南京大学软件学院AI4SE创新中心、东南大学人工智能研究院(软件谷分院)等高校机构签约入驻 开展核心技术攻关与科技成果转化 [7] - 南京人工智能生态街区算力服务平台、国投智能南京项目、华设深澜机器人研发中心等一批项目完成签约 涵盖智能硬件、数据服务等领域 [7] - 国投智能计划租赁汇智城超2500㎡空间 从事纪检监察智能终端产品研发与运维服务项目 公司为国家级高新技术企业 现有员工240余人 [10] 产业生态与孵化培育 - "质能工坊"OPC创业孵化社区授牌 聚焦单人创业模式 打造独角兽企业培育平台 [8] - 跨境电商领军企业希音入驻 将为街区带来产才融合、技术协同与场景开放的多重赋能 [8] - 街区通过走访"AI模坊"智能体集散中心、运吨吨航运数据平台、浩鲸科技等机构 展示AI技术场景应用与产业生态活力 [10]
靠创始人亲自假扮AI起家,如今估值10亿美元!印度CEO公开反内卷:从不在10点前起床,也不开例会
搜狐财经· 2025-11-23 12:32
公司估值与财务表现 - 公司于今年夏天宣布估值达到10亿美元 [2] - 公司自2023年以来一直保持盈利状态,并且自2021年之后再未进行一级市场融资 [3] - 公司年度增长率维持在三位数水平 [3] 产品与服务 - 核心产品为人工智能会议助手,可自动提炼会议关键信息 [4] - 产品支持在Zoom、Google Meet、Microsoft Teams等主流平台上使用,支持超过60种语言的语音或聊天互动 [3] - 今年6月新增名为"与萤火虫对话"的交互功能,由公司与Perplexity联合打造,旨在提供实时智能辅助 [3][4] - 公司服务已覆盖全球超过2000万用户及50多万个组织,并声称覆盖了全球75%的财富500强企业 [2][4] 公司发展模式与理念 - 公司选择了一条不同于硅谷传统"高融资、高消耗"模式的发展路线,在持续盈利前提下实现高估值 [3] - 公司CEO反对"加班即忠诚"的文化,强调效率来自信任而非工时,公司100多名员工全员远程办公,跨超10个时区 [8][12] - 公司没有实体办公室,不强制例会,但团队依然完成甚至超额完成所有目标 [12] 创业历程与市场验证 - 公司联合创始人公开坦言,在2017年创业初期,其宣称的"AI转录服务"实际上是由两位创始人手工完成,他们亲自拨入会议并手写笔记 [6][13] - 通过这种"人工冒充AI"的方式,公司早期向客户收取每月100美元的费用,并参加了超过100次会议,以此验证市场需求并支付运营成本 [13][14] - 这种做法在业内引发争议,有观点认为这属于MVP验证,用人工先跑通流程证明了需求的真实性 [18][19] 行业观察 - 公司的发展故事反映了AI行业的一个常见现象:在技术未完全成熟时,先由人工在后台支持,积累数据训练模型,再逐步替换为算法 [19] - 有行业观点指出,市场最终关注的是解决方案能否有效解决问题,而非背后是否使用真AI技术 [18]
Is Global Technocracy Inevitable Or Dangerously Delusional?
ZeroHedge· 2025-11-23 12:20
Authored by Brandon Smith via Alt-Market.usThe bewildering truth behind human technological enslavement is that it is impossible without the voluntary participation of the intended slaves. People must welcome technocracy into their lives in order for it to succeed. The populace has to believe, blindly, that they cannot live without it, or that authoritarianism by algorithmic consensus is “inevitable.”For example, the average person living in a first world economy voluntarily carries a cell phone everywhere ...
抢先报名!MEET2026最新嘉宾阵容官宣,一起热聊AI
量子位· 2025-11-23 12:09
大会核心信息 - 大会主题为“共生无界,智启未来”,关注AI技术穿透产业、学科与场景边界,成为驱动社会演进的核心动能 [3] - 大会将于2025年12月10日在北京金茂万丽酒店举行 [105] - 大会将聚焦强化学习、多模态、芯片算力、AI+行业、AI出海等前沿技术与产业落地进展 [4] - 预计将吸引上千名科技从业者参与,百万观众线上围观,近百家合作媒体联合曝光 [107] 嘉宾阵容与背景 - 张亚勤:清华大学智能产业研究院院长,中国工程院院士,曾任百度公司总裁,在微软工作16年,是数字视频和AI领域世界级科学家 [12][13] - 孙茂松:清华大学人工智能研究院常务副院长,欧洲人文和自然科学院外籍院士,曾主持国家973项目等20余项科研项目 [17] - 王仲远:北京智源人工智能研究院院长,曾在快手、美团、Facebook、微软亚洲研究院任职,发表顶级学术会议及期刊论文100余篇 [21][22][23] - 王颖:百度集团副总裁,负责文库事业部、网盘事业部,2021年加入百度后全面负责百度互娱和垂类业务 [26] - 何晓冬:IEEE Fellow,京东集团高级副总裁、探索研究院副院长,发表论文200余篇,被引用6万余次,带领团队打造JoyAI大模型 [30] - 韩旭:文远知行WeRide创始人兼CEO,带领公司在全球11国超30城开展自动驾驶,公司于2024年登陆纳斯达克,2025年登陆港交所 [35][36] - Daniel Povey:小米集团首席语音科学家,IEEE Fellow,著名开源语音识别工具Kaldi的提出者和主要维护者,谷歌学术引用近52000次 [40] - 方汉:昆仑万维董事长兼CEO,拥有31年互联网从业经验,是中文Linux奠基人之一,国内最早的网络安全专家之一 [44][45] - 尤洋:潞晨科技创始人兼董事长,新加坡国立大学校长青年教授,曾获福布斯30岁以下精英榜(亚洲),高性能计算领域谷歌学术引用最高的博士毕业生 [48] - 杨帆:商汤科技联合创始人、执行董事、大装置事业群总裁,主导推动商汤多个核心业务实现规模化商业落地,并前瞻性布局AI专用计算中心 [53][54] - 万卫星:高通公司AI产品技术中国区负责人,领导团队参与多个高通移动平台多媒体项目,负责终端侧AI引擎软硬件规划及生态建设 [58][59] - 陈晓建:亚马逊云科技大中华区产品部总经理,负责云服务在大中华区的落地、产品管理及业务拓展,是企业级业务领域资深专家 [63][64] - 朱宁:上海交通大学上海高级金融学院金融学教授,曾任雷曼兄弟与野村证券高管,研究涵盖行为金融学、中国宏观经济等领域 [67][68] - 赵俊博:浙江大学百人计划研究员、博士生导师,蚂蚁集团资深技术专家,聚焦大模型、世界模型技术攻坚,参与过PyTorch早期研发 [72] - 喻友平:中关村科金总裁,曾任百度智能云副总裁,主导构建百度智能云ToB商业体系,带领团队打造“得助”大模型平台及系列智能产品 [75][76] - 刘凡平:RockAI CEO,主导并实现国内首个非Transformer架构大模型,在大模型领域首倡“群体智能”理念 [80][81] - 乔梁:太初元碁联合创始人兼首席运营官,清华大学计算机系博士,长期从事高性能计算技术与计算机体系结构研究 [86][87] - 王潜:自变量机器人创始人兼CEO,致力于研发由端到端大模型驱动的通用机器人,是国内最早发布VLA统一大模型的团队之一 [90][91] - 杜知恒:小宿科技联合创始人兼CEO,曾任家办CIO、红杉中国对冲基金创始成员,并在高瓴资本、百度等企业从事投资、战略岗位 [95][96] - 徐达峰:蚂蚁集团平台体验技术部负责人,资深前端技术专家,负责AntV/Galacean等社区产品,致力于AI驱动的前端研发范式革新 [99][100] 大会亮点与发布 - 大会将权威发布人工智能年度榜单与年度AI趋势报告 [6][102] - 人工智能年度榜单将从公司、产品、人物三大维度评选五类奖项,是AI行业最具影响力榜单之一 [103] - 年度AI趋势报告将提名正在释放巨大潜力的十大AI趋势,并进行深入分析,提名代表机构及最佳案例 [104]
图片生成仿真!这个AI让3D资产「开箱即用」,直接赋能机器人训练
量子位· 2025-11-23 12:09
技术突破与核心创新 - 提出PhysX-Anything框架,是首个面向仿真、具备物理属性的3D生成范式,仅需单张图像即可生成高质量、可直接用于仿真的3D资产[5] - 该框架能同时生成显式几何结构、关节运动以及物理参数,解决了现有方法普遍缺失密度、绝对尺度、关节约束等关键物理信息的问题[5][6] - 采用由粗到细的生成框架,通过多轮对话依次生成整体物理描述与各部件几何信息,最终解码输出六种常用格式的可仿真3D资产[8] 技术实现细节 - 提出一种新型3D表征方式,基于体素构建几何表示,在32体素网格上由视觉语言模型建模粗略几何,再由下游解码器细化,实现超过193倍的token压缩比[10][27] - 设计可控的flow transformer模块,将粗体素表示作为扩散模型的引导信号,以控制细粒度体素几何的生成[14] - 使用最近邻算法将重建网格划分为部件级组件,结合全局结构信息与细粒度体素几何,生成用于仿真的URDF、XML及部件级网格[15] 性能评估与比较 - 在PhysX-Mobility数据集上的评估显示,PhysX-Anything在几何与物理两类指标上均取得最优表现,其绝对尺度误差大幅降低至0.30[18][19] - 在基于视觉语言模型的评估中,PhysX-Anything在几何与运动学参数两项指标上均显著优于所有对比方法,得分高达0.94[20][21] - 人类志愿者评估结果显示,PhysX-Anything的生成结构在几何与物理属性都获得最高分,几何得分为0.98,物理属性多项得分在0.84至0.98之间[22] 应用潜力与行业影响 - 生成的仿真就绪3D资产可以直接导入模拟器,并用于接触丰富的机器人策略学习,展示了在推动多种下游机器人与具身智能应用方面的巨大潜力[25][26] - 该框架有望为3D视觉、具身智能与机器人研究开辟新的方向,推动从“视觉建模”到“物理建模”的范式转变[28] - 团队构建了覆盖47个常见真实类别、具备丰富物理标注的PhysX-Mobility数据集,大幅拓展了现有物理3D资产的多样性[27]