Workflow
3D生成
icon
搜索文档
首次证实RL能让3D模型学会推理,复杂文本描述下生成质量跃升
36氪· 2026-02-27 10:33
研究背景与核心贡献 - 研究团队提出了首个将强化学习(RL)系统性引入文本到3D自回归生成的方法,该工作已被CVPR 2026接收[1] - 核心贡献在于为3D生成领域建立了一套系统性研究框架,包括奖励设计、算法选择、评测基准和训练范式,而非简单移植2D经验[1][17] 3D生成的核心挑战与问题拆解 - 3D生成比2D更难,核心矛盾在于3D对象没有“标准视角”,需要从多视角评估几何一致性、纹理质感与语义对齐[3][5] - 3D生成模型在自回归解码时存在长程依赖,导致奖励信号稀疏性问题比2D更突出[5] - 研究团队将问题拆解为四个维度进行系统研究:奖励模型设计、RL算法选择、评测基准构建以及训练范式升级[5] 奖励模型设计与核心发现 - 奖励模型的选择至关重要,研究发现人类偏好分数(HPS v2.1)是效果最强的单一奖励,直接决定了模型生成质量的下限[6] - 语义对齐(CLIP Score)和美学质量单独使用提升有限,但叠加在人类偏好之上可形成互补,持续提升效果[6] - 通用大模型(如Qwen2.5-VL)在评估3D一致性上比专用模型更鲁棒,因其对空间关系有更广泛的理解[6] - 实践意义在于,应以人类偏好为核心,并叠加几何一致性与语义对齐的多维度奖励集成,而非寻找“万能奖励”[6] RL算法对比与关键选择 - 研究系统对比了GRPO、DAPO、GSPO三类RL算法[8] - 核心洞察是3D生成天然适合Token级优化,序列级操作收益有限[7][12] - Token级Loss平均化(DAPO的核心改进)带来最显著提升,因为3D物体的全局结构差异体现在每个token中[12] - 序列级操作(GSPO思路)在3D生成上收益极小,因为关键信号被淹没在大量中性token中[12] - 动态采样(Dynamic Sampling)是一项低成本高收益的技巧,能显著稳定训练曲线[12] - 完全去掉KL惩罚会导致性能下降,KL散度在3D生成中仍起到重要的正则化作用[12] 训练数据与过拟合 - 训练数据翻倍是有效的,但迭代轮数翻三倍会导致过拟合,模型开始在偏好特征上死记硬背,对少见物体类别的泛化能力下降[8] - 这表明在3D生成的RL训练中,数据多样性比训练时长更重要[8] 评测基准的局限性与新基准提出 - 现有3D生成基准(如ShapeNet、Toys4K)主要关注对象多样性,无法衡量模型在复杂文本描述下的隐式推理能力[9][10] - 研究团队提出了MME-3DR基准,包含249个精心筛选的复杂3D对象,评测维度覆盖多视角几何一致性、语义细节对齐、纹理真实感三个层次[10] - MME-3DR专门用于衡量模型在推理密集场景下的生成表现,能有效区分生成能力与泛化推理能力[10] 分层训练范式:Hi-GRPO - 核心洞察是3D生成内在是分层的(先粗后细),RL范式也应分层设计[14] - 研究观察到模型在早期迭代先学会全局几何形状,后期才细化纹理细节,这与人类感知方式一致[16] - 受此启发,研究提出了Hi-GRPO(层次化GRPO)框架,分为粗粒度阶段和细粒度阶段[16] - 粗粒度阶段:通过Chain-of-Thought生成高层语义推理,产出粗糙几何形状,奖励聚焦几何一致性与整体结构[16] - 细粒度阶段:基于粗粒度输出生成低层视觉推理,产出精细纹理细节,奖励聚焦外观质量与部件完整性[16] - 两阶段使用独立的奖励集成,避免了几何奖励与纹理奖励互相干扰[16] 最终模型性能与量化成果 - 最终模型AR3D-R1在MME-3DR和Toys4K两个基准上均超越了Trellis等现有SOTA方法[13][18] - CLIP分数从22.7提升至29.3,提升幅度约29%,语义对齐能力大幅提升[18] - 核分布距离(Kernel Distance)下降约37%,几何分布更接近真实3D物体[18] - 推理能力的提升在复杂文本描述场景下尤为突出[18] 总结与行业意义 - 研究结论是:RL已准备好用于文本到3D生成,但前提是需要为3D任务量身定制奖励、算法和训练范式,不能简单照搬2D经验[17] - 随着RL技术在语言和图像领域持续成熟,这套方法论的价值将超越3D生成本身,为更广泛的多模态生成任务的RL化提供可复用的思路[17] - 相关论文和代码已开源[20][21]
3D生成「ImageNet」来了!腾讯混元开源HY3D-Bench
量子位· 2026-02-06 18:10
行业核心痛点与解决方案 - 3D生成技术虽已实现“一眼惊艳”的可用性,但行业仍受数据质量参差、评估标准缺失、长尾类别覆盖不足三大痛点困扰[3] - 早期基准数据集如ShapeNet存在类别覆盖失衡、几何结构简单、数据量不足等根本缺陷,限制了模型的泛化能力[4] - 尽管Objaverse等大规模数据集(数百万模型)为新一代模型铺平道路,但原始数据预处理(如生成渲染图像、水密网格)需要专业技能和巨大计算资源,成为普惠化研究的“高墙”[4] HY3D-Bench生态系统核心构成 - 公司开源了一套革命性的3D内容生成生态系统HY3D-Bench,旨在通过提供高质量、标准化数据降低3D生成模型的训练门槛[3] - 系统包含三大核心数据部分:25.2万个高质量手工建模3D资产、24万个3D部件分解结果、以及12.5万个AIGC合成样本[3][13][19] - 为补充学术数据集多样性不足,创新性地引入AIGC驱动合成管道,利用LLM生成语义描述、扩散模型生成图像,并通过HY3D-3.0引擎转化为高保真3D资产,均匀覆盖了1252个类别[3] 手工建模数据处理流水线 - 公司设计了一套自动化数据清洗流水线,从Objaverse等原始库中筛选并处理了25.2万个高质量3D资产[3][6] - 流水线通过基于多边形数量、UV映射质量等标准的初步筛选剔除低质资产,后经水密化处理、多视角渲染(提供正交与透视投影图像)及表面点采样,直接输出包含水密网格、渲染图像和点云的标准数据[6] - 该“即用型”数据集彻底解决了传统流程中计算资源消耗大、技术门槛高的痛点,使研究者无需额外操作即可投入模型训练[6] 部件级分解数据处理 - 部件数据处理旨在将整体静态网格智能分解为语义一致的部件集合,为部件感知生成任务奠定基础[8] - 流程基于拓扑连通性分析,通过连通分量分析进行初始分割,再通过面积阈值合并琐碎零件,确保每个资产包含2-50个合理部件[8] - 此方法相当于将3D生成从“整块雕刻”升级为“模块化拼装”,直接支持可控部件生成[8] AIGC合成数据生成 - 为解决长尾数据稀缺并支持具身智能仿真等领域需求,团队打造了三步生成管线进行数据合成[10] - 管线首先收集常见商品类别,用LLM生成详细产品描述;然后借助文生图模型输出干净背景的RGB图像;最后调用HY3D-3.0模型将图像转为带有材质的高精3D资产[12] 实验成果与模型表现 - 基于开源数据集训练的轻量级模型Hunyuan3D-2.1-Small(参数量832M)在生成质量和推理速度上均优于传统方法[3] - 具体数据:Hunyuan3D-2.1-Small在4096 Token长度下,Uni3D-l得分为0.3606,ULIP-I得分为0.2424[13] - 相比优化方法(如SDS),推理速度提升5倍,且避免了“多脸怪”(Janus Problem)问题[13] 数据集分布详情 - 手工建模数据大类分布广泛,其中占比较高的类别包括:家居电器(12.70%)、服装内衣(10.54%)、食品饮料及健康补充剂(7.43%)、计算机与办公(6.71%)、玩具与乐器(5.83%)等[19] - 合成数据同样覆盖了1252个类别,平衡了常见类别和长尾类别的数据分布差异[3][19] 行业影响与未来计划 - HY3D-Bench通过构建统一的数据基础,以开源方式降低技术门槛,让研究者无需重复“造轮子”,可直接聚焦模型创新与应用探索[19] - 该数据集为机器人仿真、虚拟现实等下游应用提供了坚实的数据基石[3] - 未来,公司计划扩展更多样的3D资产与多任务适配能力,进一步探索数据驱动方法在3D生成中的潜力[20]
3D版Nano Banana来了!AI修模成为现实,3D生成进入可编辑时代
量子位· 2026-01-27 11:53
行业趋势与市场动态 - 2026年初,AI领域焦点从大模型、生图、生视频转向更具挑战性的3D生成领域[1] - 2025年1月,Google收购3D生成公司Common Sense Machines并与Epic Games合作,引发市场对3D版“Nano Banana”的猜测[1] - 3D生成行业产品化起步较晚、生态分散、工具链长,多数团队仍停留在“随机抽卡”阶段[19] 公司产品发布与核心功能 - 全球领先的3D生成平台Hyper3D发布Rodin Gen-2 Edit,推出基于自然语言的3D模型局部编辑功能[3] - 该产品是业内首个将“3D生成”与“3D编辑”整合为完整工作流的商用产品,标志着3D生成进入可编辑时代[3] - 产品支持两种核心操作路径:在平台内文/图生3D后直接对结果进行局部修改;或导入任意现有第三方模型进行编辑[4][5] - 操作逻辑简单直接:框选需要修改的区域并输入文字指令即可完成局部调整,修改区域与原模型衔接自然[4][9] - 编辑功能已成为平台级基础设施,支持任何第三方3D资产导入编辑,而非单点功能[9][11] 技术路径与产品意义 - 产品意义在于首次将3D从“结果展示”推进到“可迭代工作流”,补上了AI工作流的关键一环[14] - 生成式AI的进化路径清晰:先生成 → 再可控 → 最终可编辑[14] - 该产品通过“选中局部+文本指令”的方式,将修改需求转化为明确路径,避免了反复推倒重来的“抽卡”模式[20] - 产品编辑功能与强大的“可控性”体系相辅相成,为专业用户提供了一套完整的工作流[21] 技术积累与核心能力 - 公司选择更艰难的原生3D路线,而非行业早期普遍的“2D升维3D”路径,以解决产业应用的致命问题[24] - 2024年,公司发布原生3D大模型框架CLAY,并基于此推出全球首个原生3D大模型产品Hyper3D.AI Rodin[24] - 公司从Rodin第一个版本就引入3D ControlNet,并在每个版本更新相关能力[24] - 随着Rodin Gen-2上线,公司推出了业内唯一的递归分件技术——BANG[24] - 公司核心技术体系包括:3D ControlNet控制、BANG分件、Smart Low-poly智能低模优化、Text-to-Edit基于自然语言的定向修改[25] - 公司获得SIGGRAPH 2025最佳论文的CAST技术,指向从单图生成包含物体、关系和物理约束的完整3D场景的未来方向[26] 商业化与生态建设 - 产品已打通Blender、Maya、Unity等主流工作流[23] - 与国内头部大型UGC游戏的合作验证了其在移动端大规模用户场景下的稳定性[23] - 与拓竹的合作使生成模型可直接进入3D打印流程[23] - 仅2025年,公司就连续完成由顶级美元VC和战略产业方投资的两轮融资[27] - 新功能已在Hyper3D平台上线,支持用户免费体验[28]
「商汤系」跑出一堆独角兽,可闫俊杰无法复制
36氪· 2025-12-26 08:01
文章核心观点 - AI领域出现了一个被称为“商汤系”的创业派系,其成员多为前商汤科技的核心技术或业务骨干,这些创业者创办的公司正成为各AI细分赛道的头部力量,并受到资本市场的热烈追捧[4] - “商汤系”创业者的成功,源于他们兼具顶尖的技术研发能力与宝贵的产品商业化落地经验,这种复合背景在AI创业中构成了稀缺性[12][15][17] - MiniMax作为“商汤系”的标杆企业,其成功的商业化路径和IPO进程,为整个派系赢得了市场信任和“滤镜效应”,带动了资本对具有类似背景创业者的投资热情[19][22] “商汤系”的代表性公司及表现 - **MiniMax (上海稀宇科技)**:创始人闫俊杰为前商汤科技副总裁、研究院副院长及智慧城市事业群CTO[6] 公司已通过港交所聆讯,预计最早2026年1月上市[7] 2025年前9个月收入达5343.7万美元,已超过2024年全年总收入3052.3万美元,其C端产品已接近盈亏平衡[7] 2025年7月完成近3亿美元融资,投后估值约300亿元[11] - **Vivix AI**:创始人刘宇为前商汤执行研究总监、AIGC业务总经理[10] 公司成立仅10个月,在模型研发早期阶段估值即飙升至13.2亿美元,成为最快成长为独角兽的AI公司之一[10] - **VAST**:创始人宋亚宸为前商汤CEO办公室战略组成员、AI动画/游戏负责人,也是MiniMax早期联合创始人[11] 公司成立两年完成三轮融资,每轮金额均达数亿元人民币,截至2025年8月年度经常性收入达1200万美元,估值稳居全球AI 3D模型创业公司之首[11][24] - **其他商汤系公司**:包括AI Infra公司“无问芯穹”(CTO颜深根)、图像/视频生成公司“右脑科技”(联合创始人史杰)、定制化AI Agent公司“言图智能”(创始人罗予晨)、AI陪伴机器人公司“灵宇宙”(联合创始人徐持衡)等,覆盖大模型、3D生成、具身智能等多个主流AI赛道[11] “商汤系”创业者的核心优势(稀缺性) - **技术积累深厚**:创业者通常拥有出色的技术成绩(如竞赛、论文、高学历),并受益于商汤在NLP、CV等领域的技术沉淀和成熟的工程体系,这些经验可快速复用于大模型领域[15] 例如刘宇在商汤曾带领百人基础模型团队并手握4000多张GPU,闫俊杰曾带领700余人团队将面部识别算法做到行业第一[15] - **具备产品与商业化经验**:多数创业者不仅懂技术,还有过成功的产品搭建或商业化落地实绩[17] 例如刘宇在商汤内部负责的AIGC产品“秒画”,上线9天后用户数突破300万,日活跃用户超过53万,证明了其技术落地能力[17] - **复合背景形成壁垒**:在AI创业领域,同时拥有顶尖算法能力和完整项目产品经验的人才非常稀缺,据评估在视觉领域此类人才不超过5个,而刘宇是其中之一[15] 这种“稀缺性”是吸引资本的关键[14] MiniMax的成功路径与行业影响 - **前瞻性布局**:在全行业聚焦模型参数的2023年,公司已推出在海外表现亮眼的AI应用Talkie;2024年1月率先推出国内首款MoE大模型abab 6;2024年第二季度重点布局多模态,其语音模型Speech系列和视频生成模型“海螺AI”在口碑和用户数上均位于第一梯队[20] - **多元产品矩阵与造血能力**:公司采取模型与ToC产品并行的商业化布局,丰富的产品矩阵及其中具备造血能力的单品,使其在行业竞争(如DeepSeek带来的洗牌)中受影响最小[21] - **为“商汤系”建立市场信誉**:MiniMax的快速发展和IPO进程,使其创始人闫俊杰的背景成为成功标签,让“商汤系”整体成为受资本追捧的标的,间接推动了后续如刘宇、宋亚宸等商汤背景创业者的融资[22][23][24] 对“商汤系”光环的理性审视 - **警惕估值泡沫**:有AI投资人指出,部分项目仅因创始人的“商汤系”标签,在产品数据尚未验证的情况下估值就飙升至与大模型厂商同档,这违反了客观规律[25] 类比2024年资本追逐“字节系”创业者,但最终能匹配估值成功的项目寥寥无几[25] - **成功无法简单归因**:企业的成功是多重因素共同作用的结果,无法仅归因于创始人背景[26] 例如闫俊杰在播客中提到,MiniMax的成功因素包括早期的战略取舍、对scaling law的认知以及独特的组织管理模式[26] 有从业者评论称“创业者可以复制履历,但没法复制闫俊杰”[27]
Gemini 3+Nano Banana Pro+3D 生成+手势控制=?藏师傅教你炫酷展示运动成果
歸藏的AI工具箱· 2025-12-05 20:02
文章核心观点 - 文章介绍了一套利用AI工具(特别是Nano Banana Pro和Gemini)为户外运动爱好者(徒步、滑雪、骑行、露营)生成个性化Q版数据展示海报,并将其进一步转化为可交互的3D模型展示网页的完整流程[3][4][6][7][8] 户外运动Q版海报生成方法 - 核心方法:在支持Nano Banana Pro的平台(如Gemini APP、AI Studio等)上传运动打卡照及数据截图,并输入特定提示词即可生成海报[8] - 滑雪海报提示词要点:任务为海报设计与滑雪轨迹留念,需联网查找雪场信息;画面主体为奶油蛋糕般的雪山切片模型,需刻画S型滑行轨迹;必须将用户上传的雪板/头盔图片转化为Q版微缩模型作为视觉焦点;底部采用冰雪酷炫风格排版,标题示例为“[雪场名称] 粉雪日”[10][11][12][13] - 骑行海报提示词要点:任务为海报设计与骑行成就记录,需联网查找地标建筑特征和天气;画面中心为漂浮的3D地形切片及地标微缩模型,地形上需呈现蜿蜒的柏油公路;必须将用户上传的自行车图片转化为Q版微缩模型置于路线终点;底部采用极简风格数据可视化,可包含海拔爬升剖面图[16][17][18][19] - 徒步海报提示词要点:任务为海报设计与户外徒步纪念,需联网查找地标建筑特征和天气;主体为地标建筑或景观的轴侧微缩模型,需包含蜿蜒的徒步小径;必须将用户上传的登山包/登山鞋/冲锋衣图片转化为Q版微缩人物模型置于山峰高点;底部采用户外杂志风格排版,标题示例为“[山峰名称] 登顶记录”[21][22][23] - 露营海报提示词要点:任务为海报设计与精致露营记录,需联网查找地点植被、地标及天气;主体为地标或景观的轴侧微缩模型;必须将用户上传的帐篷/天幕图片转化为Q版微缩模型置于场景中心,并还原颜色与品牌特征;氛围为夜景模式,帐篷有内透光效;底部采用日系杂志风格排版,标题示例为“[营地名称] 露营记”[25][26][27][28] 从海报到交互式3D模型的进阶应用 - 3D模型生成:使用tripo3d.ai或hyper3d.ai等工具,上传生成的Q版海报图片即可一键生成3D模型,下载时需选择GLB格式[31][33] - 3D模型展示网页构建:在AI Studio的“Build”模式下,用自然语言向Gemini 3 Pro描述需求(如上传GLB模型并渲染、展示运动数据截图卡片、采用伪3D拟物化设计风格),即可自动生成功能网页[40][41] - 手势控制功能添加:在已构建的网页基础上,通过向Gemini描述增加手势控制的需求(如手掌左滑停止旋转、右滑继续旋转、捏手指缩小、张开手掌放大),即可一次性实现该交互功能[7][41] 所用工具与技术的评价 - AI Studio被评价为“Vibe Coding神器”,内置各种谷歌模型和基础服务API,除个别模型外无需付费,编程成功率高[41] - 整套流程展示了利用现有AI工具(Nano Banana Pro用于图像生成,Gemini用于代码生成)快速构建个性化、可视化数字产品的可能性[8][40][41]
从游戏工厂到空间智能仿真:混元 3D 为何是腾讯 AI 的“侧翼突围”
AI前线· 2025-11-27 12:02
公司AI战略与产品发布 - 混元3D创作引擎发布国际版,API上线腾讯云国际站,同时开源版全球下载量突破300万次[2] - 公司AI战略路线基于业务需求端、技术端和生态端的复合能力,形成"业务—技术—生态"三位一体的独特优势[3][4] - 公司AI投入重点不是堆规模而是提效率,AI被定义为贯穿内部业务的基础能力,第三季度营收同比增长15%[33] 3D生成技术在游戏行业的应用 - 传统3D制作成本高昂,美术成本占游戏研发50%–80%,一个3D角色模型成本在几万元到近百万元,顶尖3D游戏投入高达数亿美元[6] - 混元3D通过两条技术主线提升效率:面向3D资产提升批量产出效率,面向世界模型解决场景级搭建问题[8] - 在《元梦之星》案例中,玩家输入描述后几秒钟即可生成可编辑3D资产,道具制作时间从2天缩短至0.2天,效率提升10倍[9][12] - 在《轻游梦工坊》中,新手可在一周左右完成游戏开发,约四成参赛者无游戏开发经验却完成了优秀作品[10] 3D生成技术面临的挑战与突破方向 - 技术上面临质量、可控性和速度三座大山,目前真正达到要求的内容比例不足10%[30][35] - 核心挑战包括组件化生成、低多边形拓扑平衡等问题,影响游戏工业化管线对AI产出的接纳[14] - 数据成为行业瓶颈,全球可用3D数据仅千万量级,远不及文本百亿级规模,限制模型泛化能力[38] - 公司正从数据层面、模型架构层面和交互面三个层面进行突破,包括扩充高质量数据和支持多模态输入等[42] 跨行业应用与商业化进展 - 超过150家企业通过腾讯云接入混元3D模型,应用横跨游戏制作、电商展示、影视特效等行业[25] - 3D打印领域率先跑通商业闭环,拓竹MakerWorld平台月调用量预计突破10万次,创想三维可实现5分钟生成Q版手办[26] - 电商场景中家居商家实现约35%的点击率提升,教育文博领域制作成本降至传统流程十分之一[29] - 在自动驾驶和具身智能领域,混元3D承担补齐仿真场景短缺的角色,被多家厂商用于补充真实道路采集[30] 技术竞争与生态建设 - 世界模型竞争白热化,Google DeepMind、Meta、OpenAI、NVIDIA、特斯拉等巨头都在推进相关技术[17][18] - 公司通过开源策略构建生态,开源版下载量超过300万次,社区反馈推动技术改进[20][22] - 混元图像3.0在LMArena全球26个模型盲测中登顶,获得最佳综合文生图模型与最佳开源模型两项第一[31] - 公司定位Model as a Service为核心竞争力,不急于求成,注重技术领先性巩固后的自然商业化平衡点[39]
图片生成仿真!这个AI让3D资产「开箱即用」,直接赋能机器人训练
量子位· 2025-11-23 12:09
技术突破与核心创新 - 提出PhysX-Anything框架,是首个面向仿真、具备物理属性的3D生成范式,仅需单张图像即可生成高质量、可直接用于仿真的3D资产[5] - 该框架能同时生成显式几何结构、关节运动以及物理参数,解决了现有方法普遍缺失密度、绝对尺度、关节约束等关键物理信息的问题[5][6] - 采用由粗到细的生成框架,通过多轮对话依次生成整体物理描述与各部件几何信息,最终解码输出六种常用格式的可仿真3D资产[8] 技术实现细节 - 提出一种新型3D表征方式,基于体素构建几何表示,在32体素网格上由视觉语言模型建模粗略几何,再由下游解码器细化,实现超过193倍的token压缩比[10][27] - 设计可控的flow transformer模块,将粗体素表示作为扩散模型的引导信号,以控制细粒度体素几何的生成[14] - 使用最近邻算法将重建网格划分为部件级组件,结合全局结构信息与细粒度体素几何,生成用于仿真的URDF、XML及部件级网格[15] 性能评估与比较 - 在PhysX-Mobility数据集上的评估显示,PhysX-Anything在几何与物理两类指标上均取得最优表现,其绝对尺度误差大幅降低至0.30[18][19] - 在基于视觉语言模型的评估中,PhysX-Anything在几何与运动学参数两项指标上均显著优于所有对比方法,得分高达0.94[20][21] - 人类志愿者评估结果显示,PhysX-Anything的生成结构在几何与物理属性都获得最高分,几何得分为0.98,物理属性多项得分在0.84至0.98之间[22] 应用潜力与行业影响 - 生成的仿真就绪3D资产可以直接导入模拟器,并用于接触丰富的机器人策略学习,展示了在推动多种下游机器人与具身智能应用方面的巨大潜力[25][26] - 该框架有望为3D视觉、具身智能与机器人研究开辟新的方向,推动从“视觉建模”到“物理建模”的范式转变[28] - 团队构建了覆盖47个常见真实类别、具备丰富物理标注的PhysX-Mobility数据集,大幅拓展了现有物理3D资产的多样性[27]
95 后团队做 3D 大模型,拿下头部游戏重磅合作,正在定义 3D 生成的新规则
Founder Park· 2025-11-18 19:06
公司技术与产品进展 - 公司主攻3D生成方向,其Rodin模型支持的Hyper3D.AI在移动端游戏环境中实现3D生成技术大规模即时应用[2] - 公司推出全新升级的新一代模型Rodin Gen-2,以全球最大规模的百万级别数据与百亿级参数实现生成质量的质的飞跃[6] - Rodin Gen-2支持百万级面数高精度生成,并能通过法线烘焙让低面数模型呈现高清纹理效果,同时兼容更高分辨率材质输出[6] - 模型生成更平滑、干净的几何表面,大幅减少后期修复成本,提升生产可用性[6][8] - Rodin Gen-2引入"Bang to Parts"功能,可将生成的3D模型按原有结构分件爆炸开来,支持局部重建和编辑[9][12][13] - 公司独有的3D ControlNet实现边框盒控制、体素控制、点云控制,降低生成抽卡率,提升可控性[20][25] - 模型矩阵提供四种生成模式:Zero(低面数优化)、Focal(高细节表现)、Speedy(快速预览)、Default(平衡细节与平滑度)[24] - Hyper3D.AI平均每9天上线一个新功能,部分重做功能实现用户对3D生成模型的局部编辑[21] - 在手机硬件端,公司将整体生成速度压缩到10秒以内,实现与生图相近的速度[24] 行业趋势与竞争格局 - 3D生成迎来大年,大厂开始布局:Roblox开源CUBE 3D并开放Mesh Generator API,字节发布基于DIT架构的3D大模型Seed3D 1.0,腾讯混元发布3D v2.5版本模型将参数量级从十亿提升到100亿[6] - 3D生成领域出现与文字/图像/视频生成领域一样的规律,实现"Understanding by Generation"[14] - 消费级3D打印机快速增长为3D内容增加C端可感知渠道,公司成为头部3D打印厂商的首批合作企业[27] - 3D形态在长期内仍是"藏在后面的形态",而非被广泛C端直接消费的内容,但作为标准化中间载体在空间一致性控制上具有不可替代优势[28][29] - 3D生成是支撑下一代智能应用落地的核心拼图与底层基座,对数字内容创作、工业设计、AR/VR交互、具身智能等领域至关重要[29] 研发成果与学术认可 - 公司研究论文《CLAY:用于创建高质量3D资产的可控大规模生成模型》和另一项研究同时入选计算机图形学顶级会议SIGGRAPH的最佳论文提名[2] - 在SIGGRAPH 2025上,公司凭借单图生成3D场景生成的研究CAST获得最佳论文(Best Paper),其BANG研究获选"Top 10技术论文速览"[14][15] - CLAY是完全基于原生3D数据训练的大模型,用远低于图像领域的3D原生数据规模和参数实现Scaling Law,首次在3D生成领域出现"涌现"现象[3] - BANG功能基于跨领域哲学思考实现,将大语言模型底层思维迁移至3D领域,使模型能理解物件内部部件之间的关系[13][18] 商业化与市场应用 - 公司完成由蓝驰创投领投的数千万美元融资,跟投方包括字节跳动和红杉中国种子基金等老股东[2] - Hyper3D.AI在某款大型UGC游戏中支持千万人实时在线生成萌宠或其他物品,对游戏产业而言很罕见[26] - 公司重点打通对不同领域的服务,以核心模型算法实现软件的SaaS化,横向拓展游戏、影视建模及更多工业场景[28] - 团队风格以市场需求为第一原则,将行业前沿技术与市场需求耦合,确保生成的3D模型在质量和使用习惯上符合生产方式[19][28]
智能早报丨字节跳动推出3D生成大模型;美法官承认使用人工智能导致法院裁决出错
观察者网· 2025-10-24 10:00
字节跳动3D生成技术进展 - 字节跳动Seed团队推出3D生成大模型Seed3D 1.0,实现从单张图像到高质量仿真级3D模型的端到端生成 [1] - 该模型基于创新的Diffusion Transformer架构,通过大规模数据训练完成,可生成包含精细几何、真实纹理和基于物理渲染材质的完整3D模型 [1] 快手AI编程产品发布 - 快手StreamLake正式推出“工具+模型+平台”三位一体的AI编程产品矩阵,包括智能开发工具CodeFlicker、多个自研大模型KAT-Coder以及大模型平台快手万擎 [2] - 其中KAT-Coder-Pro V1在SWE-bench Verified测试中以73.4%的解决率超越GPT-5与Claude Sonnet 4 [2] - KAT-Coder-Air V1版本将面向所有用户免费使用 [2] 流媒体行业潜在并购活动 - 苹果正考虑收购流媒体巨头华纳兄弟,以扩大Apple TV的影视阵容,亚马逊、派拉蒙等巨头也在积极参与竞标 [3] - 华纳兄弟CEO已向公司高层汇报相关计划,公司此前拒绝了派拉蒙子公司天空之舞的两次报价,理由是出价过低 [3] - 华纳兄弟将在数日内要求有意竞购的企业签署保密协议,以便在竞价战正式打响前分享敏感业务数据 [3] 人工智能在司法领域的应用影响 - 两名联邦法官承认,被批评“漏洞百出”的法院命令是工作人员使用人工智能协助起草的 [4] - 这两起案件的裁决在发布前并未经过各自法庭的常规审查程序,两位法官表示已采取措施改进裁决的审查方式 [4] 半导体供应链对汽车行业的影响 - 由于芯片供应形势进一步恶化,德国经济部召开紧急危机会议,安世半导体已连续数天减少或暂停了部分半导体的供货 [5] - 业内人士指出若情况持续恶化,10至20天内整个汽车产业供应链都将受到冲击,芯片短缺可能持续数月,大众汽车已被迫暂停沃尔夫斯堡工厂的生产 [5] - 安世半导体位于中国广东东莞的封测工厂是其规模最大的封装测试工厂,承担了公司全球约70%的封装任务 [5] - 欧洲汽车制造商协会警告,没有安世半导体的芯片,欧洲汽车供应商就无法生产所需零部件,最终可能导致停产 [5]
10.23犀牛财经晚报:权益基金发行又见“日光基” 京东旗下公司已获香港保险经纪牌照
犀牛财经· 2025-10-23 18:25
资产管理行业动态 - 权益基金发行市场显著回暖,9月以来已有16只基金“一日售罄”,华泰柏瑞盈泰稳健混合FOF单日募集金额或超50亿元 [1] - 银行理财市场存续规模达32.13万亿元,同比增长9.42%,理财公司产品规模占比高达91.13% [1] - 北京证监局对北京阳光天泓资产管理有限公司采取责令改正监管措施,因其未按基金合同约定进行信息披露 [3] 科技与互联网行业动态 - 字节跳动Seed团队推出3D生成大模型Seed3D 1.0,实现从单张图像到高质量3D模型的端到端生成 [2] - 京东旗下公司Jingda HK Trading Co., Limited获香港保险经纪牌照,并更名为京东保险顾问(香港)有限公司 [1] - 无人配送企业新石器完成超5亿美元Pre-IPO轮融资,腾讯、高成资本等参与投资 [7] 公司资本运作与融资 - 星河动力启动IPO辅导,拟于科创板或创业板上市,该公司已为27家客户将85颗商业卫星送入轨道 [7] - 信达证券获证监会批复,可向专业投资者公开发行不超过100亿元科技创新公司债券 [7] - 宇树科技完成工商变更,公司名称由“杭州宇树科技股份有限公司”变更为“宇树科技股份有限公司”,正处于IPO辅导期 [5] 公司重大项目与投资 - 精工钢构签约沙特奇迪亚文化艺术中心项目分包合同,金额约12.3亿元,占公司最近一期营业收入的6.7% [8] - 川发龙蟒子公司拟投资3.66亿元建设10万吨/年磷酸二氢锂项目 [9] - 万达出售广州增城万达广场,大连万达商业管理集团退出股东行列,由北京嘉君科技发展有限公司全资持股 [6] 公司股权与经营风险 - 绿地控股集团新增一则被执行人信息,执行标的1.6亿元,该公司现存23条被执行人信息,被执行总金额超56亿元 [3] - 安世半导体(中国)有限公司发布声明,强调其中国实体合法合规独立运营,生产经营正有序推进,以应对荷兰安世半导体现任管理层的质疑 [2] 上市公司三季度业绩 - 高铁电气前三季度净利润3632.95万元,同比增长54.32%,第三季度净利润791.56万元,同比增长242.35% [10] - 华绿生物前三季度净利润1633.35万元,同比增长146.55%,第三季度净利润7002.82万元,同比增长619.37% [11] - 北方导航前三季度净利润1.25亿元,同比扭亏为盈,营业收入24.68亿元,同比增长210.01% [12][13] - 浙江华业前三季度净利润1.81亿元,同比增长143.68%,第三季度净利润1.33亿元,同比大增350.62% [15] - 汇川技术前三季度净利润42.54亿元,同比增长26.84%,营业收入316.63亿元,同比增长24.67% [16] - 移远通信前三季度净利润7.33亿元,同比增长105.65%,营业收入178.77亿元,同比增长34.96% [20] - 洁雅股份前三季度净利润6790.31万元,同比增长95.78%,第三季度净利润3531.94万元,同比大增336.33% [17] - 飞天诚信前三季度净利润1038.13万元,同比增长146.05%,第三季度净利润432万元,同比大增167% [19] - 世纪瑞尔前三季度净利润4163.93万元,同比增长27.23%,但第三季度净利润11.02万元,同比大幅下降99.30% [14] - 宝丽迪前三季度净利润1.06亿元,同比增长31.25% [18] 证券市场表现 - A股市场探底回升,沪指与深成指均上涨0.22%,创业板指上涨0.09%,沪深两市成交额1.64万亿元 [21] - 深圳本地股与煤炭板块领涨,锂矿概念股午后走强,量子科技概念尾盘活跃,工程机械板块走弱 [21]