模态统一

搜索文档
阿里通义千问推出多模态统一理解与生成模型Qwen VLo
快讯· 2025-06-27 23:30
阿里通义千问推出多模态模型 - 公司于6月27日发布Qwen VL多模态模型 该模型具备统一理解与生成能力 [1]
小鹏关于自己VLA路线的一些QA
理想TOP2· 2025-05-09 22:30
云端大模型蒸馏技术路线 - 公司采用云端72B参数VLA大模型蒸馏到车端小模型的技术路线 相比直接训练车端小模型具有更高上限 [1] - 优势1:规模效应更强 云端大模型数据量更大 参数利用率更高 涌现效应更显著 蒸馏后小模型表现更优 [1] - 优势2:解决多模态困境 大模型能统一处理驾驶员不同决策路径 避免数据量增大导致的模态坍塌问题 [1][2] - 优势3:强化学习效果更佳 云端大模型后训练能力更强 蒸馏结果优于车端小模型直接训练 [2] 车端VLA部署必要性 - VLA必须部署在车端 云端方案存在300毫秒以上延迟风险 地库/高速等场景网络不稳定可能导致严重安全事故 [3] - 云端VLA仅适用于无实时性要求的脱困场景(如L4靠边停车) 允许2-3秒延迟 [3] - 本地VLA体系具备全球化适用性 不受海外网络条件限制 [3] 车端芯片核心价值 - 自研芯片是AI企业模型落地的分水岭 特斯拉/苹果/华为/小米均布局芯片领域 [4] - 公司研发图灵芯片 算力达主流车端芯片3倍 通过芯片-模型联合设计实现协同效果最大化 [4] - 芯片算力提升需配合模型蒸馏/剪枝/量化等软件优化 全栈自研才能实现全链路效能突破 [4] 轻雷达+重算力方案优势 - 去除激光雷达节省20%感知算力 视觉响应速度达激光雷达2倍 端到端延迟减半 [5] - 视觉处理帧率达行业激光雷达方案12倍 城市辅助驾驶安全性显著提升 [5] - 自研芯片算力为行业Pro车型4-5倍 配合720亿参数云端大模型实现系统上限突破 [5] - 800万像素鹰眼视觉摄像头+Lofic技术 在夜间/逆光/雨雪等场景超越人眼识别能力 [5]
北京写字楼市场2025年第二季度展望及第一季度回顾
36氪· 2025-04-30 10:57
北京写字楼市场整体表现 - 2025年第二季度北京甲级写字楼市场租金预计延续下行趋势,平均有效租金环比下跌4.7%至246元/平方米建筑面积/月,较2018年峰值下降36% [1][10] - 空置率录得17.9%,处于近年高位,需求端以存量客户置换需求为主导,新增需求释放有限 [10] - 业主策略深度调整,普遍延长免租期,接受租约重组,并为新租户提供定制装修补贴 [1][10] 需求端结构性变化 - 科技产业在中关村等集聚区保持需求韧性,头部企业因业务扩张和技术升级产生新租/扩租需求 [2] - 金融行业在内资机构带动下扩租需求回升,专业服务领域如律所因业务扩张和品牌升级需求强劲 [2] - 外资企业租赁策略保守,跨国公司退租和面积优化对国贸、燕莎等传统外资集聚区造成持续去化压力 [2] 细分商圈表现 - 金融街商圈租金最高达414元/平方米,空置率最低7.9%;上地-北清路商圈租金最低112元/平方米,空置率最高36.2% [14] - 中关村商圈租金285元/平方米,空置率12.5%,科技企业租赁需求稳定 [14] - 丽泽商圈租金149元/平方米,金融和TMT类企业租赁面积环比增速均达12.8%,展现新兴商圈潜力 [18][21] 大宗交易市场 - 2025年第一季度完成8宗交易总额78亿元,自用型买家成交宗数占比75%,交易额占比97% [27] - 核心商圈优质资产价格较峰值回调高达40%,平均交易价格攀升至50862元/平方米,租售比降至5.8% [27][29] - 自用买家偏好整栋/整层稀缺资产,机构投资者关注具有稳定现金流和绿色认证的项目 [3][27] 行业动态与选址趋势 - 人工智能行业快速发展,具身智能公司融资活跃,如千寻智能完成5.28亿元Pre-A轮融资 [35][36] - 科技企业选址优先考虑科技产业聚集地、交通便利性和高品质硬件设施 [39] - 金融类企业仍以金融街为核心,租赁面积达129.8万平方米,环比微增0.7% [18] 供应与竞争格局 - 国贸中服地块未来供应项目包括Z-5大家保险(10万㎡)和Z-6远洋汇丰(12万㎡)等 [24] - 业主面临跨楼宇等级和跨区域的激烈竞争,区域和楼宇等级壁垒弱化 [1] - 2026年将迎来新一轮供应高峰,业主采取前瞻性策略提前启动续租谈判 [5]
UniToken:多模态AI的“全能选手”,一次编码搞定图文理解与图像生成!
量子位· 2025-04-24 18:29
核心观点 - UniToken首次在统一框架内实现理解与生成的"双优表现",打破了多模态统一建模的僵局 [1] - UniToken通过融合连续和离散视觉表征,有效缓解了"任务干扰"和"表示割裂"的问题 [2] - 团队已将代码与模型全部开源,便于社区复现与开发 [3] 任务背景与挑战 - 传统图文理解模型与图像生成模型的视觉编码底层特性差异较大 [5] - 开发理解生成一体化模型面临两大难题:视觉编码割裂和联合训练干扰 [6] - 现有解决方案存在理解任务性能不足或上下文切换开销大等问题 [6] UniToken技术方案 - 采取统一的双边视觉编码器,融合VQ-GAN离散编码与SigLIP连续表征 [7][12] - 采用三阶段训练流程:视觉语义空间对齐、多任务联合训练、指令强化微调 [12][13][14][15] - 引入AnyRes和ViT端到端微调等细粒度视觉增强技术 [16][17][18] 实验结果 - 在多个主流多模态基准上取得媲美或领先专用模型的性能 [19] - 大规模数据场景下1:1的理解+生成数据比例能兼顾两项任务性能 [22] - 统一连续+离散视觉编码方案具有较强的鲁棒性 [22] 未来发展方向 - 模型规模扩展:探索更大语言模型的"涌现能力" [22] - 数据规模扩展:引入近2亿样本规模数据 [22] - 任务类型扩展:拓展至图像编辑、故事生成等图文交错任务 [22]