Workflow
多模态大模型
icon
搜索文档
员工因反对穿超短裙发奖品被辞退?猿辅导:因工作不达标;农夫山泉股价大涨近6%;宇树最新款人形机器人,3.99万元起丨邦早报
创业邦· 2025-07-26 09:02
汽车行业动态 - 懂车帝测试近40款车型辅助驾驶功能,特斯拉Model3和ModelX以100%通过率位列榜首 [2] - 岚图汽车指出行业在高速避险和非标障碍物识别方面存在技术瓶颈 [2] - 鸿蒙智行对测试结果不予置评,特斯拉称不关注排名但强调安全无上限 [3] - 理想汽车澄清i8尚未开始用户试驾,否认试驾体验不及乐道L90的传闻 [15] - 奇瑞澄清与印度JSW集团合作仅限于零部件供应,不涉及技术领域 [16] - 2026款沃尔沃S60上市,部分车型升级360度全景影像和自适应巡航功能,售价30.69万元起 [28] 科技与人工智能 - 英伟达CEO黄仁勋确认随身携带"秘密期权池"随时奖励优秀员工,并亲自审核4.2万名员工薪酬 [8] - 小鹏机器人成立智能拟态部,主攻机器人多模态技术 [13] - 阿里巴巴开源千问3推理模型,性能比肩Gemini-2.5 pro和o4-mini [30] - 阶跃星辰发布Step3多模态推理模型,计划7月31日开源 [32] - 可灵AI多图参考生视频模型升级,效果提升102% [32] - Neuralink参与仿生眼研究,目标开发能帮助盲人识别人脸和阅读的智能设备 [28] 资本市场与融资 - 农夫山泉股价大涨近6%,市值重回5230亿港元 [6] - Anthropic寻求新一轮融资,目标估值1500亿美元以上 [25] - OSL集团完成3亿美元股权融资,为亚洲数字资产领域最大规模公开股权融资 [25] - 上海国投将参与阶跃星辰新一轮融资,金额预计超5亿美元 [25] - 屿智同行完成数百万天使轮融资,投资方为前海信诺 [26] 消费与零售 - 2025年暑期档电影总票房突破45亿元,《侏罗纪世界:重生》等暂列前三 [34] - 2025年上半年中国跨区域人员流动量达337.6亿人次,同比增长4.2% [36] - NewPrinces以近10亿欧元企业价值收购家乐福意大利业务 [25] 企业动态与人事 - 魅族高管黄质潘微博认证变更为星纪魅族集团CEO [18] - 猿辅导回应员工被辞退事件,称因工作能力不达标 [22][23] - 申通快递拟3.62亿元收购菜鸟旗下丹鸟物流 [25] - 索尼将收购万代南梦宫2.5%股份,拟联合开发动漫IP [25] 产品发布 - 宇树科技发布人形机器人UnitreeR1,售价3.99万元起 [26] - 货拉拉旗下"多拉大面"货车上市,起售价7.68万元 [30]
商汤科技完成配售25亿港元 加速布局具身智能
经济观察网· 2025-07-24 18:35
融资情况 - 公司完成16.67亿股新B类股份配售,募集资金总额约25亿港元,净额约24.98亿港元 [1] - 配售股份占已发行B类股份总数的4.58%,占已发行股份总数的4.50% [2] - 每股认购价为1.50港元,较7月23日收盘价1.60港元折让约6.25%,较近五日平均收盘价1.64港元折让约8.54% [2] - 国际长线资本Infini Capital(无极资本)全额认购 [1][2] 资金用途 - 30%用于AI核心业务发展,包括打造AI云服务平台和扩大"商汤大装置"规模 [3] - 30%支持生成式AI与多模态大模型研发,重点开发垂直领域衍生产品 [3] - 20%投入具身智能与新兴技术融合,包括具身智能机器人、真实世界资产(RWA)等领域 [3] - 剩余20%作为一般营运资金 [3] 战略布局 - 公司计划成立独立的具身智能公司,核心班底包括首席科学家王晓刚等 [4] - 将在世界人工智能大会(WAIC)上揭晓具身智能"大脑",集成感知、视觉导航及多模态交互能力 [4] - 公司已完成"1+X"架构重组,"1"代表核心业务,"X"代表生态企业矩阵,如智能汽车板块"绝影"和家庭机器人板块"元萝卜" [4] 行业动态 - 2025年上半年中国AI企业融资规模显著增长,技术竞争从算法层面向硬件、场景层延伸 [5] - 国产AI技术正从"高性价比替代"转向"技术引领",具身智能、多模态大模型等前沿领域成为新增长空间 [5] - 公司与宇树科技、归墟机器人等合作开发具身智能产品,如"飞燕"机器人和傅利叶GRx通用人形机器人 [5][6]
出现断层了?ICCV2025的自动驾驶方向演变...
自动驾驶之心· 2025-07-24 17:42
多模态大模型 & VLA - ORION框架提出端到端自动驾驶方案 通过视觉语言指令生成动作 华科与小米联合研发 [5] - DriveMM构建全合一大型多模态模型 中山大学与美团合作开发 支持自动驾驶多任务处理 [6][7] - MCAM模型实现自我车辆级驾驶视频因果分析 重庆大学团队开源代码 [9] - AdaDrive/VLDrive双系统实现语言驱动的自适应驾驶 轻量化设计提升效率 [10] 仿真 & 重建 - ETA框架采用大模型双路径决策 科奇大学与港大合作提升自动驾驶效率 [13] - InvRGB+L实现复杂场景逆向渲染 清华与UIUC联合建模色彩与激光反射 [14] - AD-GS通过B样条高斯泼溅技术 南开与UIUC实现自监督场景重建 [16][18] - BézierGS动态重建城市场景 复旦大学采用贝塞尔曲线高斯泼溅技术 [19] - RGE-GS利用扩散先验引导场景重建 清华与菜鸟网络联合开发 [21][24] 端到端 & 轨迹预测 - Epona世界模型基于自回归扩散 清华与地平线合作生成驾驶轨迹 [25] - World4Drive构建意图感知潜空间模型 中科院自动化所与理想汽车联合研发 [30] - MagicDrive-V2实现高分辨率长视频生成 港中文与华为诺亚方舟实验室合作 [32][35] - DiST-4D解耦时空扩散生成4D场景 清华与旷视科技联合开发 [36] 占用网络 - B2S模型将二值占用数据升级为语义预测 丰田汽车公司研发 [44] - DISC模型解耦实例与场景上下文 华科团队实现3D语义场景补全 [45] - GaussRender采用高斯渲染学习3D占用 Valeo AI与索邦大学合作 [52] - GaussianOcc基于高斯泼溅自监督估计3D占用 东京大学团队开发 [54] 目标检测 - PI3Det实现透视不变3D检测 新国大与复旦联合研发 [59] - MambaFusion多模态3D检测框架 中科院自动化所与上海交大合作 [64] - OcRFDet基于神经辐射场多视角检测 南京理工大学开发 [69] 数据集与评估 - ROADWork数据集专注施工区场景识别 卡内基梅隆大学发布 [73] - VLADBench细粒度评估大视觉语言模型 中科大与华为诺亚方舟实验室联合推出 [81] - LiMA跨视角蒸馏提升LiDAR表征 新国大与南航合作 [88][89] 其他技术 - Dynamic-DINO实时开放词汇检测 浙大与中兴通讯联合开发 [83] - DepthForge增强域泛化语义分割 集美大学与中山大学合作 [87][90]
政策、市场、技术三重共振 东土鸿道操作系统迎商业化落地窗口期
搜狐网· 2025-07-24 16:26
中国AI机器人产业发展前景 - 中国将在2025年下半年掀起"人形机器人热潮",摩根士丹利预测到2050年中国可能拥有3.023亿台人形机器人,形成万亿级市场 [1][2] - 北京市政府发布《具身智能科技创新与产业培育行动计划(2025-2027)》,目标到2027年培育千亿级产业集群 [1] - 行业进入商业化验证阶段,优必选科技9051万元采购项目、智元机器人和宇树科技联合中标1.24亿元项目 [1] 鸿道AI机器人操作系统的技术优势 - 采用"智算控一体"架构,允许在同一硬件平台并行运行AI推理、运动控制等任务,降低系统复杂度和成本 [2] - 通过虚拟化技术提升芯片利用率,降低对高端制程的依赖 [2] - 支持100+机器人协同作业,打开工业自动化新场景 [2] 鸿道操作系统的商业化机遇 - 政策红利释放,各地政府加速推进机器人产业落地,基础软件优先受益 [1] - 首批大规模订单交付将验证系统稳定性和性能 [1] - 多模态大模型与机器人本体的深度融合需要操作系统提供更高效的推理和学习支持 [1] 鸿道生态的长期战略价值 - 微内核架构和开发生态正在构建机器人产业的"鸿道生态" [2] - 有望成为国产机器人"走出去"的标准配置,助力中国企业在全球化竞争中建立持续优势 [2] - 2025年下半年将成为产业从技术突破到规模商用的"分水岭",全栈能力厂商将决定核心技术话语权 [3]
一起做些有意思的事情!自动驾驶之心还缺几位合伙人
自动驾驶之心· 2025-07-23 10:12
业务合伙人招募 - 公司计划向国内外招募10位优秀合伙人(个人+企业)负责自动驾驶相关项目对接、课程研发、论文辅导、硬件研发、产品代理 [2] - 主要招募方向包括大模型/多模态大模型、扩散模型、VLA、端到端、具身智能、AI Agent、3D目标检测、世界模型、闭环仿真3DGS、大模型部署与量化感知推理、SLAM等 [2] - 岗位要求QS200以内高校硕士及以上学历,手握顶会论文者优先 [2] 合伙人待遇 - 提供自动驾驶资源共享(求职、读博、出国留学推荐等) [3] - 提供丰厚的现金激励 [3] - 提供创业项目合作与推荐机会 [3] 联系方式 - 咨询需添加微信wenyirumo并备注"机构/公司+自动驾驶合作咨询" [3]
多模态大模型存在「内心预警」,无需训练,就能识别越狱攻击
机器之心· 2025-07-21 16:43
多模态大模型的安全挑战与解决方案 - 视觉语言大模型(LVLMs)如GPT-4V、LLaVA等在图文问答和视觉推理任务中表现突出,但相比纯文本模型更易被“越狱”,攻击者可通过图像注入危险意图[2] - 现有防御方法如跨模态安全微调、系统提示词设计等存在训练成本高、泛化能力差和误判风险[3] HiddenDetect技术原理 - 研究发现LVLMs即使被越狱生成不当内容,其隐藏状态中仍保留拒绝信号,中间层比输出层更早感知风险[5] - 通过构造“拒绝语义向量”(RV)并计算各层隐藏状态与RV的余弦相似度,量化模型拒绝强度,形成拒绝强度向量F[9] - 实验显示F在不安全输入中呈现中间层峰值特征,且最后一层拒绝倾向高于倒数第二层[9] 多模态安全响应差异 - 文本和图像输入激活不同安全通路,文本拒绝响应更早更强,视觉模态会延迟并削弱拒绝信号[17][19] - 关键层定位方法通过拒绝差异向量(FDV)识别对安全最敏感的中间层,其FDV显著高于末层[20] 实验结果与性能 - 在LLaVA、Qwen-VL、CogVLM等模型测试中,HiddenDetect在文本攻击(如FigTxt)和跨模态攻击(如FigImg)检测上表现最优,AUC最高达0.997[24] - 相比Perplexity、GPT-4V等基线方法,HiddenDetect在XSTest边界样本上保持高鲁棒性,误判率更低[23][24] 技术应用与未来方向 - 方法无需训练,结构轻量,可直接部署于现有LVLMs,聚焦风险提示但暂不调控模型行为[28] - 未来将探索模态信息与安全性的关联,推动多模态模型向更可控方向发展[28]
大模型面经 - 快手快 Star
自动驾驶之心· 2025-07-20 16:36
面试流程与内容 - 一面重点考察论文细节和基础能力,涉及代码题(32 最长有效括号)和概率题 [2] - 二面继续深入探讨论文,增加场景题考察方案完善能力 [4] - 三面侧重知识广度,涵盖多模态大模型技术(BLIP-2/Qwen-VL的Learnable Query、KV Cache、后训练差异)、计算机视觉(SAM编码机制)、概率题(扑克牌花色概率)和场景设计题(直播间商品识别) [5] - 四面为答辩环节,聚焦业务理解和职业规划,需串联过往经历形成主线 [6] 技术考察重点 - 多模态大模型:关注主流范式(BLIP-2/Qwen-VL架构演进)、训练优化技术(LoRA矩阵初始化、DeepSpeed三阶段优化)、动态分辨率实现 [5] - 计算机视觉:深入探讨Diffusion与DETR结合、SAM的多模态prompt编码机制 [5] - 工程实践:涉及大模型部署(KV Cache)、推荐系统排序算法、多模态RAG应用 [5] 学习资源与社区 - 提供30+自动驾驶技术栈学习路线,覆盖感知(BEV/Occupancy/多传感器融合)、定位建图(SLAM/高精地图)、规划控制等领域 [7] - 知识星球包含近4000人社区,300+企业与科研机构参与,提供端到端自动驾驶、大模型、CUDA部署等专业课程 [7]
ACM MM 2025 | EventVAD:7B参数免训练,视频异常检测新SOTA
机器之心· 2025-07-20 11:11
研究背景与动机 - 视频异常检测(VAD)现有方法存在显著局限:有监督方法依赖大量标注数据且泛化能力差,无需训练方法如LAVAD依赖130亿参数的大语言模型(LLMs),效率低下且缺乏时序理解能力[6] - 无需训练方法的核心瓶颈在于无法完整定位视频中的异常事件,导致LLM评分偏差[7] EventVAD框架创新 - 提出动态图架构与多模态大模型(MLLMs)时序事件推理结合,减少参数同时提升精度和效率[1][9] - 核心模块包括事件感知动态图构建、图注意力传播、统计边界检测和事件中心异常评分,实现端到端无需训练检测[9] 技术实现细节 - 动态图构建融合CLIP语义特征(512维)和RAFT光流运动特征(128维),通过融合系数α=0.75平衡特征,引入时间衰减因子γ抑制冗余关联[11] - 图注意力传播采用正交约束机制,通过QR分解生成Q/K/V矩阵避免特征坍缩,迭代更新节点特征增强事件边界区分度[12] - 统计边界检测结合L2范数和余弦距离捕捉事件跳变,Savitzky-Golay滤波降噪,基于中位数绝对偏差(MAD)设动态阈值[14] - 事件中心异常评分采用分层提示策略,事件片段输入MLLMs生成描述后输出评分,形成自校正机制[15] 性能验证结果 - 在UCF-Crime数据集以70亿参数实现82.03% AUC,超越130亿参数的LAVAD(78.33%)和多数弱监督方法[18][19] - 在XD-Violence数据集AP达64.04%(LAVAD为60.02%),AUC达87.51%(LAVAD为82.89%),分辨率适应性显著[20][21] 行业影响与展望 - 推动视频异常检测从帧级标注向事件级标注演进,大幅降低人工标注成本和训练开销[31] - 为视频细粒度理解提供基础框架,有望催生更多创新算法加速领域发展[31]
超越O4-mini,多模态大模型终于学会回头「看」:中科院自动化所提出GThinker模型
机器之心· 2025-07-19 11:13
多模态大模型技术突破 - 当前主流多模态大模型(如Qwen2 5-VL GPT-4o)在数学 科学等结构化任务表现优异 但在通用场景下存在视觉线索误判且缺乏修正机制的问题[1][7][8] - 中科院自动化所提出的GThinker模型通过「线索引导式反思」机制实现「思考-反思-修正」闭环 显著提升复杂场景推理能力[2][3][10] - 模型采用两阶段训练法:先通过7K高质量标注数据冷启动反思能力 再通过动态采样强化学习实现跨场景泛化[17][18][20][23] 模型性能表现 - 在M³CoT基准测试中 GThinker-7B以81 5%综合得分超越O4-mini等闭源模型 并在科学(90 7%)数学(81%)等子领域达到SOTA[26][28] - 通用场景测试显示 该模型在MMStar(66 4%)RealWorldQA(70 1%)等数据集上优于Gemini-2 5 Pro(73 6%/78%)和GPT-4o(65 1%/76 2%)[29] - 方法具备泛化性 可使Qwen2 5-VL等开源模型在OpenCompass学术榜单上平均提升1个百分点(如Qwen2 5-VL从70 9%升至72 2%)[30][31] 技术创新细节 - 核心「Cue-Rethinking」流程分三阶段:自由推理标记视觉线索→触发反思提示→系统性回溯验证并修正结论[12][13][14] - 训练数据构建采用多模型协同标注策略 覆盖通用 数学 科学三大领域 并通过embedding聚类保证数据多样性[20][27] - 采用DAPO训练算法 动态采样结合无KL策略 更适合长链思考任务 相比GRPO提升探索效率[27]
中国AI修图赛道商业化前景凸显
新华财经· 2025-07-17 13:52
行业现状与痛点 - 全球创作者对图像和视频处理工具需求提升,AI技术成为商业影像行业生产力变革关键[1] - 中国摄影服务机构数量达380万家(2025年6月),较2023年底增长100万家,200万元以下小企业为主[1] - 传统修图模式效率低下:资深修图师日均处理30-50张照片,单张精修成本50-200元,无法满足电商平台日均上万张图片需求[1] 市场竞争格局 - Adobe占据商业摄影市场主流地位,2025Q2营收58.7亿美元(同比+11%),Firefly大模型付费用户数环比翻倍[1] 国内企业突破 - 像素蛋糕累计完成超1亿张智能修图,服务数百万摄影工作者,采用B2B2C商业模式[2] - 推出"一体化智能工作流"将传统3天流程压缩至3分钟,发布行业首个应用级图像大模型"方糖大模型"[2] - 16bit·AI Raw解析技术实现AI追色,拓展视频创作应用场景[2] 商业化成效 - 儿童摄影连锁机构采用像素蛋糕系统后,单店月订单量+40%,人力成本-65%[3] - 一体化智能工作流为商业摄影用户带来超200%营收增长[3] - 获艾瑞咨询认证"中国商业级AI修图市占率第一品牌"[3] 技术发展趋势 - AI Agent和多模态大模型技术成熟将推动商业摄影进入"人人都是创意大师"阶段[3] - AI修图商业化核心逻辑为"控成本+增营收",需同时满足服务商价值创造与客户场景需求[3]