视觉 - 语言模型

搜索文档
演讲生成黑科技,PresentAgent从文本到演讲视频
机器之心· 2025-07-18 16:18
本项目为AI Geeks、澳洲人工智能研究所、利物浦大学、拉筹伯大学的联合工作。 我们提出了 PresentAgent,一个能够将长篇文档转化为带解说的演示视频、多模态智能体。现有方法大多局限于生成静态幻灯片或文本摘要,而我们的方 案突破了这些限制,能够生成高度同步的视觉内容和语音解说,逼真模拟人类风格的演示。 为了实现这一整合,PresentAgent 采用了模块化流程,如图 1 所示,包括以下步骤:1. 系统性地对输入文档进行分段;2. 规划并渲染幻灯片风格的视觉 帧;3. 利用大型语言模型与文本转语音模型生成具有上下文的语音解说;4. 最终将音频与视觉内容精确对齐,无缝组合成完整视频。 图 1 PresentAgent 概览。 该系统以文档(如网页)为输入,经过以下生成流程:(1)文档处理、(2)结构化幻灯片生成、(3)同步字幕创建,以及(4) 语音合成。最终输出为一个结合 幻灯片和同步讲解的演示视频。图中紫色高亮部分表示生成过程中的关键中间输出。 考虑到这种多模态输出的评估难度,我们引入了 PresentEval,一个由视觉-语言模型驱动的统一评估框架,从以下三个关键维度全面打分:内容忠实度 (Con ...
ICCV 2025|训练太复杂?对图片语义、布局要求太高?图像morphing终于一步到位
机器之心· 2025-07-18 08:38
核心观点 - FreeMorph是一种无需训练、一步到位的图像变形方法,能够在不同语义与布局的图像之间生成流畅自然的过渡效果 [5] - 该方法通过改进扩散模型的自注意力机制,解决了传统方法中训练成本高、适应性差的问题 [5][11] - FreeMorph在30秒内即可为两张输入图像生成高质量平滑过渡,显著优于现有技术 [32] 技术背景 - 传统图像变形技术依赖复杂的图像对齐算法和颜色插值,难以处理复杂纹理和多样语义的图像 [4] - 现有深度学习方法如GAN、VAE存在训练成本高、数据依赖强、反演不稳定等问题 [4] - 基于Stable Diffusion和CLIP等大模型的方法仍面临训练时间长(约30分钟/案例)和语义处理能力不足的挑战 [9] 技术方案 - 引导感知的球面插值:通过修改预训练扩散模型的自注意力模块,融入输入图像的显式引导来增强模型 [11] - 球面特征聚合融合自注意力模块的Key和Value特征,确保过渡一致性 [16] - 先验引导的自注意力机制保留输入图像的独特身份特征 [18] - 步骤导向的变化趋势:融合两个输入图像的自注意力模块,实现受控且一致的过渡 [21] - 改进的反向去噪和正向扩散过程:将创新组件集成到原始DDIM框架中 [22][25] 技术优势 - 无需训练或调参,仅需两张输入图像即可完成变形 [5] - 处理时间仅需30秒,显著快于现有方法(如IMPUS需要30分钟) [32] - 能够处理语义多样、布局复杂的图像对,保持身份特征和平滑过渡 [27][30] - 在四组不同类别的评估数据集上表现优异 [12] 应用前景 - 可应用于动画、电影特效或照片编辑等领域 [3] - 能够捕捉细微变化,如不同颜色的蛋糕或人物表情的微妙差异 [27] - 为training-free图像变形打开了新的可能性 [5] 技术局限 - 处理语义或布局差异较大的图像时,过渡可能不够平滑 [34] - 继承了Stable Diffusion的固有偏差,在人体四肢等结构处理上准确性受影响 [34]
当无人机遇到AI智能体:多领域自主空中智能和无人机智能体综述
具身智能之心· 2025-06-30 20:17
作者丨 视觉语言导航 编辑丨 视觉语言导航 点击下方 卡片 ,关注" 具身智能之心 "公众号 >> 点击进入→ 具身 智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有 你想要的。 主要贡献 自主导航无人机的基础 | UAV Type | Perception | Control Archi- | Decision System | Autonomy | Task | | Communication | | --- | --- | --- | --- | --- | --- | --- | --- | | | Modality | tecture | | Level | Adapt- | | Interface | | | | | | | ability | | | | Traditional | Monocular or | Rule-based | Deterministic. | Level 1-2 | Static | | Line-of-sight, | | UAVs | stereo RGB | flight con- | s ...
微软推出深度视频探索智能体,登顶多个长视频理解基准
机器之心· 2025-06-30 11:18
核心观点 - 大型语言模型(LLMs)和视觉-语言模型(VLMs)在处理数小时长视频时仍存在局限性[1] - 提出新型智能体Deep Video Discovery(DVD),通过分段处理视频并利用LLM推理能力实现自主规划,在LVBench上达到74.2%准确率,超越现有技术[3] - DVD采用多粒度视频数据库和搜索工具集,通过LLM协调实现自主搜索和回答[7][9] 技术架构 多粒度视频数据库构建 - 将超长视频分割为5秒片段,提取全局/片段/帧三级信息,包括摘要、字幕、嵌入向量等[10] 智能体搜索工具集 - 全局浏览工具:获取高层上下文和视频全局摘要[11] - 片段搜索工具:通过语义检索返回相关片段及其时间范围[12] - 帧检查工具:从像素级信息提取细节并提供视觉问答[13] 性能表现 - 在LVBench上:DVD(74.2%)显著超越MR Video(60.8%)和VCA(41.3%)[16] - 辅助转录后准确率提升至76.0%[17] - 各维度表现:事件推理(73.4%)、知识推理(80.4%)、时序理解(72.3%)等[16] 比较分析 - 商业VLM对比:OpenAI o3(57.1%)优于GPT-4o(48.9%)和Gemini-2.0(48.6%)[16] - 开源VLM对比:Qwen2.5-VL-72B(47.7%)低于DVD[16] - 行为分析显示GPT-4o存在过早结束推理的问题[18]
36氪精选:辅助驾驶人才争夺战:一把手下场挖人VS法务连续起诉
日经中文网· 2025-06-06 15:55
车企AI辅助驾驶人才争夺战 - 中国车企如华为、理想、Momenta等对AI辅助驾驶人才需求激增,行业竞争激烈导致高端人才被哄抢,理想汽车CEO透露核心人员平均接到20+猎头电话[6][9][16] - 人才流动伴随竞业纠纷,理想汽车曾起诉跳槽员工并达成千万元级别和解,行业普遍采用竞业协议延缓技术外溢[7][8][14] - 比亚迪、小米等车企积极补足辅助驾驶能力,比亚迪自研城市NOA方案并挖角新势力背景人才,小米招募Wayve科学家加入团队[12][13] 技术路线演进与行业格局 - 辅助驾驶技术从传统规则方案转向"端到端"模型,并探索VLM/VLA多模态大模型,头部公司如理想、华为、Momenta装机量分别突破50万/30万辆[9][11][24] - 理想汽车技术路线快速迭代,从依赖地图方案升级至VLA模型,联合清华团队开发双系统方案并积累AI大模型量产经验[11][24] - 特斯拉停止公开FSD技术路径后,中国车企自主探索,华为乾崑智驾和小鹏"世界基座模型"成为代表性方案[10][11] 行业竞争策略与乱象 - 比亚迪发起辅助驾驶平权运动,将高速NOA功能下放至7万元级车型并通过补贴降至5.58万元,倒逼行业技术普及[12][17] - 部分车企通过"白盒"代码泄露获取技术捷径,供应商核心算法被非授权扩散至其他车企,导致人才携带代码跳槽牟利[18][19][20] - 头部企业采取项目保密措施,理想要求VLA项目员工签署协议且离职需脱敏6个月,华为亦有类似保密机制[14][16] 技术挑战与未来方向 - "端到端"模型存在场景泛化局限,理想提出VLA模型增强物理世界交互能力,但面临人才稀缺与工程化挑战[23][24] - 行业下一阶段技术重心聚焦生成式AI世界模型仿真器和强化学习应用,Momenta已率先在规控环节应用AI模型[24][25] - 跟随型企业依赖技术外溢难持续,原创性思考与工程能力成为竞争分水岭[25]
「智驾」人才争夺战:帮新员工支付前司百万竞业赔偿
36氪· 2025-05-23 21:58
车企AI辅助驾驶人才争夺战 - 行业核心人才遭哄抢,理想、华为、Momenta成为被挖角最严重的公司,理想核心人员每人接到20+猎头电话[3][4][6] - 竞业协议诉讼频发,理想起诉跳槽员工案例涉及千万元赔偿,南方车企员工赔付超百万元[4][5] - 技术保密手段升级,理想要求VLA项目员工签署保密协议,离职需脱敏6个月;华为采取类似措施[12][14] 技术路线演进与竞争格局 - 技术路径从规则方案转向端到端模型,VLM/VLA多模态大模型成为新方向[6][9][24] - 头部企业技术布局: - 理想尝试4种技术路线(城市NOA/轻地图/端到端+VLM/VLA),与清华合作开发双系统方案[9][25] - 小鹏采用"世界基座模型"训练方式[10] - 华为乾崑智驾装机量突破50万,Momenta方案搭载量近30万辆[10] - 特斯拉停止公开FSD技术细节后,国内企业进入自主探索阶段[8][23] 车企人才战略与市场动态 - 传统车企加速布局: - 比亚迪推出5.58万元级辅助驾驶车型,下半年计划推出自研城市NOA[11] - 比亚迪技术院高层亲自招揽新势力背景人才,团队已吸纳多名竞品员工[11] - 小米引进Wayve科学家陈龙,强化辅助驾驶团队[11] - 人才流动双向性: - 理想曾为关键人才支付数百万竞业赔偿[12] - 端到端技术导致理想精简团队,部分人才外溢[12] 行业技术挑战与发展趋势 - 当前技术局限性: - 端到端方案存在场景泛化难题[23] - VLA模型面临人才稀缺、数据获取、问题定义等量产挑战[25] - 未来技术重点: - 生成式AI世界模型仿真器[25] - 强化学习在规控/仿真领域应用[25] - Momenta已率先在预测/规控环节应用AI模型和强化学习[26] 行业生态与潜在问题 - 技术泄露现象严重,存在代码被员工携带跳槽或出售的情况[18] - 部分企业通过"白盒"获取供应商代码进行拼凑开发,与头部"好用"方案存在差距[19][20] - 行业面临工程化能力与AI不确定性的双重挑战,需原创性思考突破技术迷雾[23][26]
多模态长文本理解测评首发:46款模型无一攻克128K难关
量子位· 2025-05-23 14:14
多模态长文本理解评估基准MMLongBench - 香港科技大学、腾讯西雅图AI Lab等机构联合推出首个综合性多模态长文本评估基准MMLongBench,覆盖5大类型任务的16个数据集,包含13,331个长文本样本[1][2] - 基准涵盖Visual RAG、大海捞针、many-shot in-context learning、长文档摘要和长文档VQA五大任务,兼顾自然图像与合成图像[2][8] - 采用跨模态长度控制技术,统一以image patch和text token计算输入长度,标准化8K/16K/32K/64K/128K五种上下文长度[3][11] 模型性能评估结果 - 测试46个领先多模态大模型(含GPT-4o、Gemini-2.5-Pro等闭源模型和Qwen2.5-VL-72B等开源模型),所有模型在长上下文任务中表现均未超过80分[5][6][14] - 128K长度下顶尖开源模型InternVL3-38B、Qwen2.5-VL-72B平均分仅49.8和48.7,闭源模型GPT-4o平均分62.9[14] - 推理能力增强的模型(如Gemini-2.0-Flash-T)在summarization任务上表现提升25.3%,DocVQA任务提升10.1%[15] 关键发现与技术瓶颈 - 不同任务间Spearman相关系数低于0.85,证明单一任务评估无法全面反映模型长文本理解能力[17] - OCR能力成为处理长文档的主要瓶颈:Qwen2.5-VL系列更擅长处理图像PDF,Gemma3-27B在≤32K长度时偏好OCR纯文本[19][20] - 跨模态检索能力不足:将Visual RAG任务图像替换为实体名称后,Gemma3-27B在128K长度下表现提升26.4[22] 数据集与技术细节 - 基于16个公开多模态数据集重构,通过拼接/截断控制上下文长度(如Visual RAG任务拼接Wikipedia段落)[9] - 采用Llama2分词器计算文本token,图片划分为14×14 patch并应用2×2 pixel unshuffle压缩视觉token[11] - 评测代码与数据集已开源,包含评测框架、数据处理工具和标准化评估协议[4][22]