Workflow
多模态智能体
icon
搜索文档
早报李强:采取有力措施巩固房地产市场止跌回稳态势;A股市值历史首次突破100万亿元大关
搜狐财经· 2025-08-19 16:19
行业新闻 1、昨日,A股市值历史首次突破100万亿元大关,年内新增14.5万亿元。 | | 8月19日 交易提示 | | | | | | | --- | --- | --- | --- | --- | --- | --- | | 项目 | 代码简称 发行价 市盈率 | | 参考行业 市盈率 | 参考行业 | 总市值 | 主营 | | 新股申购 | 巴兰仕 10. 15 920112 | 15. 78 | 32. 75 | 专用设备制 造业 | 13. 39亿 | 汽车保养核心设备外销 龙头。 | 宏观新闻 1、国务院总理李强8月18日主持召开国务院第九次全体会议,深入学习贯彻习近平总书记关于当前经济形势和经济工作的重要讲话精神, 强调要切实把思想和行动统一到党中央对形势的科学判断和决策部署上来,巩固拓展经济回升向好势头,努力完成全年经济社会发展目标 任务。李强强调,要抓住关键着力点做强国内大循环,持续激发消费潜力。采取有力措施巩固房地产市场止跌回稳态势,结合城市更新推 进城中村和危旧房改造,多管齐下释放改善性需求。 2、根据《中华人民共和国反补贴条例》规定,2024年8月21日,商务部发布2024年第34号公 ...
关注黑色、农业上游价格波动
华泰期货· 2025-08-19 11:22
报告行业投资评级 未提及 报告的核心观点 关注黑色、农业上游价格波动,生产行业关注人工智能技术要求,服务行业关注地产新政推行,需全面辩证把握经济形势,巩固房地产市场止跌回稳态势 [1] 各部分总结 中观事件总览 - 生产行业关注人工智能技术要求,中国信通院联合四十余家单位编制《多模态智能体技术要求》 [1] - 服务行业关注地产新政推行,国务院要求巩固房地产市场止跌回稳态势,释放改善性需求 [1] 行业总览 上游 - 黑色行业玻璃价格同比回落较多 [2] - 农业行业鸡蛋、棕榈油价格上行 [2] 中游 - 化工行业PX开工率上行 [3] 下游 - 地产行业一、二线城市商品房销售回落 [4] - 服务行业国内航班班次上升幅度缓和 [4] 重点行业价格指标跟踪 - 农业行业中,鸡蛋现货价6.7元/公斤,同比涨5.02%;棕榈油现货价9626.0元/吨,同比涨6.39% [47] - 有色金属行业中,铜现货价79310.0元/吨,同比涨0.19%;铝现货价20726.7元/吨,同比涨0.37% [47] - 黑色金属行业中,螺纹钢现货价3267.0元/吨,同比降2.55%;铁矿石现货价786.7元/吨,同比降0.45% [47] - 非金属行业中,玻璃现货价14.3元/平方米,同比降5.12%;天然橡胶现货价14891.7元/吨,同比涨0.51% [47] - 能源行业中,WTI原油现货价62.8美元/桶,同比降1.69%;Brent原油现货价65.9美元/桶,同比降1.11% [47] - 化工行业中,PTA现货价4720.3元/吨,同比降0.63%;聚乙烯现货价7448.3元/吨,同比涨0.09% [47] - 地产行业中,水泥价格指数全国值130.0,同比涨1.56%;建材综合指数116.0,同比降0.42% [47]
字节Seed开源长线记忆多模态Agent,像人一样能听会看
量子位· 2025-08-18 14:55
字节Seed发布M3-Agent多模态智能体框架 - 公司推出全新多模态智能体框架M3-Agent,具备实时视觉和听觉输入处理能力,并能构建和更新长期记忆[1][2] - 该框架通过强化学习训练,在多个基准测试中表现显著优于基线模型,包括Gemini-1.5-Pro和GPT-4o等商业模型[3][33] - 框架采用开源策略,同时发布了配套的长视频问答基准M3-Bench[2][16] M3-Agent技术架构 - 框架通过并行记忆过程和控制过程运作:记忆过程持续感知多模态输入并构建长期记忆,控制过程解释指令并执行任务[8][9] - 记忆系统生成两种类型记忆:事件记忆记录具体观察,语义记忆推导一般知识[11] - 记忆以实体为中心组织,通过图结构连接同一实体的多模态信息[12] - 采用强化学习实现多轮推理和迭代记忆检索,而非单轮RAG[13] M3-Bench基准特点 - 包含两个子集:M3-Bench-robot(100个机器人第一人称视频)和M3-Bench-web(920个网络视频)[26] - 设计了五种问题类型评估能力:多细节推理、多跳推理、跨模态推理、人类理解和一般知识提取[25][27] - 基准特点包括长时长真实世界视频和需要复杂推理的挑战性问题[32] 性能表现 - 在M3-Bench-robot上准确率比最强基线MA-LLM高6.3%,达到30.7%[33][34] - 在M3-Bench-web上比最强基线Gemini-GPT4o-Hybrid高7.7%,达到48.9%[33][34] - 在VideoMME-long上比最强基线高5.3%,达到61.8%[33][34] - 在人类理解任务上比MA-LLM高4.2%,在跨模态推理上高8.5%[35] 核心技术突破 - 证实以实体为中心的多模态记忆对长视频内容推理能力提升显著[4] - 验证检索推理优于单次RAG,应视为迭代推理循环而非一次性步骤[5] - 在保持角色一致性、人类理解和多模态信息整合方面展现卓越能力[36]
AI 编程冲击来袭,程序员怎么办?IDEA研究院张磊:底层系统能力才是护城河
AI前线· 2025-08-10 13:33
多模态智能体的发展现状与挑战 - 实现智能体"看懂、想透、做好"需整合视觉理解、语言推理与物理执行能力,是多模态领域的核心挑战 [5] - 视觉输入维度极高且涉及三维结构理解,需结合交互知识(如物体操作判断),当前技术距离理想目标仍有差距 [6] - 空间智能对机器人操作至关重要,但现有视觉-语言-行动模型(VLA)因缺乏物体精确定位,实际成功率远低于实用水平 [7][8] 技术落地的可行路径 - 从"半结构化"场景(如产线灵活操作)切入是务实选择,介于高重复性结构化与全开放环境之间 [11] - 工业场景中,危险操作或遥操作结合智能的闭环迭代可驱动技术进步,但家庭等开放环境落地需超5年时间 [10][11] - 视觉与三维表征方法尚未统一,斯坦福团队主张三维内部表示是建模关键,但技术鸿沟仍需逐步填补 [9] 工业界研究的平衡之道 - 研究价值评估需兼顾学术与应用双维度,避免仅追求论文发表而忽视实际问题解决 [12] - 产品开发与研究探索节奏差异显著,需给予研究人员探索空间,同时确保方向与产品关联 [14] - 目标检测等基础问题仍存挑战,突破后将带来广泛价值,需坚持本质问题研究而非跟风热点 [13] 人才培养与底层能力 - 系统级能力(如分布式计算、GPU架构优化)比模型调参经验更关键,FlashAttention案例显示基础优化可推动领域进步 [17][18] - 计算机科学基础学科训练优于过早专攻应用方向,扎实的体系结构理解能适应技术迭代 [20] - AI时代程序员需超越基础编码,通过协作提升编程深度,聚焦AI无法替代的贡献 [19][20] 行业会议与趋势聚焦 - AICon大会聚焦Agent、多模态等方向,探讨大模型降本增效案例,反映企业级AI应用趋势 [3][21]
智象未来亮相 WAIC:多模态智能体,重塑创作的未来版图
财富在线· 2025-07-29 11:28
公司战略与商业化路径 - 公司以"解决真实创作痛点"为导向,探索"技术筑基、场景破局、价值闭环"的商业化路径 [1] - 构建"MaaS-SaaS-RaaS"递进商业化体系:MaaS为根基打造百亿级多模态基础模型,SaaS为桥梁开发垂直场景产品,RaaS为终局直接交付可落地成果 [1][2][3] - 多模态生成平台已服务于影视制作、产品营销、文旅互娱等领域,实现技术研发到商业价值的闭环 [3] 技术突破与核心优势 - 多模态基础模型历经三次迭代:2023年8月1.0版本(扩散模型DiT),2024年6月2.0版本(扩散自回归模型DiT+AR),2024年12月3.0版本(MoE多场景学习) [4] - 技术优势体现为语义一致性(IP故事活化保持风格统一)、精准可控性(支持个性化定制)、影视级画质(4K分辨率、长时序稳定输出) [4] - 视频生成领域突破时空一致性难题,通过扩散自回归模型(DiT+AR)使生成内容更贴近真实物理世界规律 [9] 产品与市场表现 - HiDream系列开源模型累计下载量超60万次,被Diffusers库、ComfyUI、Recraft等主流工具集成 [6] - HiDream-I1开源后24小时内登顶Artificial Analysis榜单,成为首个问鼎榜首的中国自研模型,Hugging Face实时排名全球第一 [6] - HiDream E1.1跻身Artificial Analysis图像编辑智能体榜单第一梯队,性能超越Flux.1 Kontext等主流模型 [7] 产品形态与功能 - 以智能体为核心构建工具链,vivago agent聚焦短视频二创,支持多模态输入、智能拆解、交互式生成 [11] - 即将发布长视频编辑智能体HiClip,通过多模态语义理解实现高光片段提取、跨平台适配剪辑 [11][12] - 创作工具箱形成"生成-编辑-优化"闭环,包含AI口播、视频模板、运动笔刷、虚拟换衣、图像超分等功能 [9] 生态合作与行业影响 - 携手跨境、互联网、影视、新媒体、文旅等多领域伙伴,构建"技术-场景-生态"共赢格局 [13] - 视频生成产品支持4K高清画质、全局/局部可控及剧本多镜头生成,被评价为"重新定义AIGC美学标准" [6] - 开源交互式编辑模型HiDream-E1通过自然语言指令完成图像生成及编辑,降低创作门槛 [6]
机器人高层指挥低层做,“坐标系转移接口”一次演示实现泛化学习 | ICML2025
量子位· 2025-07-22 12:35
HEP框架核心创新 - 首创"坐标系转移接口",通过层级策略学习框架解决机器人智能操作领域的数据稀缺和泛化难题 [4] - 采用分层策略结构,高层负责全局目标设定,低层在本地坐标下自主优化动作 [7] - 创新型体素编码器实现三维视觉信息高效表达,兼顾细节还原与计算速度 [2][5] 技术实现原理 - 高层策略通过预测"关键姿态"(目标3D平移)进行全局规划 [11] - 低层策略在以关键姿态为锚点的局部坐标系中生成细粒度运动轨迹 [11] - 坐标系转移接口将高层的泛化能力和抗干扰性传递到底层 [9][16] 性能表现 - 在RLBench的30个模拟任务和3个真实世界操作任务中验证有效性 [10] - 仅用30条演示数据就学会多步协作的"洗锅"任务,明显优于非分层方法 [14] - 在Pick&Place任务上实现1-shot泛化学习,数据效率显著提升 [15] - 环境变化和干扰测试下成功率较传统方法提升高达60% [17] 应用前景 - 坐标系转移接口为引入VLM或Cross-embodiment等多模态高层策略提供天然接口 [19] - 实现了高层泛化性和鲁棒性的无损传递,为多模态智能体集成与泛化部署开辟新路径 [19] - 论文已被ICML2025收录,显示学术认可度 [3]
演讲生成黑科技,PresentAgent从文本到演讲视频
机器之心· 2025-07-18 16:18
核心观点 - PresentAgent是一个能将长篇文档转化为带解说的多模态演示视频的智能体,突破了现有静态幻灯片或文本摘要的局限,生成高度同步的视觉内容和语音解说,模拟人类风格演示[1][9] - 系统通过模块化流程实现文档到视频的转化,包括文档分段、幻灯片生成、语音解说合成及音视同步对齐[3][17] - 提出首个文档到演示视频生成任务,并构建包含30对文档-视频样本的高质量评测数据集Doc2Present Benchmark[12][21] - 开发统一评估框架PresentEval,通过视觉语言模型从内容忠实度、视觉清晰度和观众理解度三个维度评分[6][14] - 实验显示PresentAgent在多项指标上接近人类水平,部分模型如Claude-3.7-sonnet测验准确率达0.64,GPT-4o-Mini视频内容评分达4.8[22][25][26] 技术架构 - **文档处理阶段**:对输入文档进行语义分段和提纲生成,支持论文、网页、PDF等多种格式[17][19] - **幻灯片生成**:检索最佳模板,利用视觉语言模型生成布局感知的幻灯片,包含结构化内容如技术解释、系统架构等[17][29] - **语音合成**:通过大型语言模型生成上下文解说文稿,经TTS转换为音频,并与视觉内容精确同步[3][23] - **评估模块**:采用分段策略,结合客观测验(Qwen-VL-2.5-3B)和主观评分(Qwen-Omni-7B)[24] 实验结果 - **测验准确率**:Claude-3.7-sonnet以0.64超过人类基准(0.56),其他模型如Qwen-VL-Max和Gemini-2.5-pro均为0.52[22][25] - **视频质量**:人类参考视频平均分4.47,GPT-4o-Mini达4.67,Gemini-2.5-flash视觉单项满分5.0但理解性仅3.8[22][26][27] - **音频质量**:人类基准4.80,Claude-3.7-sonnet和Qwen-VL-Max分别达4.53和4.60[22][26] 应用场景 - 支持商业报告、产品手册、政策简报、教程类文档等多领域长文本的自动化视频转化[12][13] - 案例显示技术博客可被转化为包含并行化工作流、代理系统架构等专业主题的解说视频[29] 资源信息 - 论文及代码已公开,标题为《PresentAgent: Multimodal Agent for Presentation Video Generation》[8]
AI 编程冲击来袭,程序员怎么办?IDEA研究院张磊:底层系统能力才是护城河
AI前线· 2025-07-13 12:12
多模态智能体的新时代 - 实现智能体"看懂、想透、做好"需整合视觉、语言推理与物理执行能力,是多模态过程的核心挑战 [2] - 视觉理解因输入维度高(如连续视频流)、三维结构建模复杂且需结合交互知识,成为技术突破难点 [3] - 生成模型依赖理解模型评估质量,理解与生成深度耦合,强化学习中的reward model本质是理解能力体现 [4] - 空间智能对机器人操作至关重要,当前VLA模型因缺乏物体精确定位,操作成功率远未达实用水平 [5] - 视觉领域三维表示方法未统一,斯坦福主张采用三维内部表示以提升模型预测能力 [7] 技术落地路径 - 制造业"AI+机器人"落地需平衡通用性与精准度,汽车生产线上下料等半结构化场景是可行突破口 [7] - 危险操作场景优先落地,通过遥操作结合智能逐步迭代,家庭等开放环境需5年以上技术积累 [8] - 从结构化到半结构化场景过渡(如产线灵活操作)是机器人技术渐进式商业化关键路径 [8] 工业界研究策略 - 工业界研究需构建"研究价值-应用价值"坐标系,右上角(双高价值)为理想目标,避免纯论文导向 [11] - 目标检测等基础问题仍有突破空间,需坚持解决实际难题而非追逐热点 [12] - 产品与研究节奏差异显著,研究人员需开放探索空间,管理者应协调两种模式避免强制同步 [13] - OpenAI案例显示技术成熟后需转向工程化集中攻关,但研究支撑仍是底层基础 [14] 人才能力建设 - 计算机基础能力(如分布式系统、GPU架构)比大模型调参经验更关键,系统级优化能带来2-3倍效率提升 [16][17] - 年轻从业者应专注底层能力(代码、并行计算),避免成为"调参侠",系统理解力是团队稀缺资源 [17][18] - 计算机专业仍具长期价值,AI冲击的是基础编码岗位,需通过AI协作提升编程深度与不可替代性 [19]
Grok-4,马斯克口中地表最强AI
搜狐财经· 2025-07-11 20:58
xAI公司及Grok-4发布 - xAI公司成立于2023年7月12日,目标是解决复杂科学和数学问题并理解宇宙 [3] - 2025年1月16日推出网页版Grok AI聊天机器人,2月17日发布Grok-3,7月10日发布Grok-4 [5] - Grok-4系列包含Grok-4和Grok-4 Heavy两个版本,月费分别为30美元和300美元,Grok-3维持免费 [5] Grok-4技术性能 - 在GPQA测试中得分88.9%,AIME25得分100%,LiveCodeBench得分79.4%,HMMT25得分96.7%,USAMO25得分61.9% [8] - 在人文学科终极考试HLE中,Grok-4 Heavy实现最高44.4%准确率,在所有领域达到博士级别 [10] - 在ARC-AGI-2测试中拿到15.8%准确率,是过去三个月唯一突破10%的模型 [12] Grok-4技术进展 - 从Grok-2到Grok-4,训练量提升100倍,强化学习推理投入大量计算资源 [15] - 将工具使用直接纳入训练过程,显著提高模型使用工具能力 [15] - 计划与特斯拉擎天柱机器人结合,实现与现实世界互动能力 [16] 多智能体与商业应用 - Grok-4 Heavy是多智能体版本,可多个智能体协作解决问题 [18] - 在售货机基准测试中创造的美元价值是第二名两倍,预计100万台自动售货机年赚47亿美元 [20][22] - 语音模式改善,端到端延迟降低2倍,提供5种声音,活跃用户增长10倍 [19] 未来发展规划 - 预计未来三到四周开始用超过10万个GB200芯片训练视频模型 [25] - 计划推出AI制作的视频游戏、电视节目和电影 [23] - 最终目标是实现"像素输入,像素输出"的多模态能力 [23] AI发展愿景 - 让AI极致追求真相是安全发展的根本原则 [28] - 计算能力加正确工具将使AI能与物理世界互动 [28] - 未来可能达到卡尔达舍夫Ⅱ型文明等级 [28]
文档秒变演讲视频还带配音!开源Agent商业报告/学术论文接近人类水平
量子位· 2025-07-11 12:00
核心观点 - PresentAgent是一个多模态智能体,能够自动将结构化或非结构化文档转化为配有语音讲解和同步幻灯片的视频演示,模拟人类演讲者的信息传递方式[1][3] - 该系统在测试集上接近人类水平的表现,适用于商业报告、技术手册、政策简报或学术论文等多种文档类型[4][7][21] - 该技术具有可控性和领域适应性,能够生成高度同步的视觉内容和语音解说,实现动态、有效、易获取的演示格式[20][22] 技术框架 - PresentAgent采用模块化生成框架,流程包括文档处理、结构化幻灯片生成、同步字幕创建和语音合成[9][13] - 具体步骤包括语义分块、布局指导的幻灯片生成、口语化解说文本重写以及语音与幻灯片的时间同步[11] - 系统支持多样化的输入文档形式,如论文、网站、博客、幻灯片或PDF[15][17] 评估方法 - 团队设计了PresentEval评估框架,包含客观测验评估和主观打分评估双路径[18] - 评估维度包括内容忠实度、视觉清晰度和观众理解度,使用视觉-语言模型进行评分[21] - 在30组人工制作的"文档-演示视频对"测试集上,系统表现接近人类水平[21] 应用潜力 - 该技术可显著减少制作高质量演示视频所需的人工精力,涉及内容筛选、幻灯片设计、讲稿撰写等环节[7][8] - 结合语言模型、视觉布局生成与多模态合成,实现可解释、可扩展的自动演示生成系统[23] - 在教育、金融、政策与科研等多个领域具有广泛应用前景[21]