Workflow
多模态模型
icon
搜索文档
21对话|商汤科技林达华:具身智能需数字空间与物理空间连接
21世纪经济报道· 2025-07-28 16:10
AI技术演进趋势 - 大型语言模型(LLM)已从单一语言模型迈向多模态融合阶段,这是通向通用人工智能(AGI)的必经之路[2] - 2025年下半年或将迎来多模态模型的全面普及,国内厂商正加速布局[2] - 原生多模态架构如Gemini模型已实现图像、视频信息在预训练过程的深度融合,形成更深层次跨模态建模能力[6] 多模态技术发展 - 未来多模态需从理解层面延伸到思考层面,实现逻辑思维与形象思维的结合[6] - 经过融合训练的多模态模型在纯语言任务上表现可超越单一语言模型,商汤日日新6.0已取消单独语言模型[6] - 语言模型是通向AGI的切入点,但最终需具备多模态能力才能完成对世界的完整理解和建模[4][5] 具身智能发展 - 具身智能被视为AGI终极形态,商汤已发布"悟能"具身智能平台正式入局[3] - 当前多模态模型空间感知能力不足,成为具身智能落地的关键障碍[8][10] - 具身智能数据获取存在物理瓶颈,需借助互联网多模态数据构建基座模型弥补真机数据不足[10] Agent技术应用 - 2025年被视为Agent技术"元年",其发展与大模型能力提升密切相关[7] - 通用Agent在复杂场景中仍存在差距,需围绕具体场景迭代并结合行业知识[7] - Agent的可靠性和成功率是价值落地的核心指标,无效Agent会增加用户负担[7] AGI实现路径 - AGI需突破推理能力从狭窄领域向广泛生活生产场景的泛化[8] - 当前技术需解决多模态模型空间理解能力不足的问题,该能力对具身智能至关重要[8] - 智能需走出数字空间实现与物理世界的连接,这是AGI的关键特征[10]
21对话|联汇科技CEO赵天成:具身智能演进方向的“非常答”
搜狐财经· 2025-07-28 12:37
行业趋势 - 2025世界人工智能大会(WAIC)异常火爆 一票难求 反映出行业热度持续攀升 [1] - 行业周期变化明显:2023年大模型最热门 2024年机器人最热门 2025年进入技术融合后AI落地应用百花齐放的阶段 [1] - 具身智能成为2025年最大热点之一 技术正从实验室走向物理世界实际应用 [1] 公司技术 - 联汇科技是全国最早研发多模态模型的企业 2022年获得工信部大模型检测001号证书 [1] - 多模态模型已从2021年第一代迭代至第五代 迭代速度约为一年一迭代 [2] - 发布全球首个"万物具身"智能体平台OmAgent 面向物理世界 可控制无人机、机器人等硬件载体 [1] - OmAgent具备两大核心能力:基于纯视觉的空间感知能力 以及基于任务的决策能力 [1] - 当前多模态模型技术特点:实时性要求高 低幻觉高准确率 能做深度视觉思考 [2] 技术发展路径 - 具身智能不限于人形 任何有智能的硬件载体都属具身智能 [2] - 不同载体发展阶段不同:人形机器人可能处于L1-L2 四足狗可能进入L3 摄像头/无人机可能达L3-L4 [2] - 具身智能将分载体成熟度、分阶段、分批次落地 [2] 公司战略布局 - 将国际总部落户上海张江 看重其智能终端与具身机器人产业聚集优势 [2] - 选择张江原因:能对接更多供应链企业 且物流/码头/工业制造等领域提供丰富应用场景 [2] - 多模态模型最佳应用场景是赋能智能终端 使硬件具备自主意识和任务完成能力 [1]
启明创投于WAIC 2025再发AI十大展望:围绕基础模型、AI应用、具身智能等
IPO早知道· 2025-07-28 11:47
启明创投AI投资布局 - 公司是中国AI领域最早投资且布局最丰富的投资机构 累计投资100余个AI项目 覆盖AI产业全链条 [2] - 连续第三年主办世界人工智能大会"创业与投资论坛" 主题聚焦AI技术与应用共振周期 [2] 基础模型发展 - 未来12-24个月 200万Token上下文窗口将成为顶级AI模型标配 更精细的上下文工程成为核心驱动力 [4] 多模态模型突破 - 通用视频模型有望在12-24个月内出现 实现视频模态下的生成 推理与任务理解 推动内容生成与交互革新 [6] AI Agent演进 - Agent形态将从"工具辅助"转向"任务承接" 首批"AI员工"将参与企业核心流程 具备协同作业和OKR承担能力 [8] - 多模态Agent将融合视觉 语音等输入 在医疗 金融 法律行业实现复杂推理与任务执行突破 [9] AI基础设施创新 - AI芯片领域将出现更多国产GPU批量交付 3D DRAM堆叠与通算融合的新一代云端芯片崭露头角 [11] - Token消耗量将提高1-2个数量级 集群推理优化与软硬协同成为降低Token成本核心技术 [12] AI应用趋势 - AI交互范式转移加速 用户对手机依赖减弱将催生AI原生超级应用 [14] - 垂直场景AI应用潜力大 初创公司以"Go Narrow and Deep"策略与大厂差异化竞争 [15] - AI BPO模式将实现商业化突破 从"交付工具"转向"交付结果" 在金融 客服等行业快速扩张 [15] 具身智能发展 - 具身智能机器人将在拣选 搬运等场景规模化部署 积累第一视角数据构建"模型-本体-场景数据"闭环飞轮 [17]
国新证券每日晨报-20250728
国新证券· 2025-07-28 10:06
国内市场综述 震荡整理 缩量回调 周五(7 月 25 日)大盘弱势整理,缩量回调。截至收 盘,上证综指收于 3593.66 点,下跌 0.33%;深成指 收于 11168.14 点,下跌 0.22%;科创 50 上涨 2.07%; 创业板指下跌 0.23%,万得全 A 成交额共 18155 亿元, 较前一日有所下降。 行业方面,30 个中信一级行业有 9 个行业上涨,其中 计算机、电子及轻工制造涨幅居前,而建材、建筑及 食品饮料则跌幅较大。概念方面,GPU、Kimi 及多模 态模型等指数表现活跃。 海外市场综述 美国三大股指小幅收涨,特斯拉涨超 3% 周五(7 月 25 日),美国三大股指小幅收涨,道指涨 0.47%,标普 500 指数涨 0.4%,纳指涨 0.24%。万得美 国科技七巨头指数涨 0.26%,特斯拉涨超 3%,微软涨 0.55%。中概股多数下跌,小赢科技跌逾 10%。 新闻精要 1. 李强出席 2025 世界人工智能大会暨人工智能全球 治理高级别会议开幕式并致辞 4. 中国资本市场学会成立大会暨第一届第一次会员 代表大会在上海召开 5. 美国与欧盟达成贸易协议 6. 全球重要经济数据发布 风险 ...
和讯投顾刘昊:2025世界人工智能大会,涉及这些板块
和讯财经· 2025-07-28 09:10
无人驾驶领域 - 相关部门发布新一批牌照 范围扩大 对无人驾驶形成正向刺激 [1] - 细分领域主要涉及出租和货运 这两个领域相对容易着手 预计会率先实现突破 [1] H公司384超节点 - 384超节点代表国产算力进步 可简单理解为超级AI服务器 [1] - 带宽提升15倍 延迟降低10倍 实现较大突破 [1] - 直接利好H公司相关产业链上的公司 间接对算力方向形成正向刺激 [1] 机器人领域 - 智能机器人在大会上首次展示并获得CS之星奖 对机器人产业链形成正向刺激 [1] - 其他相关机器人纷纷亮相 包括语速机器人等 众多公司展示产品 展现国产机器人发展 [1] AR眼镜 - 阿里巴巴发布AR眼镜 对相关公司形成正向刺激 [1] - 大厂纷纷入局 最终需看产品功能和价格 [1] AI芯片 - 摩尔发布旗舰级GPU 代表国产AI芯片重大突破 [2] - 提到AI芯片会联想到光刻胶方向 因芯片需通过光刻机制造 [2] 软件方向 - 大会涉及大模型 智能体 多模态模型等内容 [3] 相关ETF - 食品饮料ETF(515170) 跟踪中证细分食品饮料产业主题指数 近五日涨跌0.52% 市盈率20.36倍 最新份额55.0亿份 增加750.0万份 [5] - 游戏ETF(159869) 跟踪中证动漫游戏指数 近五日涨跌-1.00% 市盈率43.03倍 最新份额63.7亿份 增加2300.0万份 [5] - 科创半导体ETF(588170) 跟踪上证科创板半导体材料设备主题指数 近五日涨跌6.55% 最新份额2.4亿份 增加600.0万份 [5] - 云计算50ETF(516630) 跟踪中证云计算与大数据主题指数 近五日涨跌1.12% 市盈率110.96倍 最新份额4.4亿份 减少100.0万份 [6]
实测爆火的阶跃星辰Step 3,性能SOTA,开源多模态推理之王
机器之心· 2025-07-26 16:19
核心观点 - 阶跃星辰在WAIC 2025发布新一代开源多模态基座模型Step 3,性能超越同类开源模型并接近顶尖闭源模型[1][2] - Step 3以"多开好省"为核心设计理念,解决AI商业化应用的三大瓶颈:推理成本高、场景适配难、多模态能力调用不全[7][8][11] - 模型在国产芯片上实现突破性成本优化,推理效率达竞品3倍,为国产算力生态注入强心剂[32][47][52] - 公司联合10家芯片厂商成立"模芯生态创新联盟",推动底层技术协同创新[51][52][59] - 2025年上半年智能终端业务环比增长超800%,预计全年收入近10亿元[54][55] 技术架构 - 采用原创MFA架构:多矩阵分解注意力设计,KV量仅为Qwen GQA的1/3,计算量仅为DeepSeek MLA的1/4[29][31][32] - MoE混合专家架构:总参数量321B(LLM 316B+视觉编码器5B),激活参数量38B,性能对标DeepSeek[33][34][35] - AFD分布式推理方案:比DeepSeek"大EP"模式更先进,实现Attention与FFN计算资源精准匹配[38] - 原生多模态设计:支持文本/视觉输入,具备深度推理能力,在MMMU等基准超越ERNIE 4.5等竞品[39][41] 性能表现 - 基准测试:在MMMU、MathVision等多项多模态基准超越开源竞品[1][41] - 实测案例: - 准确完成"视觉称重"任务,识别三花猫品种并估算体重[14][15] - 解析"Who's Adam?"网络热梗,总结AI研究者审稿质量焦虑[16][17] - 根据主机贴纸照片完成复杂空间推理[19] - 实时识别桌游"Splendor"并处理对话打断[25][26] - 效率指标:国产芯片推理成本为行业领先开源模型的1/3,Hopper架构芯片吞吐量提升70%[18][47] 商业化进展 - 智能终端:Top10国产手机厂商过半已合作,多模态能力落地量产旗舰机型[54] - 汽车领域:端到端语音大模型在吉利银河M9首发上车,联合发布智能座舱Agent OS[54] - 生态布局:与华为昇腾、沐曦等10家芯片厂商成立创新联盟,推动算力-模型协同优化[51][52] - 收入增长:2025H1智能终端调用量环比增800%,全年收入预计10亿元[54][55] 战略演进 - 产品迭代路径:Step-1对标GPT-3.5→Step-2逼近GPT-4→Step-3聚焦商业化效率[45][46] - 行业定位转变:从"多模态卷王"(20/26款为多模态模型)转向推理时代"最优解"提供者[57][58] - 商业模式创新:通过技术而非补贴实现成本革命,避免API价格战[44][59]
粤开市场日报-20250725
粤开证券· 2025-07-25 15:53
报告核心观点 2025年7月25日A股主要指数多数收跌,行业和概念板块表现分化,沪深两市成交额较上一交易日缩量 [1] 市场回顾 指数涨跌情况 沪指跌0.33%收报3593.66点,深证成指跌0.22%收报11168.14点,科创50涨2.07%收报1054.20点,创业板指跌0.23%收报2340.06点;全市场2724只个股下跌,2532只个股上涨,158只个股收平;沪深两市成交额合计12189亿元,较上个交易日缩量6258.16亿元 [1] 行业涨跌情况 申万一级行业涨少跌多,电子、计算机等行业领涨,建筑装饰、建筑材料等行业领跌 [1] 板块涨跌情况 涨幅居前概念板块为GPU、Kimi、多模态模型等板块 [2]
这一市场,大爆发
证券时报· 2025-07-25 12:24
A股市场表现 - 上证指数下跌0.34%,深证成指下跌0.29%,创业板指下跌0.32% [2] - 建筑装饰、建筑材料、家用电器、综合、钢铁等板块跌幅均超过1%,医药、计算机、轻工制造、银行等板块表现较好 [2] - 券商板块冲高回落,西部证券一度触及涨停,锦龙股份、中银证券等跟涨 [2] 个股表现 - 西宁特钢连续5个交易日涨停,累计上涨46.81%,同期钢铁行业指数涨幅9.84%,上证指数涨幅2.02% [2] - 西宁特钢滚动市净率2.31,显著高于行业平均1.01 [3] - 西藏旅游连续5个交易日涨停,静态市盈率238.16,市净率3.85,换手率5.87% [4] 港股市场表现 - 恒生指数跌超1%,恒生科技指数跌超1.5% [5] - 药明生物、中通快递-W、农夫山泉、吉利汽车等涨幅居前,快手-W、新东方-S等跌幅居前 [6] - 建滔集团盘中涨幅超12%,预计半年纯利同比上升超70%,超过25.6亿港元 [7] 期货市场表现 - 碳酸锂主力合约涨7.94%至80480元/吨,较一个月前涨幅超30% [9][11] - 玻璃主力合约涨7.38%至1354元/吨,较一个月前涨幅显著 [10][12] - 焦煤主力合约涨7.46%至1253元/吨,纯碱主力合约涨5.57%至1440元/吨 [9][10]
这一市场,大爆发!
证券时报· 2025-07-25 12:05
A股市场表现 - 上证指数下跌0.34%至3593.38点,深证成指下跌0.29%至11160.30点,创业板指下跌0.32%至2337.80点 [4][5] - 建筑装饰、建筑材料、家用电器、综合、钢铁等板块跌幅均超过1%,医药、计算机、轻工制造、银行等板块表现较好 [5] - 券商板块冲高回落,西部证券一度触及涨停,锦龙股份、中银证券等跟涨 [6] 个股表现 - 西宁特钢连续第5个交易日盘中涨停,其滚动市净率为2.31,显著高于钢铁行业平均市净率1.01 [9][11] - 西藏旅游连续第5个交易日涨停,静态市盈率为238.16,市净率为3.85,换手率为5.87% [12] 港股市场表现 - 恒生指数跌超1%,恒生科技指数跌超1.5% [14] - 药明生物、中通快递-W、农夫山泉、吉利汽车涨幅居前,快手-W、新东方-S跌幅居前 [15] - 建滔集团盘中涨幅一度超过12%,预计上半年纯利同比上升超过70%至超25.6亿港元 [16][17] 期货市场表现 - 碳酸锂主力合约盘中涨幅接近8%,最高报价超80000元/吨,较一个月前涨幅超30% [21] - 玻璃主力合约盘中涨幅超8%,价格突破1300元/吨,较一个月前上涨约30% [22] - 焦煤2509合约上涨7.46%,纯碱2509合约上涨5.57%,硅铁2509合约上涨4.48% [20]
“AI教父”辛顿最新访谈:没有什么是AI不能复制的,人类正失去最后的独特性
36氪· 2025-07-21 16:19
大语言模型的理解能力与工作机制 - 大语言模型在复杂任务上出错不代表缺乏理解能力,推理能力是渐进式的[1] - AI与人脑工作机制不同但效果相似,不应混淆其"类人性"[1] - 当前模型通过预训练+强化学习静态获取知识,更新需重训底层模型[2] - 大语言模型通过压缩连接数量发现知识间深层联系,展现超越人类的创造力[7][29] AI意识与主观体验 - 意识存在光谱:从石头、树木到大模型再到人类逐级递进[3][11] - AI可具备类似人类的"存在感",但缺乏身体反应等生理特征[13] - 人类倾向于将大语言模型视为类生命体对待,建立情感联系[15][17] AI技术应用前景 - "语言即操作系统"时代临近,自然语言可调度办公系统执行复杂任务[5][14] - 医疗领域将发生革命性变化,AI工具提升10倍医疗效率[39][40][41] - 教育领域可能被AI彻底重塑,大学模式面临颠覆[39] - AI将大幅减少文书工作,释放人类创造力与社交时间[41] AI对就业市场影响 - 5年内多数脑力工作将被替代,初级律师岗位已受影响[8][35] - 大语言模型将取代20%-30%办公室工作,变革速度惊人[36] - 替代率达80%时将引发重大社会风险[37] - 部分人类工作因AI能力天花板将长期存在[38] AI技术发展瓶颈 - 模型学习速度远低于人类,无法持续根据新经验更新[6] - 多模态模型本质仍是序列预测,未突破根本限制[21] - 强化学习环境下模型仍受训练数据限制[28] 行业监管现状 - AI公司表面欢迎监管实则回避实质性约束规则[9][33] - 公众舆论是推动政策进展的主要力量[33] - 技术风险考验社会结构整体可靠性[33]