Workflow
多模态模型
icon
搜索文档
腾讯混元上新:多模态和智能体,两手都要抓 | 最前线
36氪· 2025-05-22 16:01
腾讯大模型战略升级 - 腾讯混元大模型迎来全面升级 包括旗舰快思考模型混元TurboS和深度思考模型混元T1的新迭代版本 [1] - 基于TurboS基座推出视觉深度推理模型T1-Vision和端到端语音通话模型混元Voice [1] - 同步上新混元图像2.0 混元3D v2.5及混元游戏视觉生成等一系列多模态模型 [1] 混元TurboS模型性能 - 混元TurboS在Chatbot Arena排名全球前八 国内仅次于DeepSeek [2] - 代码和数学等理科能力进入全球前十 [2] - 采用大规模混合Mamba-MoE模型 理科推理提升超10% 代码能力提升24% 竞赛数学成绩提升39% [2] 混元T1模型进展 - 深度思考模型混元T1持续快速迭代 在元宝App上线后实现多项能力提升 [6] - 竞赛数学效果提升8% 常识问答提升8% 复杂任务的Agent能力提升13% [6] 多模态模型突破 - 混元视觉深度推理模型T1-Vision支持多图输入 具备原生长思维链 [8] - 整体效果提升5.3% 理解速度提升50% [8] - 混元Voice语音模型响应速度提升超30% 降至1.6秒 [8] - 混元图像2.0在主观画面质量和美学层面被认为"AI味"最少 [8] 智能体平台战略 - 将大模型知识引擎升级为"腾讯云智能体开发平台" [12] - 整合RAG技术和全面Agent能力 帮助企业激活私域知识和构建专属智能体 [13] - 大模型显著提升语义理解 上下文建模 内容切分等能力 [14] - 多模态模型发展使视觉+文本协同任务成为可能 [14] 开源与业务应用 - 混元3D模型在Hugging Face下载量超过160万 [16] - 计划推出多尺寸混合推理模型 适配企业与端侧不同需求 [16] - 混元已深度融入微信 QQ 腾讯元宝 腾讯会议 腾讯文档等核心产品 [17]
联想集团ISG业务连续两季度盈利 Q4营收同比增长63%
格隆汇· 2025-05-22 13:37
公司业绩 - 公司2024/25财年全年营收达4985亿元人民币 同比增长21.5% 创历史第二高位 [1] - 全年盈利同比增长36% 增速快于营收增长 [1] - 第四季度ISG业务营收299.6亿人民币 同比增长63% 连续第二个季度实现盈利 [1] - 中国市场营收同比增长113% 海神液冷解决方案收入同比大增244% [1] 产品与技术 - 公司发布新一代ThinkSystem V4服务器和ThinkEdge SE100入门级AI推理服务器 [1] - 第六代Neptune海神液冷技术带来40%的能源效率提升 [1] - 存储产品组合迎来史上最大规模更新 发布21款存储产品及全新数据存储解决方案 [1] ISG业务表现 - ISG全年营收1048亿人民币 同比增长63% 盈利能力大幅改善 [2] - 云基础设施(CSP)业务收入同比增长92% [2] - 企业基础设施(E/SMB)收入增速达20% 创历史新高 [2] - 海神液冷解决方案收入同比增长68% [2] - AI服务器业务实现高速增长 拓展至高频交易、新能源及智慧医疗等行业 [2] - 存储业务营收同比增长24% [2] 行业前景 - IDC预计2025年全球基础设施市场将增长18% 达2650亿美元 [2] - AI服务器2025年市场规模预计达1472亿美元 2024-2027年复合年增长率18% [2] - 生成式AI和多模态模型加速落地将推动企业级AI基础设施投入持续释放 [2] 发展战略 - ISG将坚持"云基础设施+拓展企业基础设施"业务模式 [2] - 持续优化产品结构 强化市场销售能力 提升端到端运营韧性 [2] - 加码AI服务器、液冷方案和边缘计算布局 打造混合式智能基础设施平台 [2]
能空翻≠能干活!我们离通用机器人还有多远? | 万有引力
AI科技大本营· 2025-05-22 10:47
具身智能技术发展现状 - 具身智能成为AI领域热点方向,重点关注人形机器人载体上的感知、运动、决策能力[2] - 2025年可能成为具身智能"元年",行业竞争集中在多模态和具身智能领域[5] - AI发展分为四个阶段:感知AI→生成式AI→自主智能体AI→物理AI,目前处于第三阶段向第四阶段过渡期[5] - 具身智能研究从传统精密控制向更智能化、通用化方向迈进,大模型能力提升推动这一转变[7] 技术演进路径 - 计算机视觉研究者正转向具身智能领域,因大模型压缩传统CV研究空间[8] - 自动驾驶技术是通向具身智能的重要桥梁,两者在感知、规划、控制模块高度相似[17] - 具身智能可分为"思维智能"与"行动智能",前者包括认知能力,后者关注环境互动[20] - 具身智能系统需要具备世界模型和自我模型两大核心内部模型[25][28] 行业应用前景 - 家庭看护和家务服务是最基础、最现实的需求方向[48] - 检修类场景(如电力、汽车维修)是具身智能最具潜力的应用领域[49] - 工业制造场景中,人形机器人可能比传统自动化更具性价比优势[49] - 生产线机器人最容易落地,高危或高互动性工作最具挑战性[52] 关键技术挑战 - 数据瓶颈是最大痛点,真实数据采集速度跟不上模型训练需求[55] - 计算资源限制明显,高自由度系统控制困难且成本高昂[39] - 模型架构面临从分层决策到端到端再回归分层的演变[67] - 仿真环境精度不足,难以替代真实世界数据采集[60] 未来发展趋势 - 从性能优化转向适应性设计,强化环境适应与新任务应对能力[63] - 从确定性控制转向概率性思维,应对现实世界不确定性[64] - 从分析还原走向整体涌现,展现更强智能与动态逻辑性[64] - 从工具属性转向伙伴属性,实现更自然的协作交互[64] 商业化路径 - 开发者应聚焦专用型机器人而非追求通用能力[42] - 垂直场景配套大客户是具身智能落地的务实选择[44] - 工业领域因其可扩展性成为优先发展方向[45] - 技术从实验室到真实世界仍存在两个数量级的精度差距[46]
能空翻≠能干活,我们离通用机器人还有多远?
36氪· 2025-05-22 10:28
具身智能发展现状 - 具身智能成为AI领域热点方向,人形机器人作为载体受到重点关注 [1] - 2025年可能成为具身智能"元年",行业竞争集中在多模态和具身智能领域 [3] - 英伟达提出AI发展四阶段论:感知AI→生成式AI→自主智能体AI→物理AI [3] - 具身智能发展仍处于早期爬坡阶段,离通用机器人还有较大距离 [31][32][33] 技术演进路径 - 大模型带动具身智能研究从精密控制向智能化、通用化方向迈进 [4] - 计算机视觉研究人员转向具身智能领域,因大模型提升了对物理世界的理解能力 [5] - 自动驾驶技术积累为具身智能提供重要基础,两者在感知、规划、控制模块高度相似 [15][16] - 具身智能系统需要具备世界模型和自我模型两大核心内部模型 [21][22] 商业化落地挑战 - 硬件成本和开发门槛居高不下是制约普及的关键因素 [10] - 垂直场景优先落地,工业、检修、家庭陪护是最具潜力的三大应用方向 [41][42][44] - 实验室精度与工业需求存在两个数量级差距,需持续提升系统精度 [40] - 早期商业化需配套大客户提供真实反馈和场景打磨 [39] 关键技术瓶颈 - 数据瓶颈是最大痛点,真实数据采集速度跟不上模型训练需求 [47][48] - 计算资源限制和模型架构挑战制约系统性能提升 [46] - 仿真环境难以完全还原真实世界物理特性,影响数据质量 [52] - 需突破自监督探索、生成式合成数据、少样本学习等数据解决方案 [53] 未来发展趋势 - 从性能优化转向适应性设计,强化环境适应能力 [55] - 从确定性控制转向概率性思维,应对现实世界不确定性 [55] - 从工具属性转向伙伴属性,实现更自然的交互协作 [55] - 模仿学习与强化学习融合、多智能体协作将成为重要突破方向 [59][60]
一文读懂Google I/O 2025 开发者大会:开启 “模型即平台” 的 AI 生态新时代
华尔街见闻· 2025-05-21 18:38
谷歌AI战略升级 - 公司全面拥抱AI智能体技术,将Gemini模型深度整合至搜索、Gemini助手等核心业务,推出全新AI模式搜索[1][2][27] - 强调Gemini 2.5 Pro为当前最强通用AI模型,在LLM Arena测评中所有类别排名第一,App月活用户超4亿[19][20][23][24] - 智能体模式(Agent Mode)支持多任务管理(如同时处理10个任务),实验版将向Gemini订阅用户开放[29][30] Gemini模型技术突破 - Gemini 2.5 Pro与Flash双模型协同:Pro侧重高性能,Flash速度更快、成本降低22%,支持"思考预算"机制[3][39] - 多模态能力升级:支持原生音频输出(2种声音)、实时翻译(Google Meet已上线英西互译)、草图转3D动画编码[34][38][41] - 实时语音助手Gemini Live支持45种语言,具备环境音分离、多任务处理(如找房订票)及跨App操作能力[32][35] 开发者工具与平台创新 - AI Studio新增URL Context功能(支持20个链接提取)、原生语音模型及增强函数调用,加速语音助手/游戏开发[6][7][8] - 实验项目Stitch实现文本提示生成App UI设计并一键导出至Figma/IDE,Canvas功能可将文档转为互动网页[4][5][33] - 编码智能体Jules开放公测,支持异步函数调用;Gemini Diffusion文本生成速度提升5倍,处于实验阶段[40][41] 搜索与用户体验革新 - AI模式搜索支持数百字复杂查询,结构化答案整合地图/评论/视频,美国用户已可体验"深度搜索"功能[47][48][49] - AI概览(AI Overviews)月活15亿用户,推动部分查询量增长10%,未来将逐步融入核心搜索[47][50] - Android XR生态推出智能眼镜(物体识别/语音控制)与Moohan头显(沉浸式地图),联合Gentle Monster等厂商[58][59][60] 内容创作与多模态技术 - Imagine 4图像模型细节提升10倍,支持中英复杂字体;Veo 3视频模型实现角色一致性/口型同步/镜头控制[52][53] - Flow平台联合电影人开发,支持AI生成剧本/镜头/配乐;Lyria音频模型可创作专业音乐并与视频协同[54][56][57] - Google Beam视频通信平台采用6摄像头阵列+AI渲染,实现毫米级头部追踪与60fps 3D画面[37] 商业化与订阅服务 - 推出Google AI Ultra订阅套餐(249.99美元/月),包含Gemini高级模型、30TB存储及YouTube Premium等权益[62][63][64] - 惠普将商业化Google Beam设备,Gemini 2.5 Flash模型6月面世,Deep Think模型限测试人员开放[37][39]
一文读懂Google I/O 2025 开发者大会:“降低门槛、加速创造”,谷歌开启 “模型即平台” 的 AI 生态新时代
硬AI· 2025-05-21 11:29
Google I/O 2025核心发布 - Gemini 2 5 Pro被定位为公司最强大的通用AI模型 在LLM Arena所有类别排行榜名列前茅[22][24] - Gemini系列模型每月处理token数量从9 7万亿激增至480万亿 增长近50倍 每月活跃用户超4亿[24] - 公司推出Gemini 2 5 Flash轻量版模型 效率提升22% 支持"思考预算"机制控制输出质量与响应速度[6][39][40] 跨平台AI引擎整合 - Android平台深度整合Gemini Nano 提供summarize等轻量功能 同时推出Androidify应用生成机器人形象[17][19] - 新UI系统Material 3 Expressive增强界面趣味性 Android 16引入live updates等性能优化工具[20] - 智能眼镜Moohan支持沉浸式地图和交互式Gemini AI 合作伙伴包括Gentle Monster和Warby Parker[63][64][65] AI开发工具升级 - AI Studio新增原生语音模型支持24种语言 增强函数调用与搜索推理功能[9][11] - Stitch实验项目实现文本提示自动生成App UI设计 可导出至Figma或IDE继续开发[7][8] - Cloud Run支持一键部署应用到线上 集成至VS Code等IDE[16] 多模态与创作突破 - Imagine 4图像模型细节捕捉能力提升 支持中英文复杂字体识别 生成速度快10倍[56] - Veo 3视频模型实现角色一致性控制 可自动合成环境音与对白 口型同步[56][57] - Lyria音频模型结合Music AI Sandbox可生成专业音乐 Flow平台支持AI视频全流程制作[61] 搜索与智能体革新 - 搜索新增AI模式标签页 支持数百字复杂查询 采用Deep Research模型提供结构化答案[46][47][51] - 智能体模式可同时管理10个任务 实验版将向Gemini订阅用户开放[27][29][30] - AI概览功能月活达15亿 推动部分查询量增长10%[46] 订阅与商业化 - Google AI Ultra套餐月费249 99美元 包含Gemini模型最高使用权限及30TB存储空间[69][70][71] - Google Beam视频通信平台采用六摄像头阵列实现毫米级精度3D渲染 将与惠普合作商业化[37]
首都在线20250511
2025-05-12 09:48
纪要涉及的公司和行业 - 公司:首都在线 - 行业:云计算、AI、第三方云服务 纪要提到的核心观点和论据 首都在线发展情况 - 发展历程分三阶段:2005 - 2010 年主营 IT 转售业务;2011 - 2022 年向云计算转型并挂牌新三板;2023 年至今明确“一基两翼”云计算战略,全面向智算转型[4][5] - 全球化布局优势:在多个国家和地区设资源,如北京、马来西亚、美国等,签署相关协议加强服务能力,在东南亚、北美等地深度布局,未来国内 AI 应用海外拓展时能占市场优势[6][19] - 软件能力优势:在 PaaS 和 Maxim 平台深入布局,相比其他人工智能研究资源服务商有更强综合竞争力[19] - 轻资产运营优势:与通信服务提供商合作租用普通厂商拓展,经营灵活性高、运营优势强,资金消耗低、复制性强[4][22] - 公司治理优势:高管为行业资深人士,与头部公司合作紧密,为转型提供前端布局和新方向思路,管理变革先行[7] - 重要成就:上市推动业务发展、成立渲染事业部进行 GPU 业务全球化布局、推出 MaaS 云服务平台,自主研发云平台业务收入 1.83 亿,同比增长 184%,2025 年营收持续正增长[8] 财务表现 - 2023 年营收 13.97 亿,亏损收窄至 -3.03 亿;2024 年总营收 7.72 亿元,毛利率 13.27%,随着算力和业务体量扩大预计逐渐盈利[2][9][10] - 2024 年各业务板块表现:云主机及相关服务营收 5.74 亿元,占 40%,毛利率 0.18%;计算云营收 3.91 亿元,占 28%,毛利率 1.84%;其他业务营收 0.5 亿元,占 4%,毛利率 18.36%,计算和海外云平台投入使摊销拖累利润,海外业务和计算云扩张预计盈利出现拐点[10] - 费用结构:管理费用因核心员工股权激励增加而增长,通信咨询费占主营业务成本最高,从 2023 年的 65.36%上升到 2024 年的 71.63%,随着业务规模扩大成本占比预计下降,毛利率将提升[13] AI 业务影响 - AI 业务成第二成长曲线:2024 年大模型及 AI 计算行业收入 1.57 亿元,同比增长 100%,毛利率 5.66%,业务规模扩大后毛利率有望提升[11] - AI 应用变化:2025 年 AI 引擎在应用端变化显著,2023 年 AI 应用偏向 Chatbot 形态,加速落地后预计迎来新一轮爆发周期[12][14] 行业趋势 - AI 技术应用:2025 年进入单位落地周期,中国 AI 科技自立、出海是确定性趋势,全球布局能力强的公司有望受益[3] - AI 应用市场:2025 年 5G 网络下原生 APP 用户达 2.4 亿,同比增长 89%,月均使用时长 113.7 分钟,月均使用频次 52.4 次,综合类 AI 人声 APP 全面开花,虚拟助手 APP 普及后变现潜力大[14] - 多模态模型影响:带动基础资源单次推理消耗增加,丰富应用场景生态,推动推理资源需求快速增长,加速模型治理水平迭代[15] - 中国智能算力规模:从 2024 年的 725 亿 FLOPS 预计到 2025 年突破 1,037 亿 FLOPS,到 2028 年达到 2,781 亿 FLOPS,复合增长率 339%,通用算力持续正向增长,大模型预训练调用次数和场景使用率提升,总体需求将快速抬升[16] - AI 产业转变:从追求智力知识转向应用落地实践阶段,智能算力占比持续增长,推理在整体算力占比提升,云基础资源需求总量与结构占比双重提升[17] - 第三方云服务行业:盈利来自行业针对性需求与毛利率改善,目前处于 AI 应用爆发早期,全行业算力需求增长,供给端受限,利润率有望提高,零售型数据处理能力受益较早[18] 其他重要但是可能被忽略的内容 - 公司在国内华北、华南等六个区域搭建计算集群节点,管理芯片规模近 2 万片,核心节点包括庆阳及门头沟,还在多地规划 AI IDC 建设并在海外多地布局[23] - SaaS 业务不断完善,具备 SaaS 和 PaaS 功能的厂商可为客户提供附加值和成本优势,公司发布相关产品完善布局将提升经营质量[24] - 海外市场付费能力强、利润高,技术资源稀缺使公司资源属性强,商业模式更成熟清晰,公司对出海型客户服务占优势[21] - 公司从单纯技术服务提供商向 AI 转型服务者转型,从单纯咨询提供转向综合云服务提供,有望享受更强综合竞争力[20]
全国首个文旅MaaS平台推出 MiniMax大模型助推文旅产业转型
中国经营报· 2025-05-08 22:50
文旅行业MaaS服务平台发布 - 全国首个文旅行业MaaS服务平台在上海徐汇模速空间发布,整合文旅资源、优化服务供给,覆盖上海市全域[1] - 平台调用包括MiniMax、上海人工智能实验室等大模型和计算资源,满足多元需求[1] - 多模态模型能快速生成文本、图像、语音、视频等内容,为文旅产业内容创新注入新动力[1] - AIGC将成为未来文旅行业新的增长点[1] MiniMax技术实力与行业应用 - MiniMax成立仅三年,已实现诸多重大技术突破,成为中国领先的AI初创公司[1] - 自研超长上下文处理能力的大语言模型MiniMax-01系列为生态伙伴提供技术支持[1] - 视频生成和语音领域多模态模型能力达到国际先进水准[1] - 最新一代语音模型Speech-02在全球知名AI测试榜单Artificial Analysis中排名第一,超越OpenAI与ElevenLabs[2] - 视频模型与应用受全球超200个国家和地区用户欢迎[2] MiniMax文旅产业赋能案例 - 积累丰富旅游出行、影视广告、文化场馆等文旅产业场景赋能经验[2] - 为新奥集团打造旅游智伴,提供全方位个性化互动式旅行辅助平台[2] - 与小红书合作创建站内搜索Agent,提供旅游建议并提前规划[2] - 3月以视频模型技术支持"牡丹花都"洛阳全球AI创作者大赛[2] 多模态大模型对文旅行业影响 - 多模态大模型极大赋能文旅行业,改变此前高度依赖专业创作者灵感激发与积累的现状[1] - 为线上大屏小屏、线下景区场馆等提供全方位AIGC解决方案[2]
阶跃星辰姜大昕:多模态目前还没有出现GPT-4时刻
虎嗅APP· 2025-05-08 21:13
公司概况 - 阶跃星辰由前微软全球副总裁姜大昕创立于2023年 核心团队包括首席科学家张祥雨和系统负责人朱亦博 形成技术研发与AI基础设施建设的铁三角架构 [5][7] - 公司员工规模达400余人 其中80%为技术研发人员 采用扁平化管理模式 员工可通过私信直接与CEO沟通 内部设有技术协同会和见闻分享群 [5][6] - 商业模式聚焦ToB服务和开发者API接口 2024年下半年多模态API调用量增长超45倍 2024年12月完成B轮数亿美元融资 [5][7] 技术战略 - 核心主张"理解生成一体化架构" 将原生成小组和理解小组整合为统一团队 认为这是实现多模态突破的关键路径 [2][3][4] - 建立Step系列通用大模型矩阵 覆盖语言模型和原生多模态模型 是国内少数坚持预训练路线的公司之一 [14][15] - 2025年1月发布推理模型Step R1-V-Mini 性能超越OpenAI早期版本 计划未来三个月推出满血版Step-R1 [17] 行业趋势判断 - 模型演进遵循三阶段路径:模拟世界(模仿训练)→探索世界(强化学习)→归纳世界(自主发现规律) 与OpenAI的AGI五级划分逻辑一致 [9][12] - 当前竞争焦点转向"智能上限" OpenAI等五大厂商半年内发布超8款新品 国内月之暗面等公司同步发力 [7][9] - 多模态领域尚未出现"GPT-4时刻" 核心卡点在于缺乏可扩展的理解生成一体化架构 需突破predict next frame技术难题 [2][28] 产品应用 - 推出Step 1X-Edit图片编辑模型 实现初级理解生成一体化 对原图忠实度达90%以上 正在开发更先进版本 [31] - 布局智能终端Agent生态 与手机/汽车/机器人领域头部企业合作 提供云端Agent构建平台和运行环境 [36] - 落地巡店等商业场景 通过规则Prompt实现操作规范检测 准确率超90% 显著提升连锁门店管理效率 [19] 发展路线 - 短期聚焦强化学习在预训练模型的应用 提升长思维链推理能力 解决奖励函数定义等工业界难题 [17] - 中期突破视觉领域理解生成一体化 构建可扩展架构以处理高维连续空间 最终实现世界模型 [24][28] - 长期通过"超级模型+超级应用"双轮驱动 形成从云到端的Agent生态体系 重点布局智能硬件场景 [33][36]
阶跃星辰姜大昕:多模态目前还没有出现GPT-4时刻
虎嗅· 2025-05-08 19:50
公司概况 - 阶跃星辰由前微软全球副总裁姜大昕于2023年创立,总部位于上海,北京办公室距离微软中国办公地仅504米 [1] - 公司核心管理团队包括CEO姜大昕(战略与技术研发)、首席科学家张祥雨(技术研发)、系统负责人朱亦博(AI基础设施) [1] - 公司员工规模达400余人,其中80%为技术研发人员,采用扁平化管理模式,员工可通过私信直接与CEO沟通 [2] - 2024年12月完成B轮数亿美元融资,是"AI六小虎"中少数坚持预训练路线的公司 [3] 技术战略 - 核心聚焦多模态基础模型研发,坚持"理解生成一体化架构"技术路线,认为这是实现AGI的必经之路 [1][11] - 已建立Step系列通用大模型矩阵,涵盖语言模型和多模态模型,2024年下半年多模态API调用量增长超45倍 [1][11] - 2025年1月发布推理模型Step R1-V-Mini,计划未来三个月推出满血版Step-R1 [14] - 近期将算法团队重组为"生成理解"团队,体现对理解生成一体化架构的重视 [1] 行业趋势判断 - 多模态领域尚未出现"GPT-4时刻",核心瓶颈在于缺乏统一的理解生成一体化架构 [1] - 模型演进路径分为三阶段:模拟世界(模仿训练)→探索世界(强化学习)→归纳世界(自主发现规律) [5][7] - 当前两大技术趋势:1) 将长思维链推理能力融入语言/多模态模型 2) 视觉领域理解生成一体化 [18][19] - 智能体(Agent)发展需要两个条件:多模态能力和慢思考能力,2024年这两方面取得突破性进展 [31] 产品应用 - 主要收入来源:面向品牌客户的ToB服务和面向开发者的API接口业务 [3] - 已推出Step 1X-Edit图片编辑模型,采用初级理解生成一体化技术,未来几个月将发布更先进版本 [30] - 重点布局智能终端Agent生态,与手机、汽车、机器人领域头部企业合作,提供云端Agent开发平台 [34][35] - 实际应用案例包括茶百道/瑞幸门店巡店系统,通过视觉推理实现90%以上的操作规范检测准确率 [17] 竞争格局 - 基础模型领域竞争激烈,过去半年仅OpenAI/Google/Meta/Grok/Anthropic就发布不少于8款新品 [3] - 国内竞争对手包括月之暗面、MiniMax等,但阶跃星辰在多模态覆盖广度和原生多模理念上具有差异化优势 [3][12] - 公司认为当前竞争焦点仍是"追求智能上限",将持续投入强化学习和多模态前沿技术研发 [4][15]