多模态技术

搜索文档
科大讯飞回应:机器人超脑平台如何收费及未来功能升级计划
搜狐财经· 2025-06-18 19:13
机器人超脑平台 - 平台结合视听融合的多模感知交互和先进大模型技术,通过软硬件一体化方式为机器人提供全新交互体验 [1] - 收费模式采取按台授权与服务定制相结合 按台授权根据每台机器人使用收取标准化费用 服务定制根据客户个性化需求如功能模块选择、特定场景适配等提供定制化收费服务 [1] 投资者沟通优化 - 投资者建议将公司高层在各种场合的讲话及活动内容提供全程回放并发布在微博、B站、抖音等平台以便小股东跟踪公司动态 [1] - 公司表示将在遵守合作方规则和合规前提下尽可能通过官方媒体平台发布可公开活动内容 同时持续优化投资者沟通方式提升信息传达覆盖面 [1] 讯飞星火大模型技术 - 投资者指出星火大模型在多模态能力上与GPT-3版本存在差距 特别是在处理复杂图形识别方面如拍照上传图片识别复杂迷宫并画出路线图等功能尚未实现 [2] - 公司回应将结合算法、数据及应用场景需求持续提升星火大模型多模态能力 根据研发进度和产品规划适时推动技术与应用融合落地 [2]
李彦宏的电商梦,靠罗永浩们的数字人能圆吗?
搜狐财经· 2025-06-18 17:55
数字人直播技术突破 - 罗永浩数字人直播吸引超1300万人次观看,整场GMV达5500万元,超过其真人直播表现,创数字人直播纪录 [2] - 直播由AI生成讲解文字9.7万字,驱动数字人动作8300个,采用百度多模协同数字人技术实现形象、声音、动作全方位复刻 [3][6] - 百度通过文心大模型4.5 Turbo学习罗永浩历史数据,结合社会热点生成具有罗氏幽默的直播剧本,并优化语音合成模型还原其特色口音 [3][4] 技术实现细节 - 采用文本生成、语音模型、视频模型等多模态技术,通过知识增强和检索增强降低大模型幻觉风险 [4][5] - 实现多模态流式生成技术减少互动时延,产品侧设置触发逻辑提升用户体验 [6] - 数字人成本已降至千元级别,较商家真人直播平均降低80%,头部主播成本优势更显著 [8] 商业化进展 - 百度数字人通过电商抽佣和广告已实现年收入几十亿元 [10] - 目前超10万商家使用数字人开播,半数直播间GMV超过真人表现 [8][12] - 公司计划通过补贴再打造10万个慧播星数字人,推动中小商家规模化应用 [10][12] 行业竞争格局 - 直播电商市场规模超5万亿元,数字人技术有望重塑行业供给端 [15] - 百度优选定位AI驱动智能电商平台,直播GMV占比已超50% [12][13] - 公司依托百度APP流量优势,每日超2000万用户使用智能导购决策 [13] 战略布局 - 数字人成为百度多模态技术落地重要方向,罗永浩案例为标杆实践 [9] - 电商业务被纳入公司最高优先级OKR,李彦宏亲自推动MCP Server开放 [12] - 未来直播间将向多智能体协同方向发展,不同智能体承担动态分工 [8]
从预训练到世界模型,智源借具身智能重构AI进化路径
第一财经· 2025-06-07 20:41
AI发展趋势 - AI发展速度被低估 技术进步呈现非线性特征 大模型作为基础设施未来将更关注上层应用 [1] - AI重点从大语言模型预训练转向世界模型培育 智源研究院宣布进入"具身智能"探索阶段 [1][3] - 大模型与机器本体深度耦合 推动机器人从1.0时代迈向2.0时代 加速数字与物理世界融合 [3] 世界模型技术 - 世界模型尚无统一定义 智源通过"悟界"系列产品体现技术理解 包括Emu3/Brainμ/RoboOS 2.0等 [3][4] - Emu3实现多模态技术突破 通过视觉tokenizer统一处理图像/视频/文本 简化跨模态知识迁移 [4] - 大模型需突破时空感知隔阂 才能实现数字世界向物理世界的跨越 [4] 底座大模型发展 - 大语言模型性能提升放缓 突破路径包括强化学习/数据合成/多模态数据 [5] - 多模态数据规模可达文字数据百倍至万倍 但利用率低下 成为技术突破重点 [5] - 原生多模态世界模型本质是让AI感知物理世界 通过与硬件结合解决实际问题 [5] 具身智能挑战 - 存在"数据-能力"循环悖论:具身能力不足限制数据采集 数据稀缺又制约模型发展 [6] - 技术路线尚未收敛 不同厂商采用差异化探索方式 智源方案仅为"一家之言" [6] - 跨本体小脑技能未达共识 需通过产业迭代实现硬件标准化 [8] 机器人行业痛点 - 场景泛化能力差 单一机器人难以适应多场景工作需求 [9] - 任务泛化能力差 需搭载不同程序完成同类场景不同任务 [9] - 本体泛化能力差 机器人设计高度依赖特定工作场景 [9] 控制技术现状 - MPC控制技术存在三大局限:仅适用结构化环境/固定流程/预编程任务 [10] - 具身大模型处于GPT-3前探索期 技术路径未统一 产业落地需突破多模态融合等基础问题 [10]
腾讯AI,加速狂飙的这半年
雷峰网· 2025-05-27 21:15
腾讯AI战略加速 - 公司从低调布局转向快速落地阶段,2024年第一季度资本开支达274.8亿元,同比增长91% [2][4] - 组织架构调整推动AI业务整合,混元大模型团队、QQ浏览器等并入云与智慧产业事业群(CSIG) [2][22] - 高层战略决心明确,马化腾在年会上强调持续投入算力并推动产品化落地 [25] 模型技术突破 - 混元TurboS大语言模型全球排名第八,理科推理能力提升10%,代码能力提升24%,竞赛数学成绩提升39% [6][7] - 混元T1模型在竞赛数学、常识问答、复杂任务Agent能力分别提升8%、8%、13% [7] - 多模态技术实现代际飞跃:图像生成达毫秒级,3D模型几何精度提升10倍,文生3D在17个类目中15项第一 [8] 产品化与场景落地 - 推出游戏视觉生成模型,美术设计效率提升数十倍,覆盖技能特效、角色立绘等五大子模型 [9] - 智能体开发平台支持零代码多Agent协同,演示案例中5分钟完成跨境寄件全流程 [12][15] - 知识库产品腾讯乐享实现企业人效两位数提升,科沃斯案例节省百万级运营成本 [17][18] 市场与用户增长 - 腾讯元宝接入DeepSeek-R1后下载量跃居苹果免费榜第二,Q1月活达2358万,环比增长1546% [23] - QQ浏览器升级AI功能后用户活跃度提升,内置QBot支持双模型调用,覆盖4亿用户 [24][25] 行业趋势与竞争 - 全球AI智能体市场规模预计从2024年52.9亿美元增至2035年2168亿美元,年复合增长率40.15% [18] - 国内大模型竞争加剧,DeepSeek等对手推动公司加速资源集结与产品迭代 [21][22]
算力产业近况解读
2025-05-25 23:31
纪要涉及的行业和公司 - **行业**:算力产业、GPU 行业 - **公司**:英伟达、华为、阿里巴巴、百度、腾讯、字节跳动、寒武纪、昆仑芯、韩 5G、海光、火山引擎、智谱、讯飞 纪要提到的核心观点和论据 市场需求与前景 - **全球和国内 GPU 市场需求持续增长**:中国因贸易摩擦,依赖国产或降配版进口芯片;国际上美国生成式多模态及 AGI 技术发展、其他地区推进大模型行业落地带动算力需求[1][3] - **未来两年存在两种情景**:贸易摩擦加剧,国产芯片需求增加;关系缓和,降配版进口芯片推动多模态应用发展,无论哪种情景算力需求都增加[3] 英伟达产品情况 - **英伟达 H20 不受青睐**:降配后性能优势减少、利润下降,头部互联网公司或云服务企业倾向选择性价比更高的国产芯片,国产卡逐渐占据更多市场份额[1][4][5] - **英伟达在中国市场 GPU 卡性价比降低**:预计 2025 年再推降配版 H20 难获大量订单,仅个别急需公司可能购买[5] - **国内公司倾向 B20 而非 H20**:H20 性能下降严重,无法满足多模态推理和 agent 应用需求;B20 架构并行速度和卡间协作更佳,单机内和集群内表现损耗小[1][11] - **B 系列降配版能满足禁令要求**:H 系列因物理架构限制,缩减显存和降低计算频率会使集群表现大幅下降;B 系列架构处理好,配置低时表现损耗小[12] 国产芯片情况 - **华为升腾系列有进展但存在不足**:升腾 910C 通过 3D 空间式设计提升单机架内算力约 25%,但缺乏 Nvlink 导致数据传输速度受限[6] - **韩 5G 芯片有突破但表现欠佳**:实现单片参数技术突破,但在组网及复杂计算中表现欠佳,高可用性材料有差距[6] - **国产芯片需补足多方面**:软硬件结合能力不足、产能问题(如寒武纪无训练卡生产能力)、良品率低,导致显存、传输速度、更新迭代及产能分布存在不足[20] 国内互联网巨头自研芯片情况 - **阿里巴巴**:通过平头哥系列服务于阿里云,用于降低成本、硬件加速和 IoT 场景[7] - **百度**:通过昆仑芯推进大模型推理商业化,与飞桨开发框架适配,实现自主可控[7] - **腾讯和字节跳动**:集中于视频解码、加速及神经网络训练等领域,字节跳动还尝试与台积电合作研发高性能多模态推理芯片[7] 应用场景与算力投入 - **推理场景资源消耗接近训练场景**:2025 年多模态推理场景资源消耗与训练相差无几,特定场景推理成本超训练成本,预计 2026 年互联网公司算力投入向推理倾斜[1][8][9] - **公有云需求未显著增长**:中小企业接入大模型 API 或构建 agent 较少,市场以头部公司自有业务为主导,社会面日常 TOKEN 消耗量相对较低[10] 市场供应与租赁挑战 - **高性能计算芯片供应情况**:英伟达 H20 大部分被头部公司购买,A100 和 A800 应用场景有限,H100 和 H800 价格昂贵,小型企业难以负担,且头部公司考虑数据安全不轻易选择外部集群[17] - **企业租赁高性能芯片面临挑战**:大规模预训练需显卡集中,推理环节需求无法分散,高性能芯片大规模使用存在市场供应量和技术困难,零星或大规模租赁不可行[2][19] 多模态技术市场情况 - **多模态技术占领市场概率高**:2024 - 2025 年末市场规模预计增长 15 - 20 倍,火山引擎大模型有效 tokens 部分来自公有云供中小企业使用[14] 其他重要但可能被忽略的内容 - **字节跳动租赁情况**:租赁 IDC 和机房存放芯片,年初租赁算力用于抖音和豆包相关功能加速,为临时性非大规模租用 GPU[15][16] - **腾讯 GPU 采购困难**:今年一季度疯狂购买 GPU,二三月难买到,四月底五月甚至考虑向字节跳动购买,反映国内市场优质 GPU 资源争夺激烈且供不应求[22] - **非上市公司芯片情况**:昆仑芯推理效果优异,集群版每秒可处理 4000 多个 tokens,单机版能处理三四十个 tokens,P 系列推理优化后集群表现优于华为 910B;韩 5G 芯片带宽传输有瓶颈、耗电量大;海光少量采购组网测试,测试质量难保证[23][24] - **全球 GPU 市场格局及资本开支**:2025 年资本开支增长迅速,2026 年预计下降至 50%以下;字节跳动和阿里巴巴算力采购总量可能降至 80%左右,腾讯增加采购量,百度需求与今年持平但推理侧需求增加;若政策支持,百度将增加昆仑芯产能或进口芯片;2026 年华为生成芯片产能约 85 万,可能被国央企优先购买[25]
全球智能体榜单新SOTA!中国公司登顶,Office三件套一键生成,全程可控可溯源,打工人直接拿来用
量子位· 2025-05-22 10:01
公司表现 - 昆仑万维推出的天工超级智能体(Skywork Super Agents)上线即登顶GAIA榜单,超越Manus和OpenAI的Deep Research [1][2] - 在GAIA基准测试中,该产品在Level 1和Level 2以显著优势领先,Level 3与Manus持平 [2][18] - 同时获得SimpleQA评分第一和Product Hunt日榜第一 [19] 技术能力 - 支持五种模态一站式生成,包括Office三件套(Word/PPT/Excel)、网站、网页、播客 [8] - 首创表格生成功能,可自动生成数据表格和图表 [21] - 集成十余种MCP工具,实现多模态内容联动生成(如MV/宣传片/有声书) [51][52] 产品设计 - 采用场景化入口设计,覆盖20+高频工作场景(商业报告/简历/合同等),降低用户提示词门槛 [22][23] - 全链路可控设计:需求确认→大纲审核→内容溯源,关键节点支持人工干预 [36][56] - 生成内容可溯源、可编辑,并支持NotebookLM式私人知识库功能 [9][51] 行业影响 - GAIA基准包含450个真实世界问题,人类得分率92% vs GPT-4插件版仅15%,凸显技术突破难度 [17] - 产品从"技术秀场"转向"生产力工具",解决AI工具半成品烂尾痛点 [55][56] - 开源DeepResearch Agent框架,提供三件套生成能力接口供开发者调用 [53][54] 市场定位 - 海外版和国内版同步上线,界面设计优于同类竞品 [20][61] - 差异化聚焦"打工人友好"特性,填补市场空白(传统Agent不支持文件溯源/格式有限) [10][12] - 通过Office三件套深度优化建立职场场景壁垒 [31][56]
谷歌IO大会点评
2025-05-21 23:14
纪要涉及的公司 谷歌 纪要提到的核心观点和论据 - **应对竞争增强 AI 搜索产品竞争力**:谷歌通过提升 AI 搜索器比例、推出升级版 AI 模式,使 AI 搜索产品月活跃用户达 15 亿;月均处理 tokens 达 480 万亿,较去年同期增长 50 倍,远超微软同期 50 万亿的处理量;今年资本开支预计 750 亿美元,云业务增速显著[2][3] - **原生多模态技术取得进展**:展示 native language understanding 功能,支持原生语音和音频输出;演示视频和图像生成产品 ImageFour 的更新[2][6] - **Google Lens APP 新增功能**:Project Xtra 改名为 Jennifer Live,实现实时屏幕共享和摄像头演示;增加实时投影、与 AI 助手互动等功能[2][7] - **提升算力支持生态系统**:2024 年等效 H100 算力接近 150 万,2025 年预计达到 450 万,但因生态系统消耗量大,仍需扩展计算能力[2][8] - **推出新的 AI 功能和技术**:推出基于 Gemini APP 的 AI agent(Action Intelligent),能主动操作用户手机并接入 MCP 接口;PC 端推出 agent mode 功能,与 Airbnb 等合作预约;推出 Chrome 浏览器扩展 Gmail on Chrome[9] - **利用生态系统增强 AI 应用**:通过整合安卓设备、Gmail 邮箱、Google 日历等,推出 personal context 功能,利用用户个人信息背景提供个性化服务[4][10] - **推出新的 AI 眼镜**:推出 Android XR AI 眼镜,与三星、高通、时尚眼镜公司合作,具备发短信、拍照、实时对话翻译等功能[11] - **构建下一代模型**:构建世界模型,从模拟世界各方面学习和理解,推动机器人技术发展,使 AI 系统能在现实世界有效运作[4][12] 其他重要但是可能被忽略的内容 - 谷歌提前发布 Jenna 2.5 Pro 预览版本,而非原计划在 520 当天发布[3] - 升级版 AI 模式输出内容更丰富、详细,包含更多图表总结,tokens 数量是传统 AI Overview 的两到三倍[4][5] - 全美范围内全面推出增强现实试穿功能,消费者可通过拍摄全身照片虚拟试穿衣物[5] - 谷歌 JUMPER 2.5 Po 模型 TOKEN 调用量增长最快,微软月均消耗 50 万亿 TOKEN,谷歌达到 48 万亿 TOKEN,供不应求[13] - 谷歌全面武装产品线上的 AI 能力,包括 QQ 浏览器、手机端及 PC 端,以提升整体竞争力[13]
每周一问大模型 | 基模“五强”谁最水,谁最强?
搜狐财经· 2025-05-19 15:26
中国基础大模型五强竞争格局 - 字节跳动、阿里巴巴、阶跃星辰、智谱AI和DeepSeek被列为国产基础大模型领域的核心力量,形成"基模五强"竞争格局 [1] 阿里巴巴 - 综合实力最强,通义千问模型在MMLU、CMMLU等权威评测中排名靠前,Qwen-72B能与GPT-4正面抗衡 [47][53] - 开源生态领先,Qwen系列在Hugging Face上持续维护,下载量超3亿次,社区活跃度高 [47][64] - 商业化能力突出,通过阿里云"百炼平台"服务超29万家企业,API调用量高 [61] - 资金投入巨大,近三年AI战略投入达3800亿元人民币,未来三年计划继续投入3800亿元 [39][61] - 技术布局全面,覆盖文本、图像、视频、语音等多模态领域 [64] 字节跳动 - 生态整合能力强,依托抖音、今日头条等平台,将AI嵌入内容推荐、协同办公等场景 [61] - C端落地领先,豆包APP日活跃用户数高,月活超1亿,产品交互体验优于竞品 [50][61] - 资金投入充足,2025年拨出超1500亿元战略支出,张一鸣亲自推动AI战略 [39][61] - 多模态能力覆盖电商、医疗、教育等场景,视频生成工具"即梦"在电商直播、虚拟偶像场景落地 [9][61] - 技术团队强大,整合光年之外、零一万物等团队,吸纳吴永辉等技术大牛 [39][61] DeepSeek - 技术突破显著,DeepSeek-R1在代码能力上超过Gemini 2.5,推理性能接近甚至超越其他模型 [39] - 极致性价比,训练成本仅为行业头部1/10,API定价低至OpenAI的1/30 [24][61] - 工程创新突出,通过降秩KV矩阵、混合专家架构优化计算效率 [24] - 开源策略获得开发者青睐,DeepSeek-Coder等模型性能极强,在GitHub社区影响力迅速上升 [39][47] - 在LMSYS Org榜单中数学、代码生成任务排名第一 [24] 阶跃星辰 - 多模态技术领先,发布22款基座模型,其中16款为多模态模型,覆盖文本、图像、视频、语音、音乐等 [11][24][39] - 视频生成技术突出,Step-Video-T2V为全球参数量最大、性能最优的开源视频生成模型 [61] - 商业化增长迅速,2024年多模态API调用量增长45倍,聚焦智能体与终端结合 [13] - 获得头部客户,在智能终端领域与OPPO、吉利、智元机器人等合作 [13][24] - 融资顺利,B轮融资数亿美元,有上海国有资本等强力支持 [39] 智谱AI - 政企市场优势明显,中标32个政府及企业项目,金额达1.29亿元,覆盖金融、医疗、政务等20余行业 [14][24] - 学术背景深厚,背靠清华大学,GLM系列模型在中文问答、代码生成等领域表现优异 [14][21] - 商业化收入增长显著,年增长超100%,是首个启动IPO的大模型公司 [14] - 技术布局全面,构建基座模型、推理模型、多模态模型全栈产品体系 [24] - 开源策略启动较晚,计划2025年启动,生态建设落后于阿里巴巴 [12] 未来竞争焦点 - 智能上限竞争,聚焦模型推理能力、长链思维链突破,如DeepSeek的RL机制、阶跃的多模态融合 [15][23] - 多模态与智能体落地,多模态能力是AGI基础,智能体落地将决定技术溢出价值 [23] - 商业化路径验证,需要持续验证开源生态、垂类场景、性价比策略的市场接受度 [23] - 成本控制关键,DeepSeek的工程优化、阿里的算力基建将是规模化决胜关键 [15] - 技术架构突破,阶跃星辰需要解决多模态理解与生成一体化架构难题 [11][13] 行业竞争排名 - 综合实力排名:阿里巴巴最强,字节跳动次之,DeepSeek和阶跃星辰最具潜力,智谱AI相对短板 [15][44][64] - 技术专长排名:DeepSeek在数理推理领域领先,阶跃星辰在多模态技术突出,阿里巴巴在开源生态领先 [20][33][44] - 商业化能力排名:阿里巴巴和字节跳动商业化成熟度最高,智谱AI在政企市场有优势,DeepSeek商业化路径待验证 [15][22][61]
月之暗面Kimi牵手小红书,深挖场景、扩大市场营销合作
第一财经· 2025-05-12 18:20
此次双方合作聚焦市场营销层面,且以小红书为主体。 挑战活动规则显示,用户需连续21天使用Kimi完成小红书热门AI任务,例如生成旅行攻略、拆解复杂知识框架或辅助创意文案等,完成任务可兑换周边礼 品及算力奖励。小红书作为以年轻用户为主的"种草"平台,据千瓜数据《2024小红书活跃用户报告》,小红书月活用户达3亿。双方的社区联动合作或为 Kimi触达C端用户、提升品牌认知提供一定助力。 C端市场中,DeepSeek爆火之前,Kimi以"支持20万字上下文"差异性技术特点与烧钱打市场策略占据先发优势。但DeepSeek推出的128k长窗口模型以更低价 格优势冲击市场,加之字节跳动豆包、腾讯元宝、阿里通义千问等大厂产品持续迭代,Kimi优势逐渐被稀释。 如今,大模型行业竞争已进入深水区,除了传统文本对话,行业逐渐侧重图像、视频、音频等多模态技术的探索与落地。另外,DeepSeek也令资本市场重 估投资逻辑,2025年的大模型一级市场维持审慎冷静态势。Kimi虽在创立初期完成多轮融资,但在一级市场投资节奏放缓、参与者更新速度加快的当下, 公司商业化压力大幅增加。行业认为,面对激烈竞争与头部企业挤压,如何将技术转化为实际 ...
突发!曝阿里通义薄列峰离职,此前为应用视觉团队负责人
是说芯语· 2025-05-09 07:32
阿里巴巴通义实验室高层变动 - 阿里巴巴通义实验室应用视觉团队负责人薄列峰(职级P10)于4月30日离职,他曾带领团队开发出"兵马俑跳科目三"等爆款功能 [2][3] - 薄列峰已加入某互联网大厂(猜测为字节跳动或腾讯),base美国,担任多模态模型部副总经理,直接向公司副总裁汇报 [4] - 这是通义实验室今年第二位离职的高层,此前语音团队负责人鄢志杰(达摩院创始"扫地僧"之一)已于2月15日离职,两个职位接替人选均未公布 [4] 离职影响分析 - 离职可能延缓阿里大模型技术路线推进速度,延长产品迭代周期 [4] - 多模态技术整合与商业化落地节奏可能受到干扰,商业推广计划需重新评估 [4] - 若加入竞争对手公司,将对阿里AI版图扩张形成阻力 [4] 薄列峰在阿里的任职经历 - 2022年加入阿里,接替谭平担任达摩院XR实验室负责人 [6] - 在阿里云重组通义实验室后被任命为应用视觉团队负责人,被称为"阿里通义大模型图像和多模态方向的领军人物" [6] - 任职期间带领团队开发出多个爆款应用功能 [2] 通义实验室人才结构 - 实验室核心成员包括自然语言处理方向负责人黄非(前Facebook AI翻译主管)、系统研发总监周文猛、通义千问产品负责人林俊旸等 [7] - 人才梯队呈现"外部招徕老将"带领"内部培育新兵"的特色 [7] 薄列峰职业背景 - 西安电子科技大学博士,曾在芝加哥大学和华盛顿大学从事博士后研究 [9] - 2013-2017年任亚马逊首席科学家,领导Amazon Go无人零售店核心技术研发 [9] - 2017-2022年任京东数科AI实验室首席科学家 [9] - 研究领域涵盖机器学习、计算机视觉、自然语言处理等多个方向 [9]