多模态技术

搜索文档
科大讯飞回应:机器人超脑平台如何收费及未来功能升级计划
搜狐财经· 2025-06-18 19:13
机器人超脑平台 - 平台结合视听融合的多模感知交互和先进大模型技术,通过软硬件一体化方式为机器人提供全新交互体验 [1] - 收费模式采取按台授权与服务定制相结合 按台授权根据每台机器人使用收取标准化费用 服务定制根据客户个性化需求如功能模块选择、特定场景适配等提供定制化收费服务 [1] 投资者沟通优化 - 投资者建议将公司高层在各种场合的讲话及活动内容提供全程回放并发布在微博、B站、抖音等平台以便小股东跟踪公司动态 [1] - 公司表示将在遵守合作方规则和合规前提下尽可能通过官方媒体平台发布可公开活动内容 同时持续优化投资者沟通方式提升信息传达覆盖面 [1] 讯飞星火大模型技术 - 投资者指出星火大模型在多模态能力上与GPT-3版本存在差距 特别是在处理复杂图形识别方面如拍照上传图片识别复杂迷宫并画出路线图等功能尚未实现 [2] - 公司回应将结合算法、数据及应用场景需求持续提升星火大模型多模态能力 根据研发进度和产品规划适时推动技术与应用融合落地 [2]
李彦宏的电商梦,靠罗永浩们的数字人能圆吗?
搜狐财经· 2025-06-18 17:55
数字人直播技术突破 - 罗永浩数字人直播吸引超1300万人次观看,整场GMV达5500万元,超过其真人直播表现,创数字人直播纪录 [2] - 直播由AI生成讲解文字9.7万字,驱动数字人动作8300个,采用百度多模协同数字人技术实现形象、声音、动作全方位复刻 [3][6] - 百度通过文心大模型4.5 Turbo学习罗永浩历史数据,结合社会热点生成具有罗氏幽默的直播剧本,并优化语音合成模型还原其特色口音 [3][4] 技术实现细节 - 采用文本生成、语音模型、视频模型等多模态技术,通过知识增强和检索增强降低大模型幻觉风险 [4][5] - 实现多模态流式生成技术减少互动时延,产品侧设置触发逻辑提升用户体验 [6] - 数字人成本已降至千元级别,较商家真人直播平均降低80%,头部主播成本优势更显著 [8] 商业化进展 - 百度数字人通过电商抽佣和广告已实现年收入几十亿元 [10] - 目前超10万商家使用数字人开播,半数直播间GMV超过真人表现 [8][12] - 公司计划通过补贴再打造10万个慧播星数字人,推动中小商家规模化应用 [10][12] 行业竞争格局 - 直播电商市场规模超5万亿元,数字人技术有望重塑行业供给端 [15] - 百度优选定位AI驱动智能电商平台,直播GMV占比已超50% [12][13] - 公司依托百度APP流量优势,每日超2000万用户使用智能导购决策 [13] 战略布局 - 数字人成为百度多模态技术落地重要方向,罗永浩案例为标杆实践 [9] - 电商业务被纳入公司最高优先级OKR,李彦宏亲自推动MCP Server开放 [12] - 未来直播间将向多智能体协同方向发展,不同智能体承担动态分工 [8]
从预训练到世界模型,智源借具身智能重构AI进化路径
第一财经· 2025-06-07 20:41
AI发展趋势 - AI发展速度被低估 技术进步呈现非线性特征 大模型作为基础设施未来将更关注上层应用 [1] - AI重点从大语言模型预训练转向世界模型培育 智源研究院宣布进入"具身智能"探索阶段 [1][3] - 大模型与机器本体深度耦合 推动机器人从1.0时代迈向2.0时代 加速数字与物理世界融合 [3] 世界模型技术 - 世界模型尚无统一定义 智源通过"悟界"系列产品体现技术理解 包括Emu3/Brainμ/RoboOS 2.0等 [3][4] - Emu3实现多模态技术突破 通过视觉tokenizer统一处理图像/视频/文本 简化跨模态知识迁移 [4] - 大模型需突破时空感知隔阂 才能实现数字世界向物理世界的跨越 [4] 底座大模型发展 - 大语言模型性能提升放缓 突破路径包括强化学习/数据合成/多模态数据 [5] - 多模态数据规模可达文字数据百倍至万倍 但利用率低下 成为技术突破重点 [5] - 原生多模态世界模型本质是让AI感知物理世界 通过与硬件结合解决实际问题 [5] 具身智能挑战 - 存在"数据-能力"循环悖论:具身能力不足限制数据采集 数据稀缺又制约模型发展 [6] - 技术路线尚未收敛 不同厂商采用差异化探索方式 智源方案仅为"一家之言" [6] - 跨本体小脑技能未达共识 需通过产业迭代实现硬件标准化 [8] 机器人行业痛点 - 场景泛化能力差 单一机器人难以适应多场景工作需求 [9] - 任务泛化能力差 需搭载不同程序完成同类场景不同任务 [9] - 本体泛化能力差 机器人设计高度依赖特定工作场景 [9] 控制技术现状 - MPC控制技术存在三大局限:仅适用结构化环境/固定流程/预编程任务 [10] - 具身大模型处于GPT-3前探索期 技术路径未统一 产业落地需突破多模态融合等基础问题 [10]
腾讯AI,加速狂飙的这半年
雷峰网· 2025-05-27 21:15
腾讯AI战略加速 - 公司从低调布局转向快速落地阶段,2024年第一季度资本开支达274.8亿元,同比增长91% [2][4] - 组织架构调整推动AI业务整合,混元大模型团队、QQ浏览器等并入云与智慧产业事业群(CSIG) [2][22] - 高层战略决心明确,马化腾在年会上强调持续投入算力并推动产品化落地 [25] 模型技术突破 - 混元TurboS大语言模型全球排名第八,理科推理能力提升10%,代码能力提升24%,竞赛数学成绩提升39% [6][7] - 混元T1模型在竞赛数学、常识问答、复杂任务Agent能力分别提升8%、8%、13% [7] - 多模态技术实现代际飞跃:图像生成达毫秒级,3D模型几何精度提升10倍,文生3D在17个类目中15项第一 [8] 产品化与场景落地 - 推出游戏视觉生成模型,美术设计效率提升数十倍,覆盖技能特效、角色立绘等五大子模型 [9] - 智能体开发平台支持零代码多Agent协同,演示案例中5分钟完成跨境寄件全流程 [12][15] - 知识库产品腾讯乐享实现企业人效两位数提升,科沃斯案例节省百万级运营成本 [17][18] 市场与用户增长 - 腾讯元宝接入DeepSeek-R1后下载量跃居苹果免费榜第二,Q1月活达2358万,环比增长1546% [23] - QQ浏览器升级AI功能后用户活跃度提升,内置QBot支持双模型调用,覆盖4亿用户 [24][25] 行业趋势与竞争 - 全球AI智能体市场规模预计从2024年52.9亿美元增至2035年2168亿美元,年复合增长率40.15% [18] - 国内大模型竞争加剧,DeepSeek等对手推动公司加速资源集结与产品迭代 [21][22]
算力产业近况解读
2025-05-25 23:31
纪要涉及的行业和公司 - **行业**:算力产业、GPU 行业 - **公司**:英伟达、华为、阿里巴巴、百度、腾讯、字节跳动、寒武纪、昆仑芯、韩 5G、海光、火山引擎、智谱、讯飞 纪要提到的核心观点和论据 市场需求与前景 - **全球和国内 GPU 市场需求持续增长**:中国因贸易摩擦,依赖国产或降配版进口芯片;国际上美国生成式多模态及 AGI 技术发展、其他地区推进大模型行业落地带动算力需求[1][3] - **未来两年存在两种情景**:贸易摩擦加剧,国产芯片需求增加;关系缓和,降配版进口芯片推动多模态应用发展,无论哪种情景算力需求都增加[3] 英伟达产品情况 - **英伟达 H20 不受青睐**:降配后性能优势减少、利润下降,头部互联网公司或云服务企业倾向选择性价比更高的国产芯片,国产卡逐渐占据更多市场份额[1][4][5] - **英伟达在中国市场 GPU 卡性价比降低**:预计 2025 年再推降配版 H20 难获大量订单,仅个别急需公司可能购买[5] - **国内公司倾向 B20 而非 H20**:H20 性能下降严重,无法满足多模态推理和 agent 应用需求;B20 架构并行速度和卡间协作更佳,单机内和集群内表现损耗小[1][11] - **B 系列降配版能满足禁令要求**:H 系列因物理架构限制,缩减显存和降低计算频率会使集群表现大幅下降;B 系列架构处理好,配置低时表现损耗小[12] 国产芯片情况 - **华为升腾系列有进展但存在不足**:升腾 910C 通过 3D 空间式设计提升单机架内算力约 25%,但缺乏 Nvlink 导致数据传输速度受限[6] - **韩 5G 芯片有突破但表现欠佳**:实现单片参数技术突破,但在组网及复杂计算中表现欠佳,高可用性材料有差距[6] - **国产芯片需补足多方面**:软硬件结合能力不足、产能问题(如寒武纪无训练卡生产能力)、良品率低,导致显存、传输速度、更新迭代及产能分布存在不足[20] 国内互联网巨头自研芯片情况 - **阿里巴巴**:通过平头哥系列服务于阿里云,用于降低成本、硬件加速和 IoT 场景[7] - **百度**:通过昆仑芯推进大模型推理商业化,与飞桨开发框架适配,实现自主可控[7] - **腾讯和字节跳动**:集中于视频解码、加速及神经网络训练等领域,字节跳动还尝试与台积电合作研发高性能多模态推理芯片[7] 应用场景与算力投入 - **推理场景资源消耗接近训练场景**:2025 年多模态推理场景资源消耗与训练相差无几,特定场景推理成本超训练成本,预计 2026 年互联网公司算力投入向推理倾斜[1][8][9] - **公有云需求未显著增长**:中小企业接入大模型 API 或构建 agent 较少,市场以头部公司自有业务为主导,社会面日常 TOKEN 消耗量相对较低[10] 市场供应与租赁挑战 - **高性能计算芯片供应情况**:英伟达 H20 大部分被头部公司购买,A100 和 A800 应用场景有限,H100 和 H800 价格昂贵,小型企业难以负担,且头部公司考虑数据安全不轻易选择外部集群[17] - **企业租赁高性能芯片面临挑战**:大规模预训练需显卡集中,推理环节需求无法分散,高性能芯片大规模使用存在市场供应量和技术困难,零星或大规模租赁不可行[2][19] 多模态技术市场情况 - **多模态技术占领市场概率高**:2024 - 2025 年末市场规模预计增长 15 - 20 倍,火山引擎大模型有效 tokens 部分来自公有云供中小企业使用[14] 其他重要但可能被忽略的内容 - **字节跳动租赁情况**:租赁 IDC 和机房存放芯片,年初租赁算力用于抖音和豆包相关功能加速,为临时性非大规模租用 GPU[15][16] - **腾讯 GPU 采购困难**:今年一季度疯狂购买 GPU,二三月难买到,四月底五月甚至考虑向字节跳动购买,反映国内市场优质 GPU 资源争夺激烈且供不应求[22] - **非上市公司芯片情况**:昆仑芯推理效果优异,集群版每秒可处理 4000 多个 tokens,单机版能处理三四十个 tokens,P 系列推理优化后集群表现优于华为 910B;韩 5G 芯片带宽传输有瓶颈、耗电量大;海光少量采购组网测试,测试质量难保证[23][24] - **全球 GPU 市场格局及资本开支**:2025 年资本开支增长迅速,2026 年预计下降至 50%以下;字节跳动和阿里巴巴算力采购总量可能降至 80%左右,腾讯增加采购量,百度需求与今年持平但推理侧需求增加;若政策支持,百度将增加昆仑芯产能或进口芯片;2026 年华为生成芯片产能约 85 万,可能被国央企优先购买[25]
全球智能体榜单新SOTA!中国公司登顶,Office三件套一键生成,全程可控可溯源,打工人直接拿来用
量子位· 2025-05-22 10:01
公司表现 - 昆仑万维推出的天工超级智能体(Skywork Super Agents)上线即登顶GAIA榜单,超越Manus和OpenAI的Deep Research [1][2] - 在GAIA基准测试中,该产品在Level 1和Level 2以显著优势领先,Level 3与Manus持平 [2][18] - 同时获得SimpleQA评分第一和Product Hunt日榜第一 [19] 技术能力 - 支持五种模态一站式生成,包括Office三件套(Word/PPT/Excel)、网站、网页、播客 [8] - 首创表格生成功能,可自动生成数据表格和图表 [21] - 集成十余种MCP工具,实现多模态内容联动生成(如MV/宣传片/有声书) [51][52] 产品设计 - 采用场景化入口设计,覆盖20+高频工作场景(商业报告/简历/合同等),降低用户提示词门槛 [22][23] - 全链路可控设计:需求确认→大纲审核→内容溯源,关键节点支持人工干预 [36][56] - 生成内容可溯源、可编辑,并支持NotebookLM式私人知识库功能 [9][51] 行业影响 - GAIA基准包含450个真实世界问题,人类得分率92% vs GPT-4插件版仅15%,凸显技术突破难度 [17] - 产品从"技术秀场"转向"生产力工具",解决AI工具半成品烂尾痛点 [55][56] - 开源DeepResearch Agent框架,提供三件套生成能力接口供开发者调用 [53][54] 市场定位 - 海外版和国内版同步上线,界面设计优于同类竞品 [20][61] - 差异化聚焦"打工人友好"特性,填补市场空白(传统Agent不支持文件溯源/格式有限) [10][12] - 通过Office三件套深度优化建立职场场景壁垒 [31][56]
谷歌IO大会点评
2025-05-21 23:14
纪要涉及的公司 谷歌 纪要提到的核心观点和论据 - **应对竞争增强 AI 搜索产品竞争力**:谷歌通过提升 AI 搜索器比例、推出升级版 AI 模式,使 AI 搜索产品月活跃用户达 15 亿;月均处理 tokens 达 480 万亿,较去年同期增长 50 倍,远超微软同期 50 万亿的处理量;今年资本开支预计 750 亿美元,云业务增速显著[2][3] - **原生多模态技术取得进展**:展示 native language understanding 功能,支持原生语音和音频输出;演示视频和图像生成产品 ImageFour 的更新[2][6] - **Google Lens APP 新增功能**:Project Xtra 改名为 Jennifer Live,实现实时屏幕共享和摄像头演示;增加实时投影、与 AI 助手互动等功能[2][7] - **提升算力支持生态系统**:2024 年等效 H100 算力接近 150 万,2025 年预计达到 450 万,但因生态系统消耗量大,仍需扩展计算能力[2][8] - **推出新的 AI 功能和技术**:推出基于 Gemini APP 的 AI agent(Action Intelligent),能主动操作用户手机并接入 MCP 接口;PC 端推出 agent mode 功能,与 Airbnb 等合作预约;推出 Chrome 浏览器扩展 Gmail on Chrome[9] - **利用生态系统增强 AI 应用**:通过整合安卓设备、Gmail 邮箱、Google 日历等,推出 personal context 功能,利用用户个人信息背景提供个性化服务[4][10] - **推出新的 AI 眼镜**:推出 Android XR AI 眼镜,与三星、高通、时尚眼镜公司合作,具备发短信、拍照、实时对话翻译等功能[11] - **构建下一代模型**:构建世界模型,从模拟世界各方面学习和理解,推动机器人技术发展,使 AI 系统能在现实世界有效运作[4][12] 其他重要但是可能被忽略的内容 - 谷歌提前发布 Jenna 2.5 Pro 预览版本,而非原计划在 520 当天发布[3] - 升级版 AI 模式输出内容更丰富、详细,包含更多图表总结,tokens 数量是传统 AI Overview 的两到三倍[4][5] - 全美范围内全面推出增强现实试穿功能,消费者可通过拍摄全身照片虚拟试穿衣物[5] - 谷歌 JUMPER 2.5 Po 模型 TOKEN 调用量增长最快,微软月均消耗 50 万亿 TOKEN,谷歌达到 48 万亿 TOKEN,供不应求[13] - 谷歌全面武装产品线上的 AI 能力,包括 QQ 浏览器、手机端及 PC 端,以提升整体竞争力[13]
突发!曝阿里通义薄列峰离职,此前为应用视觉团队负责人
是说芯语· 2025-05-09 07:32
阿里巴巴通义实验室高层变动 - 阿里巴巴通义实验室应用视觉团队负责人薄列峰(职级P10)于4月30日离职,他曾带领团队开发出"兵马俑跳科目三"等爆款功能 [2][3] - 薄列峰已加入某互联网大厂(猜测为字节跳动或腾讯),base美国,担任多模态模型部副总经理,直接向公司副总裁汇报 [4] - 这是通义实验室今年第二位离职的高层,此前语音团队负责人鄢志杰(达摩院创始"扫地僧"之一)已于2月15日离职,两个职位接替人选均未公布 [4] 离职影响分析 - 离职可能延缓阿里大模型技术路线推进速度,延长产品迭代周期 [4] - 多模态技术整合与商业化落地节奏可能受到干扰,商业推广计划需重新评估 [4] - 若加入竞争对手公司,将对阿里AI版图扩张形成阻力 [4] 薄列峰在阿里的任职经历 - 2022年加入阿里,接替谭平担任达摩院XR实验室负责人 [6] - 在阿里云重组通义实验室后被任命为应用视觉团队负责人,被称为"阿里通义大模型图像和多模态方向的领军人物" [6] - 任职期间带领团队开发出多个爆款应用功能 [2] 通义实验室人才结构 - 实验室核心成员包括自然语言处理方向负责人黄非(前Facebook AI翻译主管)、系统研发总监周文猛、通义千问产品负责人林俊旸等 [7] - 人才梯队呈现"外部招徕老将"带领"内部培育新兵"的特色 [7] 薄列峰职业背景 - 西安电子科技大学博士,曾在芝加哥大学和华盛顿大学从事博士后研究 [9] - 2013-2017年任亚马逊首席科学家,领导Amazon Go无人零售店核心技术研发 [9] - 2017-2022年任京东数科AI实验室首席科学家 [9] - 研究领域涵盖机器学习、计算机视觉、自然语言处理等多个方向 [9]
巨头专家聊Agent与Coze
2025-04-24 09:55
纪要涉及的行业和公司 行业:AI 开发、金融、地图、医疗、教育、电商、玩具手办、智能穿戴等 公司:字节跳动及其旗下扣子、豆包、Tree、飞书、剪映、猫箱、豆包爱学、新会智梦、Coze(吉梦)、Newtree 等产品,以及阿里、百度、腾讯、阿里云、Deepseek、瑞芯科技、乐乐欣等相关企业 纪要提到的核心观点和论据 扣子平台 - **核心观点**:扣子平台在隐私保护、技术布局、开发者生态和商业化变现等方面具有优势,市场表现良好且前景乐观 - **论据**: - 隐私保护:低代码开发平台和扣子空间通过多种措施保障用户数据安全与隐私,MCP 协议集成众多厂商和模型 API 并通过审核机制确保安全[2][3] - 技术布局:集中在多模态融合、工作流引擎、MCP 协议集成和开发者生态四个方面,如 5 月将发布多模态完全体模型,工作流引擎可满足高并发调用需求等[4] - 开发者生态:应用商店提供近 800 款 AI 应用,开发者可获 70%收益分成,已有近 15 万家开发者接入[7] - 商业化变现:途径包括开发者分成、企业订阅服务、私有化项目定制、广告变现和云服务增值[8] - 市场表现:月活跃用户超 700 万,海外用户超 250 万,跻身全球 AI 开发平台前五,注册开发者超 15 万,企业开发者占比超 40%,日处理任务超 1.5 亿次[2][21][22] - 前景展望:研发团队预计年底达近 800 人,用户增长比例按月增速 30%计算,未来日活可能突破 200 - 300 万,月活可能达 1300 - 1500 万[23] 字节跳动多模态能力 - **核心观点**:字节跳动在多模态能力方面有进展和优势,应用广泛但存在潜在瓶颈 - **论据**: - 进展优势:正在内测多模态能力,底层架构完善,训练成熟,结合 MCP Server 能力实现多节点融合[18] - 应用领域:包括医疗影像分析、语音合成、视频理解等,如分析 CT 影像、处理视频角色声音、观测教学情况等[17] - 潜在瓶颈:尚未能深层次解析人物互动及知识传授效果[17] 字节跳动产品竞争力 - **核心观点**:字节跳动产品在插件生态、多模态能力、企业级服务和全球化布局方面与竞品相比具有显著优势 - **论据**: - 插件生态:不仅依赖第三方插件,还有自己团队孵化,覆盖广且质量数量优[19] - 多模态能力:算力优势显著,拥有近 33 万张算力卡,超过百度、阿里和腾讯总和[19] - 企业级服务:自 2023 年 3 月起构建落地应用生态,为各类企业提供定制开发服务,推广办公自动化工具提高用户粘性[19] - 全球化布局:已在东南亚及欧美建立大量 IDC 算力中心及分布式数据中心,计划扩充海外团队[19] 其他产品情况 - **猫箱**:面向 18 - 35 岁年轻女性用户,以情绪价值提供为前提,有社交互动等功能,截至 3 月底,日活约 87 万,高峰 92 万,月活 688 - 750 万[24][28] - **豆包爱学**:与 follow 和 stone 团队整合,技术团队向吴永辉汇报,有作业辅导等核心功能,3 月底 DAU 为 175 万,MAU 为 720 万,家长端用户占比约 70%[29] - **新会智梦**:负责人陆游,团队从 150 人缩编至 110 人左右,受 C 端用户增长瓶颈影响,产品定位尴尬,与抖音电商类似产品竞争激烈,DAU 约 70 万,MAU 在 300 万以内波动[29][30] - **Coze(吉梦)**:由张楠和大鹏负责不同方面,截至 3 月底,DAU 突破 190 万,高峰 MAU 达 900 万,目前 MAU 在 800 万上下波动,预计 4 月突破千万,付费用户超 25 万,转化率超 20%,企业客户同比增长近 10%,每月 GMV 约 2000 万元[31] - **Newtree**:是全方位编程平台,能协管项目,支持多语言,具备多种功能,提供一站式解决方案,已在字节内部全面试用,七成用户来自字节内部,每周发布小版本,两周发布大版本,但在浏览器集成和 Linux 系统终端结合方面存在不足[36][37] 商业化与技术相关 - **商业化变现**:字节跳动在插件和应用分成方面抽成 30%,各产品有不同的商业化途径,如扣子的多种变现方式[8][32] - **技术挑战与解决**:大模型缺乏 action 能力,通过 MCP 协议迁移技术框架实现突破;半自动化状态存在模型理解和未知错误处理问题;开发插件面临泛化能力和通用性不足的挑战[5][6][12][16] 其他重要但是可能被忽略的内容 - 字节跳动在软硬件结合领域有新产品计划,2025 年第三季度智能 IP 玩具 1.0、显眼包 2.0 和增值手办将量产,5 月可能延迟发布 AI 眼镜,六七月份发布欧拉友 2.0 耳机,未来可能涉足智能手表领域[33][34] - 由于 Deepseek 冲击,公司将重心迁移到豆包基座模型,放缓部分产品迭代和投流活动,导致 DAU 下滑,后续预计弥补数据缺口[27] - 阿里云豆包落地应用生态构建团队负责多个产品,基于底层技术集成开发,还有开源 MBC 平台 Tars 和完全自动化测试相关产品[25][26]
商汤集团20250410
2025-04-11 10:20
纪要涉及的行业和公司 行业:人工智能、自动驾驶、智慧医疗、电商、教育、文旅、机器人等 公司:商汤科技、麒麟软件、映宇宙公司、陆海公司、编程猫、声网、松景科技、银河通用、松云科技、索引科技 纪要提到的核心观点和论据 商汤科技技术实力与成果 - 核心观点:商汤科技在生成式AI技术领域综合竞争力居国内榜首,其日日新融合大模型表现优异 论据:权威研究机构报告显示商汤科技凭借技术创新等优势在多数关键模块获最高分;日日新融合大模型在SuperCLUE和OpenCompass测评中均列榜首[2][3][4][5] - 核心观点:商汤科技持续突破多模态模型技术 论据:2024年发布融合多模态大模型获年度冠军,2025年构建长序列思维链数据等,提升整体AI系统智力水平[13] - 核心观点:日日新6.0版本能力强大 论据:构造超200B高质量token多模态长思维链数据,实现64K长度思维链,数据分析能力领先GPT - 4,多模态推理对标国际领先水平[20][21] 上海市政府对人工智能产业的支持 - 核心观点:上海市政府大力支持人工智能产业发展 论据:2024年底产业规模突破4500亿元,超60款生成式AI大模型服务完成国家备案,推进“人工智能 +”行动,举办相关活动推动国际化合作[2][7] 商汤科技对上海市人工智能发展的贡献 - 核心观点:商汤科技为上海市人工智能发展提供重要支撑 论据:自主打造SenseCore AI计算平台提供算力支撑,日日新系列多模态融合大模型赋能多个领域,新一代模型为通用人工智能开辟新路径[2][8] 多模态模型的应用与价值 - 核心观点:多模态模型应用广泛且价值大 论据:在财务审核报销、电商比价、客户反馈分析、教育等场景表现出色,能解决非结构化数据处理问题,提升效率和决策准确性[2][24][25][27][28] - 核心观点:多模态是刚性需求 论据:用户群体中大量非结构化数据处理问题需多模态技术解决,超50%个人用户上传多个文件,部分为非标准或非结构化数据[29] 行业发展趋势与挑战 - 核心观点:AI行业呈现开源模型与工具主流、性价比关键、多模态技术热点等趋势 论据:开源模型能力接近闭源,成本控制是大模型应用重要考量,多模态技术带来更多场景拓展机会[61][63] - 核心观点:大模型发展面临性价比和供应链挑战 论据:单位训练和推理成本下降但需求供不应求,芯片市场供应链不确定[65] - 核心观点:具身智能领域前景广阔但面临挑战 论据:热门赛道训练数据不足,不同行业场景需求各异,需针对性解决方案[72] 商汤科技的应对策略与举措 - 核心观点:商汤科技帮助客户降低市场参与门槛、提升性能和效能 论据:提供AI专家服务模块、开源兼容性产品,为大型互联网平台推荐开源方案等[60][64] - 核心观点:商汤科技应对开源趋势提供高性价比方案 论据:整合自身与伙伴能力,提供审核、数据保护等方案,统一版本部署,发放代金券[69][70] 其他重要但是可能被忽略的内容 - 玄鸟计划由徐汇区政府合作平台与商汤科技联合发起,以商汤生成式AI为核心打造全产业链生态专区,推动区域AI产业发展[35] - 上海西岸借助科技和AI大模型转型文旅场景,游客数量同比提升至少10%,商汤视觉技术在人流监控系统中保障游客体验和安全[36][38] - 陆海公司新产品通过无感交互和隐形化设备改变孩子与世界互动方式,提升教育学习体验[45][46][47] - 编程猫与商汤科技合作提升编程教育质量,推动内容创新和青少年人工智能素养培养[52] - 商汤科技在视频编辑和青少年创作方面有创新技术,构想多智能体系统丰富用户体验[55][56] - 声网与商汤科技在流式多模态交互领域展开新合作,提升实时互动体验[57] - 商汤大装置2.0市场成绩显著,理念是降低人工智能产业从业门槛[58] - 松景科技与商汤大装置联合提供端到端研发全流程解决方案,加速具身智能落地[71] - 中国在人工智能领域算法紧跟美国,语料数据可能实现弯道超车,正采取举措推动生成智能发展[82][83][84] - VRA模型是具身智能发展未来方向,相比传统机器人有泛化性高、整合语义和动作等优势[90][91] - 商汤科技具身智能通过多层次方式落地,未来有机会实现低成本商用,推动产业转型[93][95]