Workflow
多模态交互
icon
搜索文档
华为发布十大技术趋势:2035年全社会算力总量将增长10万倍
观察者网· 2025-09-17 10:35
9月16日,华为发布智能世界2035系列报告,包括《智能世界2035》和《全球数智化指数2025》报告两大研究成果,展望了未来十年的关键技术趋势以及这 些技术对教育、医疗、金融、制造、电力等行业带来的改变和影响。 华为常务董事汪涛表示:"每一次文明的跃迁都源自人类对未知的不断探索。这份深植于人类基因的探索精神,推动我们不断突破认知与技术的边界,走向 更加繁荣的智能文明。生成式人工智能正在以我们从未想象过的方式,重新定义未来的可能性。因此,我们比以往任何时候都更需要前瞻的视野,更需要依 靠科技的愿景与假设来指引前路。" 趋势六:随着世界模型等关键技术突破,全新的L4+自动驾驶汽车将会走入人们的生活,成为"移动第三空间"。 趋势七:2035年全社会的算力总量将增长10万倍,计算领域将突破传统冯• 诺依曼架构的束缚,在计算架构、材料器件、工程工艺、计算范式四大核心层面 实现颠覆性创新,最终催生新型计算的全面兴起。 趋势一:AGI将是未来十年最具变革性的驱动力量,但仍需克服诸多核心挑战,方能实现AGI奇点突破。因此,走向物理世界是AGI形成的必由之路。 趋势二:随着大模型的发展,AI智能体将从执行工具演进为决策伙伴, ...
当辅助驾驶 “哑火”,车企将如何重构城市交通的智能基因
36氪· 2025-08-20 19:04
政策监管趋严 - 部分高速路段明确禁止启用L2/L2+级辅助驾驶系统[1] - 市场监管总局与工信部发布新规,严禁使用“L2 5”、“脱手驾驶”等模糊宣传术语[1] - 新规要求车企在APP和用户手册中显著标注功能限制,禁止将辅助驾驶宣传为无人驾驶[2] 技术局限性暴露 - 辅助驾驶系统存在明显技术边界,无法可靠识别静止车辆、缓慢行驶的工程车及异形挂车等场景[1] - 在施工改道路段,系统感知范围有限,难以应对不规则摆放的锥桶和临时限速标志[2] - 节假日车流量激增时,ACC/AEB系统可能因误判急刹而引发连环追尾事故[2] - 国内L2级辅助驾驶渗透率已超过50%,但技术水平与营销宣传存在巨大差距[2] 安全事故与责任界定模糊 - 曾发生因系统未能识别静止车辆导致的追尾致死事故,造成2人死亡[1] - 现行法规要求驾驶员全程负责,导致“辅助”与“自主”的责任边界模糊,车企常以“系统识别局限”为由免责[2] 多模态交互与物理世界AI模型成为新方向 - 技术竞争焦点转向车辆对物理世界的理解深度,多模态模型通过融合800万像素摄像头、4D毫米波雷达和激光雷达数据,提升环境感知能力[4] - 系统通过“多模态认知-场景推理-决策进化”的三层架构,将感知数据转化为具体决策依据,例如识别施工路段需减速30%[4] - 驾驶员监测系统升级,通过方向盘扭矩感知、眼球追踪和心率监测等多维度数据构建驾驶员实时状态模型,实现渐进式干预[4] - 物理世界AI大模型通过模拟数千种危险情境的演化路径,具备场景预判能力,在虚拟测试中反应速度比人类快2倍以上[5] 数据驱动算法进化 - 智能驾驶的进化速度由数据质量与模型能力决定,新规强调将警示路段场景数据反哺算法训练[7] - 针对静止车辆误判问题,有车企建立了覆盖23种环境条件的专项数据库,包含超过10万案例,以提升识别非常规静止物体的能力[7] - 物理世界AI大模型通过学习百万次真实车流交互数据,能预测多车博弈场景,计算出保持秒级车距等最优策略,提升效率[7] 车企竞争维度与商业模式重构 - 行业竞争从“功能炫技”转向“生态安全”,透明化的安全承诺正在取代夸大宣传[8] - 新规推动车企在APP中设置“智能驾驶安全中心”,实时展示系统能力评分和功能优化项,此举有助于提升用户信任度和日均使用时长[8] - OTA升级需备案审查,倒逼车企建立全流程管控体系[8] - 最终竞争力在于构建“人-车-环境”的和谐关系,车辆成为智能出行生态的核心节点[8] - 商业模式可能从“卖车”升级为运营“城市效率基础设施”,车企转变为交通效率的运营商[9]
营收超1亿美元!可灵,凭什么?
第一财经· 2025-08-06 23:32
AI视频生成行业动态 - 创作者Hashem AI-Ghaili使用AI工具在12天内以500美元成本制作出短片《Kira》,在YouTube和Bilibili分别获得5.9万和47.9万次观看 [2] - 另一部短片《The Colorless Man》制作成本仅600美元,使用ChatGPT、MidJourney等工具完成脚本、图像、视频、语音等全流程 [4] - 视频生成赛道从最初不被看好到1年后出现商业成功案例,如可灵年化营收突破1亿美元 [7] 可灵公司发展 - 可灵用户规模从2024年Q3的500万快速增长至4500万,均为付费用户 [8][15] - 年化营收(ARR)在2024年3月突破1亿美元,超过MiniMax的7000万美元预期收入 [7] - 在Poe平台市场份额达30%,超过Runway的23.6% [18] - Freepik平台数据显示可灵生成视频数量超过其他模型总和 [19] 技术迭代与功能创新 - 推出"首尾帧"功能让用户通过两张图片生成连贯过渡视频 [9] - 1.5版本新增"运动笔刷"、"人脸一致性"、"口型同步"等功能提升视频可控性 [11] - 1.6版本推出"多图参考"功能,用户可上传多张图片作为生成参考 [13][14] - 2.0版本整合多模态交互方式MVL,允许文字、图片、视频片段等多种输入 [15] - 最新推出"灵动画布"功能,整合文生图、图生视频等流程并支持团队协作 [23][24][25] 行业竞争格局 - 可灵在国内领先生数科技(ARR 2000万美元)、字节跳动即梦AI(ARR<1000万美元)等竞争对手 [17] - 全球范围内与Runway(ARR 8400万美元)形成竞争 [17] - 面临Google Veo 3(支持生成带声音视频)和字节跳动Seedance 1.0等新模型的追赶 [21][23] - 行业用户忠诚度低,新模型上线会快速改变市场份额分布 [21] 商业化应用前景 - 视频生成技术已应用于Netflix《the eternaut》、Amazon Prime《House of David》等影视作品 [27] - 广告营销行业广泛应用AI技术生成素材,如保持模特一致性推广不同产品 [34] - 好莱坞态度从抵触转为拥抱,出现AI分镜师等新职业 [41][42] - 预计未来将向Agent方向发展,实现从脚本到视频的自动化生成 [45]
营收超1亿美元!可灵,凭什么?
第一财经· 2025-08-06 23:22
视频生成行业现状 - 视频生成行业在2024年迎来爆发式增长,可灵等公司已实现商业化成功,年化营收突破1亿美元[11][22] - 行业标杆公司Runway去年12月ARR达8400万美元,可灵与之不相上下[22] - 国内竞争对手如生数科技Vidu产品ARR为2000万美元,字节跳动即梦AI和Minimax海螺AI均未达1000万美元[22] - 全球用户对视频生成工具忠诚度低,新模型上线会迅速改变市场份额分布,如Google Veo 3上线后份额从0增至30%[25] 可灵公司发展 - 可灵用户规模从2024年1月的600万快速增长至2025年4月的4500万,3个月内增长近2倍[20][57] - 可灵在Poe平台市场份额达30%,超过Runway的23.6%[23] - 在Freepik平台,可灵生成的视频数量超过其他所有模型总和[23] - 公司年化营收在2025年3月突破1亿美元,超过MiniMax预期的7000万美元[11][22] 技术发展 - 视频生成技术仍处于早期阶段,类似LLM的GPT-2时期,存在常识和逻辑错误[11] - 可灵通过多模态交互方式(MVL)提升生成效果,允许用户以文字、图片、视频等多种方式输入指令[19] - 关键技术创新包括首尾帧、运动笔刷、人脸一致性、多图参考等功能,大幅提升视频生成可控性[16][18][19] - 1.6版本是多图参考功能推出的重要分水岭,使可灵用户从600万增至2200万[20][48] 产品迭代 - 可灵在1年内发布5个版本更新,从1.0迭代至2.1[13][20] - 1.5版本引入运动笔刷、人脸一致性、口型同步等功能[16] - 1.6版本推出多图参考功能,成为用户增长转折点[18][20] - 2.0版本整合所有交互功能,推出MVL多模态交互方式[19] - 最新推出"灵动画布"功能,实现工作流整合和团队协作[28][31] 行业应用 - AI视频生成已应用于影视制作,如Netflix《the eternaut》和Amazon《House of David》使用AIGC镜头[34] - 广告营销行业深度应用AI技术,可实现模特一致性推广不同产品[51] - 职业细分出现AI分镜师、AI视频生成师等新岗位[61] - 视频素材生成市场规模达千亿级别,已形成完整产业链[34] 未来趋势 - Agent技术将成为下一阶段发展方向,实现创作流程自动化[66] - 视频生成将不仅服务于存量市场,还将创造具备实时性和互动性的新内容形态[67] - 行业竞争加剧,Google已发布自带声音的Veo 3模型,字节跳动整合资源加速追赶[25][26] - 技术领先性、产品创新和创作者社区将成为核心竞争壁垒[55]
AI数字人辅助小程序功能版块设计分析
搜狐财经· 2025-08-06 16:00
人机交互技术发展 - AI数字人辅助小程序通过模拟人类交流方式提供自然高效的服务支持 旨在构建兼具实用性与亲和力的交互平台 [1] - 对话界面采用多轮对话技术 支持上下文语义理解与意图识别 用户可通过文字或语音输入需求 系统自动纠错并补全关键信息 [2] - 响应模块设计拟人化表达 根据对话内容匹配表情符号与语气词 避免机械式回复 [2] 任务管理功能 - 数字人可解析复杂需求并自动拆解为可执行步骤 例如生成食材采购清单、场地布置建议及时间安排表 [4] - 日程管理模块支持与手机日历同步 具备提前提醒与冲突检测功能 当检测到时间重叠时自动建议调整方案 [4] 个性化推荐系统 - 基于用户历史对话数据构建偏好模型 数字人可主动推送相关服务 例如定期发送运动教程与饮食建议 [5] - 推荐内容涵盖生活服务、学习资源、娱乐活动等类别 每个推荐项附带简要说明与操作入口 用户可通过滑动手势快速采纳或忽略建议 [5] 多模态交互设计 - 支持简单手势识别与表情反馈 例如通过点赞手势表达满意 系统将记录该行为并提升同类推荐权重 [6] - 视觉呈现采用2.5D卡通风格 数字人形象保持固定发型与服饰 强化品牌识别度同时降低用户认知负担 [6] 隐私保护机制 - 对话数据采用端到端加密技术 用户可自主选择数据保留期限 [7] - 权限设置提供精细化控制选项 例如允许访问日历但禁止读取通讯录 敏感操作需通过二次验证 [7] 界面优化成果 - 界面设计遵循品牌色系标准 主色调采用浅蓝色系营造科技感 关键操作按钮尺寸不低于44px确保触控准确性 [8] - 数字人动画帧率稳定在30fps以上 测试数据显示适配优化版本在老年用户群体中操作错误率降低40% [8]
创新消费力 | 学而思:AI学习机让处处变课堂
北京商报· 2025-08-04 17:38
行业趋势与市场格局 - 中国教育智能硬件市场规模2023年达807亿元 同比增长29.53% 预计2025年将超1000亿元 [9] - 行业从早期野蛮生长进入头部企业全线产品竞争阶段 2024年小度等巨头入局后大量白牌机退出市场 [10] - 2025年市场竞争加剧 学而思向中低端市场下沉 作业帮拓展中高端产品线 猿辅导转型全功能学习机 [10] 技术演进与产品创新 - 学习机技术发展历经三阶段:2014-2015年拍搜时代→2019-2023年视频解析时代→当前交互式诊断时代 [6] - 多模态交互技术实现"视觉+听觉"双通道并行 AI能实时分析解题步骤并感知学习行为 [5] - 学而思解题引擎持续升级 数学学科已应用多模态交互 近期将完成语文英语适配升级 [9] 用户结构与应用场景 - 智能学习机用户64.03%为小学生 79.42%集中在一二线城市 高中渗透率较低 [8] - 家庭场景中每日平均辅导时间从2小时降至半小时 改善亲子关系 [3] - 学校场景实现"双线教学"模式 AI自动批改作业并生成个性化学习报告 [7] 产品定位与价值主张 - 学习机从普通电子产品向专业化学习工具转变 强化AI 1对1辅导和同步课程资源 [10] - 核心技术价值在于用多模态技术"看懂"作业书写过程 "听懂"孩子疑问 定位思维卡点 [5] - 未来需攻克高中数理化生复杂场景处理 包括动态理解解题过程和连续帧分析能力 [9]
字节视觉大模型负责人杨建朝宣布休息
快讯· 2025-07-17 18:18
人事变动 - 字节跳动豆包大模型视觉多模态生成方向负责人杨建朝宣布"暂时休息",相关工作已完成交接 [1] - 杨建朝的个人信息仍能在字节内部系统中查询到 [1] - 周畅(花名"时光")将接任杨建朝的工作,周畅所在架构为"多模态交互与世界模型"部门,汇报对象为吴永辉 [1] 变动原因 - 知情人士透露人事变动原因为"家庭因素" [1] - 此前有传言称杨建朝因难以兼顾北美与国内工作节奏,长期处于高强度压力下,身心俱疲 [1] - 另有说法称其为"提前退休" [1]
元宇宙数字人技术新飞跃:交互、感知与虚拟现实的全面升级
搜狐财经· 2025-07-10 10:22
人工智能与数字人技术融合 - 生成式AI技术如GPT系列及扩散模型显著提升数字人交互能力和形象逼真度 [1] - 语音合成、表情驱动及实时渲染技术使数字人活跃于直播、客服等动态场景 [1] - 数字人自主学习与情感感知能力持续提升 通过深度学习算法提供个性化服务 [1] 虚拟现实与多模态交互技术 - VR设备为数字人带来真实感和立体感 提升用户沉浸感 [3] - 多模态交互技术融合语音识别、自然语言处理 实现更自然便捷的人机交互 [3] - 数字人在直播、客服场景表现优异 赢得用户广泛好评 [3] 大数据分析与硬件配套升级 - 大数据分析提供精准用户画像 助力数字人优化服务和直播内容 [3] - 5G、云渲染、VR/AR设备为数字人创造低延迟高沉浸应用环境 [3] - 脑机接口技术潜力巨大 未来或拓展数字人交互方式与应用场景 [3]
OpenAI以65亿美元收购Jony Ive的io背后,软硬件结合的AI原生硬件公司正在崛起
36氪· 2025-06-18 07:51
行业动态 - OpenAI以65亿美元收购前苹果硬件设计负责人Jony Ive的公司io 目标是为OpenAI打造一系列硬件产品 [1] - OpenAI前CTO创立的新公司Thinking Machines估值达90亿美元 其首款产品为专为AI训练设计的"手动调参仪表盘"硬件 [1] - 软硬件结合的AI终端产品是科技公司重点发展方向 早期产品如Siri和小度音箱因AI"智力"不足导致交互体验较差 [1] AI原生硬件发展挑战 - 大语言模型推动人机交互从GUI向多模态转变 但第一波AI原生硬件产品市场接受度低 [2] - AI Pin采用激光墨水显示屏和手势交互 因学习成本过高导致融资2.4亿美元的公司在2025年被惠普以1.16亿美元收购 [4] - VR/AR眼镜经过10年市场教育 2024年出货量仅600-700万部 远低于智能手机的亿级规模 [4] - 部分AI硬件功能低频且易用性差 售价过高(如AI Pin 699美元 Vision Pro 3499美元)制约渗透率 [4][5] - 硅谷企业面临供应链劣势 硬件迭代慢且成本高 中国珠三角的产业集群提供更高效低成本的制造环境 [4][5] 第二批AI硬件创新方向 - 专注明确场景的产品获得更好发展 如会议录音/转写类硬件契合大模型语音处理能力 [8] - 教育领域代表产品包括科大讯飞AI学习机 猿辅导小猿学习机 大疆RoboMaster教育机器人 [9] - 个人陪伴机器人出现差异化设计 如可移动的Yonbo对比固定形态的ElliQ [12] - 医疗健康领域创新包括BioLink Systems的可消化设备 能实时采集体内健康数据 [12] - 华人创业公司plaude去年营收达7000万美元 讯飞AI耳机用户突破100万且年营收翻倍 [10] 中国AI硬件产业优势 - 中国具备全球最完善的AI硬件产业链 涵盖消费电子 机器人 智能汽车三大领域 [15] - 技术生态支持包括开源大模型(Qwen 3 4B) VLA模型 以及各领域数据资源 [15] - 2024年中国智能手机出货量占全球23.4% 为AI硬件转型提供巨大潜在市场 [16] - 华为 小米等品牌证明中国市场足以支撑硬件企业成长 AI硬件已建立教育 企业等基础市场 [16] 未来发展趋势 - AI操作系统成为关键 需要适配AI模型的计算管理需求 Meta Google OpenAI等公司正积极布局 [13][14] - 多模态交互方式将逐步替代智能手机和平板 但需降低用户学习成本 [12][13]
AI眼镜,重走智能音箱路
36氪· 2025-06-17 17:18
行业背景与市场前景 - 百度和小米等互联网大厂入局AI眼镜行业 带动"百镜大战"氛围 与智能音箱发展初期相似[2] - 预计到2029年智能眼镜市场规模达1067.78亿元 年复合增长率18.56%[3] - 2023年全球AI眼镜销量234万台 其中Ray-Ban Meta独占224万台 占比超95%[3] 市场竞争格局 - 中国已有至少50家公司推进智能眼镜项目 分为三类玩家:初创公司(蜂巢科技/Even Realities) AR眼镜厂商(雷鸟创新/影目科技/Rokid)和互联网大厂(华为/百度/小米/字节)[4] - 2025年CES展会亮相超40款AI眼镜产品 各厂商计划今年至少发布50款新机型[5] - 小米生态链企业推出界环AI音频眼镜 星纪魅族StarV Air2上线AI功能 Rokid为政府会议新品带货[4] 技术挑战与产品瓶颈 - AI眼镜面临重量/续航/功能的"不可能三角"挑战 当前产品重量普遍超普通眼镜20-30克标准[9][10] - Meta Ray-Ban重量49克 雷鸟V3降至39克 但配镜片后仍增重10克以上 长时间佩戴不适[10] - 续航能力不足:Meta Ray-Ban持续拍摄维持4小时 雷鸟V3标称7小时 与日常使用需求存在差距[10] 历史经验借鉴 - 智能音箱2024年销量同比双位数下降 全年降幅超20% 第四季度降幅仍超10%[7] - 智能音箱衰落因核心功能未突破 语音识别/语义理解存在缺陷 使用频率大幅降低[7] - 语音识别技术从"能用"到"好用"的壕沟仍未填满 影响智能硬件发展[8] 大模型带来的机遇 - 天猫精灵和小度音箱接入大模型后 语音识别/自然语言理解/对话能力显著提升[11][12] - DeepSeek开源特性允许深度定制 API价格低廉 利好端侧AI普及[15][16] - AI眼镜平台作为新消费电子品类 更容易成为AI应用率先落地场景[16] 未来发展潜力 - 行业需在未来3-5年实现全彩显示/性能提升/重量减轻/价格降低/大模型能力升级等目标[11] - AI眼镜结合AR/眼动等前沿技术 具备替代智能手机潜力 可能成为下一代通用计算平台[17][18][19] - 扎克伯格认为智能眼镜将类似移动手机 是下一个计算平台的始终在线版本[18]