多模态

搜索文档
“AI,你帮我挑个木瓜?”实测豆包视频通话功能 一场AI“视觉交互”争夺战已打响
每日经济新闻· 2025-05-28 07:49
字节跳动AI视频交互功能升级 - 字节跳动旗下AI智能助手"豆包"App上线视频通话功能,基于视觉推理模型支持联网搜索[2] - 新功能展示出持续记忆和逻辑推理能力,在识别水果成熟度等日常场景表现突出[2] - 大模型算法工程师评价豆包视频理解与语音交互能力在中文语境处于第一梯队[2] 豆包视觉理解模型技术细节 - 火山引擎总裁谭待去年12月发布豆包视觉理解模型,具备内容识别、理解、推理等能力[3] - 新模型经过5个月开发实现实时视频通话功能[3] - 功能支持四大生活场景:花草识别、博物馆讲解、书籍推荐、食材搭配[5] 功能实测表现 - 在水果挑选测试中能通过表皮颜色、饱满程度等指标给出建议[5] - 展现出色记忆能力,能记住镜头一闪而过的书籍并准确回忆[6] - 结合实时搜索功能可对书籍内容、作者生平进行自然延伸讨论[6] 行业竞争格局 - 国内"智谱清言"App于2024年8月率先推出C端视频通话功能[7] - OpenAI的GPT-4o和谷歌Project Astra均具备实时语音视频交互能力[7] - Web端AI智能助手总访问量4月份首次出现下降,显示行业进入新阶段[9] 商业化前景 - 豆包通过抖音生态快速触达用户,3月接入抖音后关注度提升[9] - 可与抖音内容审核AI结合识别违规短视频内容[9] - AI视频交互在虚拟人直播、视频归纳总结等场景应用前景广阔[9] - AI眼镜等新硬件可能成为未来重要应用载体[9]
一场对话,我们细扒了下文心大模型背后的技术
量子位· 2025-05-22 20:34
大模型技术发展 - OpenAI CEO指出行业已进入复杂推理模型的新范式阶段[1] - 推理模型成为继基础模型后厂商竞争的新焦点[1] - 中国信通院评估显示文心X1 Turbo在24项能力中16项获满分5分,综合评级达最高"4+"级,为国内唯一通过该测评的大模型[1] 文心大模型技术突破 - 文心4.5 Turbo和X1 Turbo分别聚焦多模态与深度思考两大方向[6] - 多模态混合训练技术实现文本/图像/视频统一建模,训练效率提升2倍,理解能力提高30%[7][8] - 自反馈增强技术框架构建"训练-生成-反馈-增强"闭环,显著降低模型幻觉并提升复杂任务处理能力[10][12][13] - 融合偏好学习的强化学习技术使模型理解/生成/逻辑/记忆能力全面提升[14][16] - X1 Turbo突破线性思维链,构建复合型思维链实现"边思考边行动"等人类式策略,复杂任务效果提升22%[18][19][21][23] 基础设施与性能优化 - 飞桨框架3.0支持使文心4.5 Turbo训练吞吐达前代5.4倍,推理吞吐提升8倍[31][32] - 算力-框架-模型三位一体协同优化路径成效显著[34] - 文心4.5 Turbo在14个数据集平均成绩80分超越GPT-4.5和DeepSeek-V3[35] - X1 Turbo各项数据集表现均优于DeepSeek-R1[37] 实际应用场景 - 教育领域:X1 Turbo可模拟人类思维解析物理题目[42] - 代码场景:AI生成代码占比超40%,累计服务760万开发者[44] - 数字人技术:支持10万主播,直播转化率31%且成本降低80%[47][48] - 行业规模:2029年全球K-12在线教育预计达8991.59亿元,2024年数字人核心市场480.6亿元将带动6402.7亿元关联产业[49] 长期技术战略 - 6年迭代9大版本形成全栈技术能力[52] - 坚持知识增强技术强化事实性/时效性/知识性[56] - 通过智能体技术结合工具使用解决现实复杂问题[56] - 视大模型为新一轮科技革命周期,注重技术长期价值与层层扩散效应[57][58] - 底层飞桨框架到上层应用的完整技术栈构成核心竞争力[61]
一场文心大模型的「AI马拉松」
机器之心· 2025-05-22 18:25
机器之心原创 作者:张倩 对于百度而言,既要保持长期主义的战略定力,也要在技术路径上灵活应变,这种「变与不变」的平衡或许正是其在这轮科技革命中的 制胜之道。 2025 年,模型能力的重要性依然无需多言。 从预训练的角度来看,虽然连 OpenAI 前首席科学家 Ilya Sutskever 都说,预训练数据即将用尽,但海量的图像、视频等多模态数据资源依然有待挖掘。 从后训练的角度来看,强化学习新范式正在让 Scaling Law 焕发新生, 新一代的推理模型在数学、代码、长程规划等问题上不断取得新进展。 对于 AI 公司来说,保持对基础模型研发的投入依然非常必要。现阶段来看,这仍然是攀登智能高峰的本质所在。 而在这个领域,百度一直是一个不可忽视的力量。从 2019 年发布文心大模型 1.0 至今, 文心大模型从知识和数据融合学习,到知识增强、知识点增强,从检索增 强、对话增强、逻辑推理增强,到慢思考、多模态的技术演进并非偶然,而是早期技术探索形成的「积淀」持续推动的结果。 正是这份「积淀」引领百度打造出 超越 GPT-4o 的多模态大模型文心 4.5 Turbo,以及领先 DeepSeek R1、V3 的深度思 ...
教授发问:大模型IQ几个月就从80飙升到130,对教育意味着什么?
环球网资讯· 2025-05-19 11:31
来源:光明网 光明网讯5月17日,在2025搜狐科技年度论坛上,杜克大学电气与计算机工程系John Cocke杰出教授陈 怡然表示,在大模型智力水平迅速逼近甚至超过人类工程师的当下,初级工程岗位逐渐被模型取代,大 学教育若仍以"培养初级工程师"为目标,恐将失去现实立足点。 他提到,2024年4月19号,有人发表了一篇文章,在Maxim Choose上面讲说,现在的大模型在智商测试 中的表现,2024年时平均智商还在90-100之间,到了2025年,很多大模型的智商已经突破了130、140。 这个水平在人群中大概是前5%、2%、甚至1%的人群。 "人类用了大概300万年才发展到现在的智力水平,现在的大模型几个月就从IQ 80飙升到130了,未来还 会继续提升。这对教育意味着什么?"陈怡然发问。 自ChatGPT面世以来,短短不到三年,大模型从只能生成模糊的行为描述,到可以自动完成Verilog硬件 设计、理解状态机图乃至实现软硬件一体化系统,能力呈指数级增长。这种多模态(Multi-modality) 的演进,不仅在工程教育中解放了基础重复劳动,更挑战了传统的教学目标与人才培养路径。 陈怡然进一步指出,现在初级 ...
“卷王”阶跃星辰又卷出新花样,但姜大昕的理想道阻且长
观察者网· 2025-05-16 15:29
公司动态 - 阶跃星辰开源最新多模态大模型Step1X-3D 总参数量达4.8B(几何模块1.3B 纹理模块3.5B)采用3D原生两阶段架构生成高保真可控3D内容 [1] - 公司自建包含200万高质量训练样本库 数据筛选覆盖超500万原始数据 水密几何转换成功率提升20% [3] - 模型采用FLUX MMDiT结构和Rectified flow算法建模几何生成 基于Diffusion model生成多视角一致纹理 [3] - 模型架构兼容2D控制技术(如LoRA微调) 支持用户精准调控3D资产属性 [5] - 在110项测试用例评估中表现优异 CLIP-Score指标位列开源模型首位 [7] 技术突破 - Step1X-3D实现几何与纹理表征解耦 通过增强型网格-SDF转换技术提升建模效率 [3] - VAE-Diffusion架构延续Stable Diffusion设计范式 实现2D控制技术迁移应用 [5] - 3D原生两阶段架构突破行业数据瓶颈 解决具身智能赛道3D数据稀缺问题 [9] 战略布局 - 公司已发布20多款自研基座模型 以每月高频更新节奏被称为"多模态卷王" [7] - 创始人姜大昕强调多模态是AGI必经之路 需先实现多模态融合再发展Agent技术 [9] - 当前重点布局语音/图像/视频/音乐等多模态方向 每条技术路线需6个月以上积累 [10] 行业定位 - 公司作为"大模型六小虎"中最晚成立者 凭借基座模型实力站稳行业地位 [7] - 多模态模型尚处早期阶段 相当于语言模型2017年前水平 未现Transformer级突破 [9] - 理解生成一体化需综合语言/视觉/推理能力 公司完整多模态布局符合技术演进需求 [10]
「阶跃星辰」的一次豪赌
36氪· 2025-05-12 08:27
公司战略与定位 - 阶跃星辰专注于多模态技术研发,认为多模态是实现AGI的必经之路,并将大部分资源投入该领域[4][8] - 公司采取差异化竞争策略,未参与应用投流热潮,仅试水To C应用,保持低调但技术领先的身位[2][3] - 技术路线选择"难上加难"的理解生成一体化原生多模方向,从成立之初即定为主线[5][14] 技术布局与成果 - 成立两年发布22款自研基座模型,其中16款为多模态模型,占比超70%,覆盖文字、语音、图像等六大模态[4] - 多模态技术处于早期探索阶段,类比语言模型相当于GPT-1.0前的Transformer时期,需解决模态融合不降智的难题[5][18] - 重点布局两大技术趋势:预训练模型+强化学习提升推理能力,以及视觉领域理解生成一体化[10][14] - 组建多支技术路线并行团队,采取"并发突破"策略应对技术不确定性[7] 产品与商业化路径 - 2025年将产品"跃问"更名为"阶跃 AI",实现从类ChatGPT产品向Agent能力转型[22] - 选择智能终端Agent为主攻方向,与Oppo、吉利汽车等头部企业合作落地手机、汽车、机器人场景[23][24] - 商业化逻辑强调模型突破先于应用爆发,通过绑定行业头部公司获取场景和数据,暂不直接ToC[20][24] - 认为AI产品流量增长不依赖传统投流模式,以DeepSeek为例验证技术驱动增长路径[19] 行业趋势判断 - 多模态与Agent成为2025年两大关键词,Agent爆发依赖多模态能力和慢思考能力的突破[6][23] - 技术演进路线从单模态到多模态,再到理解生成一体化,最终延伸至AI for Science[9][18] - 视觉领域尚未解决predict next frame难题,因模态复杂度远超语言(图片数据达百万维连续空间)[17] - 行业技术发展仍处陡峭增长期,基础模型研发决定应用上限,应用场景反哺模型迭代[22]
虞晶怡教授:大模型的潜力在空间智能,但我们对此还远没有共识|Al&Society百人百问
腾讯研究院· 2025-05-09 16:20
大模型技术发展 - 当前技术发展尚未遇到极限 跨模态整合仍有巨大潜力未被挖掘 如DALL-E 3结合语言模型与扩散模型已实现惊人图像生成效果 [10] - GPT-4o采用语言模型的Next-Token-Prediction方式 展示出图像编辑和用户需求理解的突破性能力 [10] - Scaling law在多模态背景下讨论为时尚早 当前重点在于深度挖掘语言模型能力并探索与其他模态结合的上限 [11] 空间智能演进 - 发展历程从数字孪生/仿真平台起步 逐步扩展至VR/元宇宙 光场技术提升沉浸体验质量 [12] - 神经网络技术如NeRF推动空间智能从数字复刻转向智能理解 生成式AI进一步实现空间创造能力 [12] - 文生3D技术突破传统建模限制 通过单张图片实时生成三维结构 CLAY项目获SIGGRAPH最佳论文提名 [14] 关键技术瓶颈 - 3D场景数据严重不足 真实世界复杂物体交互数据尤其匮乏 如家庭环境物品分布变化案例 [18] - 三维表达方式未统一 NeRF/SDF/Mesh参数化等方案各有优劣 影响数据利用效率 [26] - 物理规则建模是核心难点 需解决物体间动态关系模拟 如堆叠物体操作中的连锁反应 [20] 行业应用前景 - 短期聚焦影视/游戏内容生成 大幅降低元宇宙构建成本 中长期成为具身智能基础模型 [42] - 低空经济是潜力场景 无人机配送需厘米级空间精度 相关研究年底将展示demo [45] - 养老机器人需突破翻身/洗澡等刚需功能 15年内有望成熟 需解决负重与安全平衡 [49] 研究方法论创新 - 引入"行动者网络理论" 认为三维物体具有潜在行动力 其变化会显著影响环境 [16] - 整体性方法强调感知-认知-行为协同 如NLOS成像技术可推断物体背面几何形态 [36][37] - 合成数据与真实数据互补 通过跨模态学习缓解3D数据不足 如文本描述辅助推断物体关系 [19] 教育范式变革 - 编程课程将提前至高中阶段 学生接受度与能力提升显著 AI课程将成为通识教育 [52] - 教学模式转向短课程快迭代 美国quarter system显示课时压缩有助于内容更新 [8][53] - 教师需对接工业界痛点 传统教材被教参取代 持续学习能力成为核心要求 [53]
国内大模型人才大战打响!大厂各出奇招,薪资不设上限、CTO亲自参与指导、无需实习经验
量子位· 2025-05-09 13:00
大厂AI人才争夺战核心策略 - 核心观点:科技巨头通过高薪、明星导师和特色培养机制争夺顶尖AI人才,尤其聚焦大模型和多模态领域,反映出行业对高端技术人才的极度渴求[1][3][39] 招聘计划与要求 - 计划名称:京东"TGT-顶尖青年技术天才计划"、百度"文心新星计划"、阿里国际"Bravo 102"、腾讯"青云计划"、华为"Top Seed人才2025"[2] - 招聘对象:主要针对校招生/实习生(京东/腾讯/华为),部分要求博士生(字节)或优秀在校生(百度/阿里)[2] - 招聘要求:需在顶会发表论文(京东)、获得重量级奖项或技术专利,字节强调技术信仰与好奇心,百度/阿里要求"超级学霸"或"竞赛达人"[2][6][7] 技术方向聚焦 - 大模型领域:百度主攻大模型/深度学习框架,腾讯侧重AI大模型/基础设施,字节专注大模型训练/多模态[2][8] - 多模态应用:京东涉及搜索推荐广告方向,华为覆盖AI算法/软件开发,阿里国际侧重算法/数据工程[2][10][13] - 业务场景结合:腾讯/阿里/华为强调底层算法,京东/字节更紧密联系核心业务如电商推荐和内容生态[13][14][29] 人才吸引策略 - 薪酬机制:京东"薪资不设上限",腾讯提供"行业TOP薪酬",OpenAI机器人团队岗位最高385万年薪[2][15][37] - 培养体系:京东实行三导师制,百度由CTO亲自指导,阿里提供"反选团队"和快速晋升通道[2][16] - 招聘规模:百度未来三年开放21000实习岗,腾讯计划新增28000员工,华为2025校招同比两位数增长[20] 行业竞争态势 - 人才供需:国内AI人才供需比仅0.5(1岗对应1人),头部公司算法工程师年薪达300万[21][27] - 国际对比:硅谷企业如OpenAI通过百万美元薪酬(约720万人民币)和CEO亲自沟通挖角[35][36][38] - 业务驱动:腾讯元宝登顶C端下载榜,阿里通义App增长迅猛,字节豆包累计用户近3亿[29][31]
盘前情报|国家发改委:今年将推出3万亿元规模优质项目;华为首款鸿蒙电脑正式亮相
21世纪经济报道· 2025-05-09 08:38
昨日A股 5月8日,市场全天低开高走,创业板指领涨。沪深两市全天成交额1.29万亿元,较上个交易日缩量1749 亿元。截至收盘,沪指涨0.28%,深成指涨0.93%,创业板指涨1.65%。 板块方面,军工、铜缆高速连接、脑机接口、CPO等板块涨幅居前,PEEK材料、农业、化肥、黄金等 板块跌幅居前。 | 名称 | 最新点位 | 、涨跌幅 | | --- | --- | --- | | 上证指数 | 3352.0 | +9.33(0.28%) | | 深证指数 | 10197.66 | +93.53(0.93%) | | 创业板指 | 2029 45 | +32.94(1.65%) | | | 日期:5月8日 制图:21投资通 | | 隔夜外盘 纽约股市三大股指5月8日上涨。截至当天收盘,道琼斯工业平均指数比前一交易日上涨254.48点,收于 41368.45点,涨幅为0.62%;标准普尔500种股票指数上涨32.66点,收于5663.94点,涨幅为0.58%;纳斯 达克综合指数上涨189.98点,收于17928.14点,涨幅为1.07%。 欧洲三大股指5月8日涨跌不一。截至当天收盘,英国富时100种股票平均价 ...
晚报 | 5月9日主题前瞻
选股宝· 2025-05-08 22:44
鸿蒙PC - 鸿蒙电脑操作系统首次亮相 首款鸿蒙电脑将搭载鸿蒙5.0操作系统 将于5月19日正式发布 [1] - 鸿蒙电脑实现AI能力与底层硬件、操作系统、软件应用深度融合 小艺成为系统级智能助理 支持制作PPT、会议纪要等操作 [1] - 依托分布式软总线技术 鸿蒙电脑支持与华为手机、电脑、平板三设备键鼠共享 [1] - 东吴证券表示多模态是AI商业宏图的起点 有望为企业降本增效 推动生产力提升 [1] - 中泰证券表示多模态推动算力需求升级 持续看好算力网络产业机会 北美大厂CAPEX整体指引乐观并侧重AI算力投入 [1] 机器人 - 千寻智能迎来华为哈勃和深圳招商局创新投资基金入股 为具身智能机器人研发注入新活力 [2] - 华为在人工智能、云计算及大数据等领域的积累将为千寻智能的研发和市场推广提供支持 [2] - 中信证券研报表示2025年将成为具身智能机器人产业的量产元年 推动人工智能AGI和机器人产业深度融合 [2] - 光大证券表示2025年人形机器人将实现万台级别量产 带动下游产业链放量 解决数据匮乏难题 [2] 低空经济 - 中银金租将向沃兰特采购100架VE25型eVTOL航空器 中国银行将提供不低于十亿元综合授信额度 [3] - 沃兰特已确定VE25-100型航空器的审定基础 中国高等级商用客运eVTOL航空器适航审定进入实质性阶段 [3] - Sino Jet宣布向吉利子公司Aerofugia采购100架AE200载人eVTOL 两起订单合计200架 标志中国低空经济进入规模化落地阶段 [3] 宏观、行业新闻 - 国家主席习近平同普京总统签署关于进一步深化中俄新时代全面战略协作伙伴关系的联合声明 中俄交换20多份双边合作文本 [4] - 工信部公开征集对《汽车车门把手安全技术要求》强制性国家标准制修订计划项目的意见 强化安全逻辑和冗余设计要求 [4] - 商务部部长王文涛表示加快补上内需特别是消费短板 使内需成为拉动经济增长的主动力和稳定锚 [4] - 国务院国资委发布首批央企高质量数据集优秀建设成果 [4] - 硅业协会表示下游终端需求回落 组件、电池价格下行 硅片价格继续下跌 [5] - 重庆啤酒总裁李志刚对2025年啤酒行业前景持谨慎乐观态度 认为外部环境向好和政策支持将促进行业发展 [5] - 百度Apollo与神州租车将联合推出自动驾驶汽车租赁服务 [5] - 宁德时代发布全球首款9MWh储能系统 [5] - 夸克AI超级框上线"深度搜索" [6] - 任天堂预计Switch 2首年销量为1500万台 [7] - 苹果Safari浏览器上搜索量首次下降 [7] - 戴比尔斯计划关闭实验室培育钻石珠宝业务Lightbox [7] 磁悬浮压缩机 - 丹佛斯磁悬浮压缩机总裁表示未来三年中国数据中心对磁悬浮压缩机的需求至少翻倍 [10] - 相关上市公司包括走伍股份、佳力图、磁谷科技、联德股份、通业科技、走翔股份、鑫磊股份、汉钟精机、山东章鼓、百达精工、联合精密、余通灵、冰轮环境、润见航科等 [10] 军工 - 巴基斯坦与印度在巴控克什米尔发生交火 [11] - 相关上市公司包括航天长峰、成飞集成、晨曦航空、走任股份、天箭科技、利君股份、银河电子、通达股份、金通灵、中航成飞、展鹏科技、海能达、航天南湖、保利联合、四创电子、中超控股、春光科技、神驰机电、侨银股份等 [11] 机器人 - 智元研究院发布消费级外骨骼机器人 世界人形机器人运动会8月在北京举行 [11] - 相关上市公司包括豪能股份、冀东装备、万向钱潮、冀凯股份、荣泰健康、盛通股份、山东章鼓、宸展光电等 [11] 华为鸿蒙 - 鸿蒙PC亮相 [12] - 相关上市公司包括高测股份、盛通股份、视觉中国、东华软件、金龙机电、东方中科等 [12] 大消费 - 相关上市公司包括大千生态、华纺股份、中百集团、上海凤凰、东百集团、天邦食品等 [12] 新能源汽车 - 相关上市公司包括日上集团、汉马科技、山子高科、广东鸿图等 [12] 东数西算/算力 - 相关上市公司包括沃尔核材、剑桥科技等 [12] 脑科学 - 强脑科技义肢刷屏 [12] - 相关上市公司包括麒盛科技、荣泰健康等 [12] 跨境电商 - 相关上市公司包括久祺股份、跨境通等 [12] 股权转让 - 相关上市公司包括皓宸医疗、贝肯能源等 [12] 光刻机 - 相关上市公司包括奥普光电等 [12] ST摘帽 - 相关上市公司包括山东墨龙、*ST同洲、*ST宇顺、*ST亚太、ST加加、*ST和科、ST证通、*ST步森、ST升达、*ST贤丰、*ST东易、ST瑞和、*ST原尚、*ST春天、*ST四通、*ST兰黄、ST起步、*ST亚振、*ST元成、*ST创兴、*ST立航、*ST荣控、*ST花王、*ST高斯、*ST生物、ST华闻、*ST宝鹰、*ST景峰、ST宁科、*ST恒久、*ST正平、*ST科新、ST凯文、*ST椰岛、*ST东通、ST雪发、*ST 科等 [13][15] 其他 - 相关上市公司包括花甲江能、豪尔赛、兴峰集团等 [15]