Workflow
多模态
icon
搜索文档
“多模态卷王”收缩C端业务!大模型“六小虎”战略聚焦谋出路
证券时报网· 2025-06-04 19:14
阶跃星辰业务调整 - 阶跃星辰收缩C端业务,停运角色扮演类智能体产品"冒泡鸭",重心转向终端Agent(智能体)[1] - "冒泡鸭"从2023年12月起已停止大范围投流,团队合并至"阶跃AI"产品团队[1] - 公司C端业务调整是大模型创业企业在DeepSeek和互联网大厂竞争下重新定位的缩影[1] 阶跃星辰公司背景 - 阶跃星辰成立于2023年4月,创始人兼CEO是微软前全球副总裁姜大昕[2] - 公司2024年3月首次公开亮相,发布万亿参数大语言模型Step-2[2] - 专注于多模态领域,已发布22款自研基座模型,涵盖文字、图像、视频、语音、音乐和推理等领域[2] - 被业内称为"多模态卷王",与智谱AI并称基座大模型的"南北双雄"[2] 阶跃星辰业务转型 - 此前采用"模型+应用"两条腿走路策略,推出C端应用"跃问"和"冒泡鸭"[3] - 受DeepSeek影响,重新思考增长路径,认为投流逻辑在AI时代不完全成立[4] - 将资源重心从C端转向多模态大模型研发和终端Agent方向[4] - 2024年2月宣布与吉利汽车集团、OPPO、智元机器人等头部企业合作,推动AI在手机、汽车、具身智能等终端应用[5] 大模型行业竞争格局 - "六小虎"包括智谱AI、MiniMax、月之暗面、阶跃星辰、百川智能和零一万物[6] - 2024年下半年以来,除智谱AI和阶跃星辰外,其余几家无新融资消息[6] - 零一万物和百川智能已放弃基座大模型训练,分别押注AI行业落地和AI医疗[6] - MiniMax专注C端视频生成海外市场,智谱AI布局政企合作并启动IPO,月之暗面Kimi在C端竞争中逐渐落后[6] 行业发展趋势 - 大厂进入和DeepSeek冲击促使大模型创业公司重新定位[7] - 行业面临模型迭代快、C端用户忠诚度低、B端盈利难等挑战[7] - 融资环境趋紧,创业公司需在有限时间内争取更大生存空间[7]
文科转行后,我终于吃上了时代红利
36氪· 2025-06-04 09:56
AI行业人才需求与文科生转型 - 互联网公司推出"AI人文训练师"岗位 要求文史哲艺术背景 负责AI文学艺术表达训练 正职月薪达3-5万元[1] - 2022年文科生就业签约率仅12.4% 显著低于理科生29.5%和工科生17.3% 促使文科生转向AI行业[4] - 2023年AI行业岗位招聘量同比增超40% 平均月薪突破2.1万元 麦肯锡预测2030年中国AI人才缺口达400万人[4] AI行业发展现状与趋势 - ChatGPT上线两个月月活达1亿 成为AI技术普及关键节点[7] - 全球多模态AI市场规模预计2025年达24亿美元 2037年将增长至989亿美元[31] - 行业技术迭代加速 如AI Agent成为新趋势 要求从业者持续学习前沿技术[36] 文科生转型路径与岗位分布 - 转型路径包括:产品经理/运营等非技术岗 算法工程师等技术岗 以及数据标注等基础岗[15] - 头部公司如DeepSeek聘请中文系学生制定数据标注标准 实习生日薪达550元[19] - 成功案例显示 文科生可通过自学编程 参加技术比赛 攻读相关硕士等方式进入AI领域[17][23] 行业工作环境与挑战 - 初创AI公司呈现硅谷风格 鼓励创新 薪酬可达体制内工作三倍[28] - 部分企业保持互联网大厂高压文化 存在大小周和常态化加班现象[30] - 技术岗位入职门槛持续提高 需具备research背景或项目经验才能获得竞争力[36] 岗位技能要求与职业发展 - 核心岗位如AI产品经理需掌握编程基础 能独立完成技术方案实施[31] - Prompt工程师工作涵盖模型评测 客户方案设计等技术与非技术结合内容[17] - 职业持续发展依赖技术更新能力 如机器学习工程师需自学多模态等新技术[36]
2025年第21周:数码家电行业周度市场观察
艾瑞咨询· 2025-06-03 16:21
家电行业竞争格局 - 2024年中国空调销量达1.89亿台,同比增长20.9%,头部企业集中度持续提升[1] - 美的与格力争夺"空调行业第一"地位,双方引用不同数据维度展开竞争[1] - 小米空调线上市场份额快速崛起,但线下渠道薄弱,短期内难以撼动两巨头地位[1] - 未来竞争将聚焦智能化、绿色化和全球化三大方向,三家企业各具优势[1] 机器人产业发展 - 深圳构建全球首个"机器人创新共同体",2024年产值将超2000亿元[2] - 深圳拥有5.11万家机器人企业,核心零部件国产化率超90%,成本显著降低[2] - 政府开放50个领域作为试验场,形成"技术验证-场景反馈-迭代升级"闭环[2] - 探索"人与智能体共治"模式,推动机器人产业技术创新与应用落地[2] 自动驾驶与Robotaxi - 特斯拉计划2025年推出完全无人监督服务,FSD累计行驶里程超16亿英里[4] - 2030年全球Robotaxi市场规模或超2万亿美元,Waymo、小马智行等企业展开竞争[4] - 行业呈现成本派与生态派两大阵营,中国以技术出海和本地化运营突破壁垒[4] - 未来竞争将聚焦合规性、技术成熟度与全球化资源调配[4] AI大模型发展 - 中国大模型公司形成"3+2"第一梯队,包括阿里、字节、DeepSeek、阶跃星辰和智谱[7] - 上半年共发布32款大模型,阿里Qwen3成为全球最强开源模型[7] - 行业趋势聚焦开源、推理和多模态,商业化以垂类场景应用为主[7][8] - 中国MaaS市场预计2029年达90亿元规模,年均复合增长率66.1%[6] AI应用市场 - 移动端AI市场用户规模达5.91亿,AI搜索赛道竞争最为激烈[9] - AI助手将向Agent演进,AI社交互动或成新增长点[9] - 猿辅导与夸克在AI教育领域展开竞争,分别聚焦K12和高等教育[10] - AI玩具市场前景广阔,2025年国内规模超300亿,全球或达600亿美元[11] 企业动态与合作 - 华为与优必选科技签署全面合作协议,推动人形机器人在工业和家庭场景落地[12] - 美的集团与海信集团达成战略合作,共同开发数字化及AI应用平台[23] - 快手可灵战略提级,视频大模型正重塑内容生产方式[13] - 苹果计划推出"双核驱动"AI模式,结合百度、阿里技术优势服务中国市场[20] 企业财报表现 - 腾讯2025年Q1总收入1800.22亿元,同比增长12.87%,游戏业务收入增长显著[18] - 第四范式2025年Q1核心业务"先知AI平台"收入增长60.5%,贡献率提升至74.8%[19] - 昆仑万维海外业务占比超90%,DramaWave和Mureka年化流水分别达1.2亿和1200万美元[21] - 阿里2025财年Q4电商业务营收同比增长9%,但面临即时零售挑战[14][15]
中金 • 联合研究 | AI十年展望(二十三):AI+陪伴:技术降本×场景升维,提供深度情绪价值
中金点睛· 2025-05-30 07:39
行业概览 - AI陪伴是目前落地较快、热度较高的AI应用赛道,CharacterAI和Talkie率先达到千万MAU级别 [1] - 2023年全球AI陪伴市场规模约3000万美元,2030年基准/乐观情形下有望达700亿/1500亿美元,2024-2030年CAGR分别为200%/236% [7] - 2018-2023年AI陪伴产品MAU增长近30倍,从不足50万扩大至约1500万,渗透率增速高于社交媒体和在线游戏 [7] 产品核心要素 - 拟人化、个性化、实时互动、沉浸感和养成感是关键要素,满足陪伴、娱乐、幻想和效率提升需求 [2] - 用户集中于年轻群体,对AI容错率较高,更关注情感体验而非精准答复 [8] - 国内应用中星野DAU持续领先(2023年10月-2025年5月从10万增至141万),猫箱增长强劲(2024年3月-2025年5月从0.2万增至109万) [10] 技术驱动 - 混合专家模型(MoE)降低推理成本,DeepSeek-V3实现每人每天1小时交互成本约0.1元,通过缓存和错峰可压缩至0.03-0.05元/人天 [22] - 线性注意力机制将长文本处理复杂度从二次方降为线性,MiniMax-01在128K以上长度测试中超越主流模型 [24] - 多模态能力(图像/音频/视频生成)提升沉浸感,CharacterAI和星野已推出语音交互功能,端到端多模态架构如Gemini和GPT-4o带来效果跃升 [30] 典型应用案例 - **Replika**:全球最早商业化成功的AI陪伴应用,定位情感支持,2024年8月注册用户超3000万,已盈利 [33][35] - **CharacterAI**:技术驱动型,2024年8月MAU达2200万,创始团队来自谷歌LaMDA,采用通用Chatbot视角设计产品 [36][37] - **MiniMax星野**:引入卡牌机制和UGC社区生态,30日用户留存率从2023年10月的39%升至2024年10月的60%以上 [15][43] - **筑梦岛**:聚焦小说场景,80%为女性用户,用户日均对话超120轮,2025年1月注册用户近500万 [44][46] - **字节猫箱**:短剧化+公域社交设计,2024年9月下载量居国内市场第一,累计超500万次 [49][50] - **自然选择EVE**:3D AI伴侣,配备自研情感对话模型Vibe和记忆模型Echo,拟真度高 [53][54] 未来趋势 - 玩法创新是关键胜负手,延展方向包括硬件载体(如AI玩具)、垂直场景(教育/游戏)、用户群体拓展(老人/儿童) [64][65] - AI或成为内容网络中心,传统社交关系弱化,可能出现AI时代的"抖音" [59] - 当前挑战包括技术瓶颈(长时记忆/多智能体协同)、用户留存率低、商业化模式不成熟及算力成本高 [63]
三位顶流AI技术人罕见同台,谈了谈AI行业最大的「罗生门」
36氪· 2025-05-28 19:59
AI技术发展路径的共识与非共识 - 预训练技术从2023年的行业共识到2025年面临质疑,OpenAI前首席科学家公开认为"预训练已走到尽头",而DeepSeek R1等强化学习模型崛起[1] - 蚂蚁集团技术开放日圆桌讨论显示,行业分化成两派:曹越、孔令鹏等通过跨架构创新(如语言模型应用Diffusion、视频模型采用自回归)实现突破,阿里则坚持Transformer等传统路径[3][4][14] - 当前行业呈现多元探索态势,参与者形容为"摸彩票",不同技术路线本质是平衡模型偏差与数据偏差的尝试[7][17][18] 主流架构的技术突破 - 扩散模型创新:Dream 7B以7B参数量超越671B的DeepSeek V3,通过双向学习处理并行任务,在数学/代码任务表现突出[3][8][17] - 视频模型革新:曹越团队将自回归应用于视频生成,突破Sora无时序先验的限制,通过编码时间关系提升信息利用率[10][11][12] - Transformer持续主导:阿里内部多次"魔改"Transformer后仍确认其最优性,但承认MOE架构在扩展性上的潜力[5][14][16] 模型优化与效率挑战 - MOE架构进展:DeepSeek实现1:20+稀疏比,阿里测试显示1:10-1:20区间效果最佳,但专家数增加会降低训练稳定性[19][20][22] - 多模态融合创新:通过Attention稀疏化提升跨模态效率,端到端优化Tokenize到联合建模的全流程[24][25][26] - 硬件制约明显:GPU对Transformer训练非最优,行业呼吁软硬一体解决方案[34][35][36] 预训练与数据应用趋势 - 预训练价值分歧:2024年认为数据枯竭是共识,2025年美国新观点认为仍有潜力,阿里证实数据增量仍能提升模型性能[38][39] - 算力驱动创新:历史显示算力增长可激活曾被放弃的技术,当前需重点优化算力利用率[40][41] - 创造本质探索:将创作定义为搜索问题,通过可能性空间遍历实现智能生成[42][43] 行业现存问题与应对 - 幻觉控制难题:强化学习可能加剧错误推理模式,阿里尝试通过稀疏自编码器(SAE)定位并抑制相关特征[30][31] - 架构选择成本:模型结构需同时兼容预训练与强化学习,当前每次技术押注成本显著上升[20][33] - 技术迭代哲学:行业进步类似飞机航道调整,需动态修正而非预测终极形态[44][45]
“AI,你帮我挑个木瓜?”实测豆包视频通话功能 一场AI“视觉交互”争夺战已打响
每日经济新闻· 2025-05-28 07:49
字节跳动AI视频交互功能升级 - 字节跳动旗下AI智能助手"豆包"App上线视频通话功能,基于视觉推理模型支持联网搜索[2] - 新功能展示出持续记忆和逻辑推理能力,在识别水果成熟度等日常场景表现突出[2] - 大模型算法工程师评价豆包视频理解与语音交互能力在中文语境处于第一梯队[2] 豆包视觉理解模型技术细节 - 火山引擎总裁谭待去年12月发布豆包视觉理解模型,具备内容识别、理解、推理等能力[3] - 新模型经过5个月开发实现实时视频通话功能[3] - 功能支持四大生活场景:花草识别、博物馆讲解、书籍推荐、食材搭配[5] 功能实测表现 - 在水果挑选测试中能通过表皮颜色、饱满程度等指标给出建议[5] - 展现出色记忆能力,能记住镜头一闪而过的书籍并准确回忆[6] - 结合实时搜索功能可对书籍内容、作者生平进行自然延伸讨论[6] 行业竞争格局 - 国内"智谱清言"App于2024年8月率先推出C端视频通话功能[7] - OpenAI的GPT-4o和谷歌Project Astra均具备实时语音视频交互能力[7] - Web端AI智能助手总访问量4月份首次出现下降,显示行业进入新阶段[9] 商业化前景 - 豆包通过抖音生态快速触达用户,3月接入抖音后关注度提升[9] - 可与抖音内容审核AI结合识别违规短视频内容[9] - AI视频交互在虚拟人直播、视频归纳总结等场景应用前景广阔[9] - AI眼镜等新硬件可能成为未来重要应用载体[9]
一场对话,我们细扒了下文心大模型背后的技术
量子位· 2025-05-22 20:34
大模型技术发展 - OpenAI CEO指出行业已进入复杂推理模型的新范式阶段[1] - 推理模型成为继基础模型后厂商竞争的新焦点[1] - 中国信通院评估显示文心X1 Turbo在24项能力中16项获满分5分,综合评级达最高"4+"级,为国内唯一通过该测评的大模型[1] 文心大模型技术突破 - 文心4.5 Turbo和X1 Turbo分别聚焦多模态与深度思考两大方向[6] - 多模态混合训练技术实现文本/图像/视频统一建模,训练效率提升2倍,理解能力提高30%[7][8] - 自反馈增强技术框架构建"训练-生成-反馈-增强"闭环,显著降低模型幻觉并提升复杂任务处理能力[10][12][13] - 融合偏好学习的强化学习技术使模型理解/生成/逻辑/记忆能力全面提升[14][16] - X1 Turbo突破线性思维链,构建复合型思维链实现"边思考边行动"等人类式策略,复杂任务效果提升22%[18][19][21][23] 基础设施与性能优化 - 飞桨框架3.0支持使文心4.5 Turbo训练吞吐达前代5.4倍,推理吞吐提升8倍[31][32] - 算力-框架-模型三位一体协同优化路径成效显著[34] - 文心4.5 Turbo在14个数据集平均成绩80分超越GPT-4.5和DeepSeek-V3[35] - X1 Turbo各项数据集表现均优于DeepSeek-R1[37] 实际应用场景 - 教育领域:X1 Turbo可模拟人类思维解析物理题目[42] - 代码场景:AI生成代码占比超40%,累计服务760万开发者[44] - 数字人技术:支持10万主播,直播转化率31%且成本降低80%[47][48] - 行业规模:2029年全球K-12在线教育预计达8991.59亿元,2024年数字人核心市场480.6亿元将带动6402.7亿元关联产业[49] 长期技术战略 - 6年迭代9大版本形成全栈技术能力[52] - 坚持知识增强技术强化事实性/时效性/知识性[56] - 通过智能体技术结合工具使用解决现实复杂问题[56] - 视大模型为新一轮科技革命周期,注重技术长期价值与层层扩散效应[57][58] - 底层飞桨框架到上层应用的完整技术栈构成核心竞争力[61]
一场文心大模型的「AI马拉松」
机器之心· 2025-05-22 18:25
百度AI战略与文心大模型技术演进 - 公司坚持长期主义与灵活技术路径的平衡,这是其在科技革命中的制胜之道 [1] - 2025年模型能力仍是核心竞争力,多模态数据资源(图像、视频)仍有挖掘空间 [2][3] - 强化学习新范式推动推理模型在数学、代码、长程规划等领域取得进展 [4] 文心大模型的技术突破 - 文心4.5 Turbo多模态大模型超越GPT-4o,X1 Turbo深度思考模型领先DeepSeek R1/V3 [5] - X1 Turbo在第三方评测中表现突出:24项能力测试16项满分,综合评级"4+级",国内首款通过信通院推理能力评估的大模型 [10][12][14] - 成本优势显著:X1价格为DeepSeek R1的50%,X1 Turbo进一步降至25% [17][20] 多模态技术布局 - 公司2018年即突破多模态深度语义理解,现技术演进至多模态大模型,训练效率提升1.98倍,理解效果提升31.21% [22][25] - 多模态建模核心技术包括异构专家建模、自适应分辨率编码、时空重排列位置编码等 [30] - 多模态数据建设难度高,需结合知识图谱与闭环数据合成体系 [36] 深度思考与强化学习创新 - X1 Turbo基于"系统2"慢思考技术进化,融合PARL强化学习框架 [28] - 自反馈增强框架实现"训练-生成-评估-增强"闭环,多元奖励机制融合多种评价标准 [31] - 复合思维链技术模拟人类思维模式,提升复杂任务解决能力 [31] 飞桨生态与全栈布局 - 飞桨框架3.0作为技术"腰部",协同模型层与算力层实现降本增效 [37][38] - 全栈布局涵盖昆仑芯片、飞桨框架、文心大模型及上层应用 [40] - 生态合作反哺稀缺数据,赋能产业智能化升级 [38] 未来技术方向 - 重点布局多模态与智能体,后者将升级为能自主规划的行动系统 [40] - 技术普惠战略推动模型成本降低,X1 Turbo定价仅为竞品25% [17][40]
教授发问:大模型IQ几个月就从80飙升到130,对教育意味着什么?
环球网资讯· 2025-05-19 11:31
大模型智力发展水平 - 大模型智商从2024年平均90-100迅速提升至2025年的130-140 达到人群前5%至1%水平 [1] - 人类智力发展耗时300万年 而大模型仅用数月从IQ 80飙升至130 且未来持续提升 [3] 大模型能力演进与行业影响 - 大模型三年内从生成模糊行为描述进阶至自动完成Verilog硬件设计、理解状态机图和软硬件一体化系统 能力呈指数级增长 [3] - 多模态技术演进解放工程教育中的基础重复劳动 并挑战传统教学目标与人才培养路径 [3] 对工程岗位与教育的影响 - 初级计算机工程师工作已被大模型取代 仅需资深工程师与AI协作 [3] - 高等教育面临巨大挑战 需在未来5-10年内应对培养目标与教学体系的变革 [3]
“卷王”阶跃星辰又卷出新花样,但姜大昕的理想道阻且长
观察者网· 2025-05-16 15:29
公司动态 - 阶跃星辰开源最新多模态大模型Step1X-3D 总参数量达4.8B(几何模块1.3B 纹理模块3.5B)采用3D原生两阶段架构生成高保真可控3D内容 [1] - 公司自建包含200万高质量训练样本库 数据筛选覆盖超500万原始数据 水密几何转换成功率提升20% [3] - 模型采用FLUX MMDiT结构和Rectified flow算法建模几何生成 基于Diffusion model生成多视角一致纹理 [3] - 模型架构兼容2D控制技术(如LoRA微调) 支持用户精准调控3D资产属性 [5] - 在110项测试用例评估中表现优异 CLIP-Score指标位列开源模型首位 [7] 技术突破 - Step1X-3D实现几何与纹理表征解耦 通过增强型网格-SDF转换技术提升建模效率 [3] - VAE-Diffusion架构延续Stable Diffusion设计范式 实现2D控制技术迁移应用 [5] - 3D原生两阶段架构突破行业数据瓶颈 解决具身智能赛道3D数据稀缺问题 [9] 战略布局 - 公司已发布20多款自研基座模型 以每月高频更新节奏被称为"多模态卷王" [7] - 创始人姜大昕强调多模态是AGI必经之路 需先实现多模态融合再发展Agent技术 [9] - 当前重点布局语音/图像/视频/音乐等多模态方向 每条技术路线需6个月以上积累 [10] 行业定位 - 公司作为"大模型六小虎"中最晚成立者 凭借基座模型实力站稳行业地位 [7] - 多模态模型尚处早期阶段 相当于语言模型2017年前水平 未现Transformer级突破 [9] - 理解生成一体化需综合语言/视觉/推理能力 公司完整多模态布局符合技术演进需求 [10]