Workflow
大语言模型
icon
搜索文档
爱诗王长虎、谢旭璋:“不会创业” 的创始人,怎么做出用户量第一的 AI 视频产品
晚点LatePost· 2025-06-06 19:05
公司概况 - 爱诗科技由80后王长虎与90后谢旭璋联合创立,团队组合打破"35岁以下更适合大模型创业"的行业偏见 [3][4] - 公司定位为AI视频生成领域,同时开发底层模型与to C应用产品,全球用户超6000万,是竞品可灵的3倍 [4] - 核心产品PixVerse移动端上线6个月月活达1600万,国内版"拍我 AI"于6月6日正式发布 [4][6] 产品与技术 - 差异化路径:聚焦普通人需求,通过模板化设计(如毒液变身、科目三跳舞等)实现零Prompt操作,用户首条视频即可获万至百万点赞 [4][8][9] - 技术迭代:模型V3将生成成功率提升至近100%,V3.5将等待时间压缩至10秒内,累计更新7版模型 [6][9] - 生成效率:V4模型实现5-7秒生成5秒视频,正在探索实时生成技术以模糊创作与消费界限 [16][17] 市场表现 - 病毒式传播案例:毒液变身模板全球播放量超10亿次,咧嘴笑模板推动PixVerse登顶美国iOS下载榜前五 [6][12] - 商业化进展:订阅收入已覆盖绝大部分成本,现金流接近转正 [7] - 全球化布局:视频内容天然跨语言传播,高GDP国家贡献主要收入,暂未精细化运营区域市场 [12] 行业竞争 - 视频生成第一梯队:国内为爱诗、快手可灵、MiniMax海螺,海外Google表现突出,认为Sora实际效果与demo差距显著 [14] - 对抗大厂逻辑:视频行业持续分化(长/短视频、直播等),新内容形态需增量供给,非存量替代 [10] - 技术壁垒:毒液模板半年未被复现,依赖高质量生成模型与持续用户洞察能力 [12] 战略决策 - 关键转折:2023年6月All in视频生成,抓住当时行业非共识机会 [23][24] - 资源分配:Sora发布后坚持原定技术路线,未盲目追加资源追赶,最终验证模型实效优于Sora [26] - 双引擎驱动:前期以模型技术为核心,后期产品与模型协同进化,产品需求反哺技术方向 [20] 行业趋势 - 技术架构:主流仍为DiT,自回归+Diffusion混合架构显现潜力但存在帧间误差挑战 [15][16] - 交互革命:实时生成将改变视频线性叙事,用户可动态改变剧情走向,视频与游戏界限模糊化 [17][18] - 价值认知:视频生成领域整体被低估,较之大语言模型更少舆论关注但实际商业落地更快 [24][25]
理想同学MindGPT-4o-Audio实时语音对话大模型发布
理想TOP2· 2025-06-06 23:24
核心观点 - 公司推出全模态基座模型MindGPT-4o的预览版MindGPT-4o-Audio,具备全双工、低延迟的语音端到端能力,实现类人自然对话交互 [1] - 模型在语音知识问答、多角色语音生成、风格控制、工具调用等核心能力上达到行业领先水平,多项评测显著超越竞品 [4][5][8] - 技术架构采用感知-理解-生成的级联式流式生成方案,实现260ms推理延迟和800ms全链路响应 [4][5] - 已全量上线理想车机及手机App,用户满意度测试中口语真实感(94%)和交互自然度(92%)均领先豆包、ChatGPT [8][10] 模型能力 全双工语音对话 - 采用IPU停顿间隙判定和KLT自适应响应机制,轮次切换准确率96.5%,打断响应延迟150ms [14][15] - 流式方案实现99%打断响应率和95%背景音拒识率,支持边说边听的真人交互模式 [12][17] 语音知识问答 - 构建百万级高质量多模态训练数据管线,数据正确率95%,覆盖26个能力类目 [19] - 多阶段训练策略使知识问答准确率较MindGPT-3o提升6pp,业务单轮问答达89.48% [22][23][24] 多角色对话 - 设计十余维度人物档案系统,涵盖背景、性格、情绪反应等立体设定 [25][26] - 通过拟人化数据管线实现情感识别和多轮上下文保持,支持有温度的陪伴式交互 [27] 高表现力语音生成 - 30万小时对话语音训练使韵律自然度提升,流式合成首包延迟<100ms [30] - 字符级建模结合DPO优化,中英文发音错误率降至极低水平 [31] 多样风格控制 - 音色解耦技术实现多风格/口音模仿,Style CoT方案支持多轮风格记忆 [35][36] 工具能力 多模态规划 - 时空感知任务规划准确率95.55%,DAG拓扑支持并行多任务处理 [39][40] - 工具调用准确率94.25%,在复杂任务评测中满意度达79% [40][50] 搜索优化 - Claim-level重排序使搜索丰富度提升35%,专业术语识别准确率+47% [42][43] - 动态Query理解框架实现28%首次搜索满足率提升 [43] 工程能力 全双工架构 - RTC技术实现端云实时通信,消息延迟降低67%,弱网环境连通率提升 [52][60] 低延迟优化 - 流式推理使首token延迟从1s降至20ms,异构计算降低50%部署成本 [61][63] - 全链路重叠计算实现语音首包60ms,端到端延迟1100ms领先豆包(2100ms) [10][61] 安全与运营 - 构建MindGuard实时风险检测体系,价值观安全奖励模型覆盖全生命周期 [53] - Prompt平台支持T+0分钟级热更新,角色扮演场景达成率>90% [64]
多模态推理新基准!最强Gemini 2.5 Pro仅得60分,复旦港中文上海AILab等出品
量子位· 2025-06-06 21:45
多模态大模型推理能力评估 - 复旦大学、香港中文大学MMLab及上海人工智能实验室联合推出MME-Reasoning基准,全面评估多模态大模型(MLLMs)的推理能力,涵盖演绎、归纳和溯因三种推理类型[1][3][4] - 基准包含1188道题目,其中84.85%为新增题目,15.15%为抽样题目,题型包括选择题(58.50%)、自由形式问题(31.57%)和基于规则的题目(9.93%)[9] - 题目设计弱化学科知识依赖,聚焦K12以下难度,避免知识盲区干扰推理能力测试[11] 推理类型与评估维度 - 演绎推理通过规则和前提推导结论,归纳推理从大量案例学习规则,溯因推理通过结论反推前提[5] - 评估维度包括五种能力:模式分析、规划与探索、空间与时间、计算、因果链分析,每道题目标注1-5种能力[11] - 题目难度分为三级,图像类型包含单图(58.50%)和多图(31.57%)问题,学科类题目占比31.48%[8][9] 模型表现分析 - 30余个模型评测显示最优成绩仅60.2%(Gemini-2.5-Pro-T),显示基准挑战性极强[2][18] - 模型表现存在显著偏差:演绎推理平均得分最高(如Gemini-2.5-Pro-T达64.0),溯因推理最弱(如开源模型R1-VL-7B仅15.8)[18][19] - 闭源"思考模式"模型普遍优于基础版,如Gemini-2.5-Pro-T比Gemini-2.5-Flash-T高35个百分点[18] 技术瓶颈与发现 - 开放式问题表现最差,规划与探索类任务平均得分最低(如Mulberry仅13.3)[18][20] - 规则强化学习在7B规模模型上效果有限,可能降低泛化能力(如R1-VL-7B得分21.1)[18][20] - 推理过程存在边际效应:输出token超1k时准确率提升趋缓,o4-mini案例达24.6k token但效率下降[22][25] 模型行为特征 - 案例显示模型存在结构化规划行为,包含假设生成-验证-反思的多次迭代(最高达7次)[25][26] - 开源模型表现显著落后闭源模型,Qwen2.5-VL-72B最高34.1分,仅为闭源头部模型的56%[18] - 多图像问题(占比31.57%)和学科类问题(占比31.48%)构成主要挑战点[9][11]
大模型热潮第三年,“AI春晚”又换主角 为什么是具身智能?
每日经济新闻· 2025-06-06 21:20
行业趋势演变 - 大模型热潮进入第三年,行业关键词从"大语言模型"跃升为"具身智能"与"机器人2.0",AI正加速迈入"干实事"阶段[1] - 2023年生成式大语言模型是焦点,2024年国产大模型厂商崛起,2025年具身智能成为主论坛重要议题[3] - 技术发展呈现非线性特征,产业关注重心从底层模型向具体应用转移是必然趋势[4] 具身智能发展现状 - 具身智能成为2025年最热关键词,机器人通过格斗、舞蹈等赛事展示AI控制系统水平[7] - 人形机器人租赁市场在上半年表现火爆,显示初步商业价值[7] - 行业正从表演转向实际应用,重点攻关"通用移动抓取"等实用技能,已有机器人值守无人药店案例[8] 技术路径争议 - 人形与非人形机器人形态存在分歧:人形在数据采集和训练上具优势,但未来形态可能多样化[11][12] - VLA(视觉语言动作模型)成为研究热点,但对其能力边界存在不同观点,需融合更多感知模态[15][16] - 物理世界理解能力的增强是突破关键,仿真数据可减少真实训练样本依赖[17] 应用场景拓展 - 世界人形机器人运动会将包含竞技类和真实生活/工业场景,成为技术训练场和客户沟通桥梁[8] - 家庭和商用服务被视为具身智能最大应用场景,工业应用只是"开胃小菜"[12] - 移动、抓取和放置类任务最适合当前VLA模型技术阶段,可能带来具身智能第一次高潮[16]
博实结(301608) - 301608投资者关系活动记录表2025年6月6日
2025-06-06 16:46
公司基本情况 - 公司是高新技术与专精特新“小巨人”企业,以通信、定位、AI等技术为核心,提供智能终端产品及配套解决方案,使命是“智慧赋能万物,共创美好未来”,经营理念为“成就客户、创新驱动、博大务实、品质至上”,业务模式是“模组+平台+终端”,目标是成为全球物联网智能化应用解决方案专家 [1] - 2024年度,公司实现营业收入14.02亿元,同比增加24.85%,净利润1.76亿元,同比增加0.81%;2025年一季度,营业收入3.48亿元,同比增加40.28%,净利润0.40亿元,同比增加14.42% [1][2] 拓展应用场景核心能力 - 基于“通信+定位+AI”底层核心技术在不同物联网应用场景延伸拓展,保持清晰研发主线,将核心技术赋予不同产品形态应用于不同场景,在通信、定位等技术应用方面积累丰富经验 [2] - 深耕通信、定位、AI算法等技术领域,构建“模组+平台+终端”业务体系,自研自产自供无线通信模组,具备全链路能力,在终端开发初期介入技术适配,提升性能、降低成本,构建模块化、标准化云管理平台,通过模块化调用与功能重组完成定制化开发 [3] - 完成Deepseek大语言模型和通义千问视频分析模型本地化部署,未来推动专业化、定制化AI模型在物联网多场景应用落地 [3] 新拓展场景和产品 - 2024年其他智能硬件收入1.42亿元,相比2023年增长21.70% [3] - 其他智能产品涵盖电子学生证、智能穿戴手表等二十余种物联网产品,处于市场开拓与孵化阶段,还在智慧城市、智能运动、智慧办公等场景有产品布局 [3][4][5] - 电子学生证聚焦“平安校园”,实现学生定位、轨迹查询等功能;智能穿戴手表针对“老人康养”“平安校园”,低功耗、长续航,支持语音通话等功能 [5] 美国关税政策影响 - 海外市场中,智能车载终端销往非洲、东南亚、西亚等地区,智能支付硬件销往东南亚等地区,智能睡眠终端销往欧美地区,智能睡眠终端客户交易模式为EXW,关税等费用由客户承担,美国关税政策变动对公司影响较小 [5]
AI如何开启心理治疗领域新时代?
36氪· 2025-06-05 07:19
心理健康护理领域的现状与挑战 - 心理健康护理领域缺乏明确的生理指标来评估干预效果,主要依赖自我报告和临床医生的判断,容易出现漏洞和认知偏差 [1] - 标准化问卷和评分量表提供部分量化指标,但仍存在患者记录不准确和医生判断错误的风险 [1] - 数字技术如智能手机和可穿戴设备可通过被动监测行为数据提供更客观的评估方法 [1] 数字技术与AI在心理健康护理中的应用 - AI可分析地理定位数据、短信发送频率和通话时长来预测抑郁症或双相情感障碍发作 [1] - 大语言模型可分析大量治疗会话记录,识别不同情境下最有效的干预措施和咨询师行为 [2] - 2024年1月的一项研究分析了超过16万次匿名文本咨询会话和2000万条信息,发现"提供信息"与较差治疗结果相关,而"复杂反思"和"肯定"与更好结果相关 [2][3] AI在心理健康护理中的发展阶段 - 第一阶段:AI辅助用途,如将会话录音转换为正式诊疗记录和治疗计划 [4] - 第二阶段:协作参与,如评估实习心理咨询师的循证实践遵循程度或帮助患者完成表格填写 [4] - 第三阶段:完全自主护理,临床大语言模型能执行人类临床医生的所有任务和干预措施 [4] 心理健康护理的未来展望 - AI可能使心理健康护理变得更加便捷、经济、可扩展和个性化,类似于Spotify和奈飞的服务模式 [4] - 完全虚拟的心理咨询师平台可能以每月不到20美元的固定费用提供24小时服务,突破人类心理咨询师的局限性 [6][7] - AI平台可分析数千名相似患者的数据,优先推荐功效超过阈值的方法,并提供个性化治疗方案 [8] AI对心理健康护理行业的潜在影响 - AI系统可帮助培训更多人类心理咨询师,支持他们与更多患者互动 [9] - AI能让当前护理模式无法覆盖的数百万人获得负担得起的护理服务 [9] - 未来可能开创一个更全面、持续且深度融入日常生活的心理健康护理新时代 [9]
11.98万元起售,小鹏MONA M03加推四款新版型升级上市
北京商报· 2025-06-04 12:11
北京商报讯(记者 刘晓梦)5月28日,小鹏MONA M03升级上市,并加推四款全新版型,分别为小鹏MONA M03 502长续航Max、小鹏MONA M03 600超长 续航Max,以及小鹏MONA M03 515长续航 Plus、小鹏MONA M03 620超长续航Plus,官方指导价为11.98万—13.98万元。作为MONA系列的进阶产品,本次 更新在智能驾驶、座舱系统、外观配置等多方面集中升级,强化小鹏纯电市场的智能化竞争力。 与此同时,新车首次搭载全球首发的人机共驾功能,实现智能辅助驾驶过程中不强制接管控制,提升人机协同的平滑性与驾驶者掌控感。泊车能力也同步增 强,支持极窄车位、自主出库与全场景车位到车位路径规划,强调智能体验的日常可用性。 智能座舱方面,MONA M03 Max首发天玑系统5.7.0版本,新增超300项功能,语音控制覆盖率超过90%。依托小鹏自研的大语言模型XGPT,座舱实现推 理、百科查询、连续对话等复杂交互,语音响应时间控制在0.9秒内。系统兼容多家主流手机品牌,进一步拓展车机生态的使用边界。 在造型与舒适性方面,新车提供星暮紫、微月灰、星雨青三款原厂新车色,新增两种轮毂设计, ...
为什么DeepSeek还未能撼动OpenAI
虎嗅· 2025-06-04 08:27
AI行业竞争格局 - 2025年1月DeepSeek发布推理模型R1被视为AI全球竞争展开的标志事件 [2] - DeepSeek R1以开源和更高性价比达到OpenAI o1性能 导致英伟达股价单日下跌6000亿美元 [3] - OpenAI在DeepSeek R1发布后迎来爆发期 估值达3000亿美元 活跃用户从4亿增至8亿 年化收入从37亿美元增至127亿美元 [10] - DeepSeek R1在2月访问量一度超过OpenAI 但后续指标下滑 0528版本性能打平Gemini 2.5 Pro [11] - Anthropic的Claude 3.7成为最佳编程模型 Claude Opus 4支持智能体连续工作7小时 [11] 公司差异化竞争 - OpenAI凭借品牌优势和全球用户心智地位保持领先 [12] - Anthropic成为编程智能体首选 推出模型上下文协议(MCP)推动智能体生态 [11][12] - Gemini凭借统一多模态和视频生成能力 在谷歌用户生态中占据独特地位 [12] - DeepSeek最大程度开源推动AI在中国和国际推广 但模型性能差异性开始不明显 [12] 行业发展趋势 - AI商业化仍处早期 上半年DeepSeek和OpenAI用户均大幅增长 [13] - AI商业化下一阶段可能不是"赢家通吃" 而是融合与重构 关键在于掌握"工作逻辑" [14] - 大模型进入同质化和商品化竞争 性能差距缩小 差异性体现在应用层面 [12] - DeepSeek使命是实现AGI 需通过基础设施和产品验证 或成为超级横向平台 [15]
超越GPT-4o!华人团队新框架让Qwen跨领域推理提升10%,刷新12项基准测试
量子位· 2025-06-04 08:17
技术突破 - 提出全新训练框架General-Reasoner,显著提升Qwen系列大模型的跨领域推理准确率近10% [1][2] - 在多个基准测试中超越GPT-4o,如General-Reasoner-Qwen3-14B在GPQA任务准确率达56.1%,TheoremQA达54.4% [15] - 强化学习(RL)被视为提升模型推理能力的关键手段,但现有方法如Zero-RL局限于数据丰富、答案结构清晰的领域 [3] 方法创新 - 构建全领域推理数据集WebInstruct-verified,覆盖物理、化学、金融等领域约23万个高质量可验证推理问题 [5][9] - 开发生成式答案验证器General-Verifier,以1.5B参数小型模型取代传统规则式验证,显著提高跨领域答案验证准确率 [13] - 数据筛选过程严格,剔除模糊或过于简单的问题,确保数据集质量 [12] 数据集构建 - 初始数据来源于WebInstruct,包含约500万个从StackExchange和教育门户网站爬取的自然指令 [6] - 通过Gemini-1.5-Pro筛选出100万个候选问题,再经Gemini-2.0-Flash标注元数据并平衡数据 [7] - 最终数据集涵盖23万道具有不同答案格式和主题的推理问题 [9] 性能表现 - General-Reasoner在12个基准测试中表现优异,Qwen2.5-7B-Base在MMLU-Pro准确率达58.9%,高于基础模型的47.7% [15] - 在数学推理任务中略优于专业框架SimpleRL [15] - 生成式验证器与Gemini-2.0-Flash高度一致,鲁棒性与泛化能力显著超越传统方法 [13] 未来方向 - 研究团队计划优化模型性能,扩展更多领域的高质量推理数据,提升验证器鲁棒性 [17] - 推动大语言模型在复杂现实任务中的广泛应用 [17]
工银瑞信马丽娜:两大方向布局AI核心主线
券商中国· 2025-06-04 07:15
人工智能投资行情 - 2025年以来人工智能投资行情持续成为市场主线,DeepSeek是主要推动者 [1] - 公募基金布局备受关注,工银科技先锋混合发起式基金将于6月25日发行,聚焦人工智能产业链优质公司 [1] 基金经理马丽娜背景 - 马丽娜本科毕业于北大微电子系,硕士毕业于北大计算机系,2015年进入工银瑞信基金,从业10年专注科技产业研究和投资 [3] - 管理三只基金,工银新兴制造自2024年7月至2025年3月31日累计收益率达50.77%,同期业绩基准收益为23.46% [3] 工银科技先锋基金投资方向 - 聚焦人工智能产业链优质公司,细分方向包括AI硬件中的半导体、硬件基础设施和AI应用中的软件、互联网娱乐、智能驾驶、机器人等 [3] - 0—50%比例可投资港股,涵盖科技互联网、智能驾驶、半导体等优质龙头企业 [3] - 投资定位有别于其他在管基金,工银新兴制造聚焦半导体产业链,工银科技先锋覆盖更宽泛的AI应用 [3] 科技行业投资框架 - 科技投资核心是把握科技周期中的强主线,找到受益于产业趋势的个股 [2] - 选股三要素:业绩增长高、估值有提升弹性、有一定竞争壁垒 [5] - 自上而下选择成长空间大、竞争壁垒高的行业,自下而上选择成长空间大、增速快、竞争壁垒高的优秀企业 [4] 大语言模型发展趋势 - 生成式大语言模型的Scaling Law在放缓,未来关注方向是融合图像、视频、空间物理等多模态数据和合成数据的学习 [7] - 训练阶段的Test-Time Scaling仍有较大空间,后训练阶段加入强化学习和思维链可显著提升模型推理能力 [7] - 2025年由国内DeepSeek引领的产业趋势,通过工程优化降低模型训练和推理成本 [8] AI产业投资机会 - 看好两大方向:AI基础设施和AI半导体,2025—2026年海外云厂商资本开支快速增长,国内云厂商资本开支2024年底首次上修 [8] - AI应用随着模型性能提升和成本下降,更多应用将诞生,包括端侧AI应用、软件、具身智能等 [8] - 硬件基础设施端中国短板正在补齐,模型端中美差距缩小,应用端国内更具优势 [8]