大语言模型
搜索文档
Options Corner: RDDT named top pick at Needham
Youtube· 2025-12-24 05:17
公司观点与财务表现 - 投行Needm将Reddit列为2026年首选股并加入确信买入名单 看好其股价有大幅上涨空间[1] - Reddit股价当日下跌3% 但年初至今累计上涨约40%[1] - 公司已从OpenAI和Google Gemini获得超过1亿美元的年费收入 若加上Anthropic和Perplexity的付费 该数字可能翻倍[1] 行业地位与竞争优势 - Reddit在行业中独树一帜 难以直接对标 其表现优于大多数通信板块公司[3] - 可进行粗略比较的公司包括拥有YouTube的Alphabet 拥有Instagram和Facebook的Meta 以及Match、Pinterest和Snapchat等 但Reddit表现优于该群体中大多数公司[4] - 平台拥有100%人工生成内容 其庞大的、充满热情的细分领域参与者创造了具有自然语言理解和对话文化意识的数据 这对大型语言模型训练极具价值[1][4][5] 平台运营数据 - Reddit平台拥有10亿条帖子和160亿条评论[6] - 平台每日新增约120万条帖子和750万条评论[6] 股票技术分析 - 股价近期交易略显横盘 但波动性较大 交易区间大致在177至283之间[7] - 在业绩公布后跳空上涨后 股价多次在178附近的低点(深绿色线)获得支撑 但目前受阻于240区域附近[8] - 股价仍位于多数主要移动平均线之上 但今日跌破了超短期的5日指数移动平均线 下一个关键位是21日指数移动平均线附近的223[10] - 相对强弱指数呈下降趋势 但仍位于50中线上方 整体仍偏多[10] - 成交量分布显示 密集交易区在206附近 240附近区域交易量开始显著减少 另一个较小节点在260附近[11] - 当前股价约为225.85[11] 期权市场活动 - 期权成交量较5日平均值低0.9%[12] - 未来几个月预期波动率:1月16日到期合约为12.4% 2月20日到期合约为26.4%[13] - 未平仓合约最多的到期日是2025年1月16日 其次是2027年1月15日(超过一年后) 后者主要由220看涨期权和115看跌期权的几笔交易构成[13] - 对于2025年1月16日到期合约 看涨期权方面最活跃的行权价为195 看跌期权方面最活跃的行权价为120、140和170[14] - 2027年到期的期权行权价低于当前约226的股价[14]
27岁掌舵腾讯大模型,非典型天才定义AI下半场
搜狐财经· 2025-12-24 01:06
公司核心人事动态 - 姚顺雨于2025年出任腾讯首席AI科学家 同时兼任AI Infra部及大语言模型部负责人 掌舵公司AI基础设施与大模型研发的核心业务[1] - 姚顺雨于2024年加入OpenAI 担任研究科学家 专注于将大型语言模型从理论研究推向实际应用 主导开发了OpenAI首个发布的智能体模型及产品 同时参与了Deep Research项目[1][10] - 姚顺雨的加入与腾讯近期优化人工智能战略布局相契合 公司新成立了AI Infra部、AI Data部、数据计算平台部 以全面强化其大模型的研发体系与核心能力[11] 行业技术趋势与个人研究重点 - 姚顺雨认为AI的下半场已经来临 评价会比训练更重要 研究者应将重心从“解决问题”转向“定义问题” 像产品经理那样思考[12] - 其研究核心关键词为“智能体” 认为语言是实现通用智能体的“先天圣体” 因为语言天然携带推理基因 能够跨环境迁移[7] - 在技术路径上 其早期认为计算机视觉难实现通用智能 转而专攻语言方向 并选择GPT而非当时主流的BERT作为研究基础 因其更符合开放行为空间决策的需求[4][8] - 其提出的ReAct方法已成为世界范围内构建语言智能体的最主流方法 该方法核心理念是让大语言模型在行动前先进行可解释的内在推理 继而基于推理结论去决策与操作[9] - 其研究追求“简单且通用”的方法 希望找到能泛化到多任务的简单解法 并认为有必要将多模态能力纳入语言智能体框架中[10] 个人背景与职业轨迹 - 姚顺雨于2015年以安徽省理科第三名成绩考入清华大学交叉信息研究院“姚班” 2019年赴美国普林斯顿大学深造 专攻自然语言处理与强化学习[1] - 其在普林斯顿大学与副教授卡提克·纳拉辛汉合作 后者是GPT-1论文的第二作者 他们共同探索利用GPT-2等强大模型进行复杂语言游戏训练 以研究智能体的新可能性[4][5] - 其曾以最年轻入选者身份跻身《麻省理工科技评论》“35岁以下科技创新35人”中国区名单[3]
大模型的2025:6个关键洞察
腾讯研究院· 2025-12-23 16:33
文章核心观点 - 2025年标志着大语言模型训练哲学从“概率模仿”向“逻辑推理”的决定性跨越,其核心驱动力是基于可验证奖励的强化学习的成熟[2] - 行业对大语言模型潜力的挖掘尚不足10%,正处于从“模拟人类智能”向“纯粹机器智能”跨越的临界点,未来竞争将转向对核心逻辑范式的深度挖掘[3][4][25] 基于可验证奖励的强化学习 - 基于可验证奖励的强化学习在2025年脱颖而出,成为大语言模型生产堆栈中事实上的核心新阶段,它通过在数学、代码等可自动验证奖励的环境中训练,迫使模型自发形成近似人类“推理”的策略[6][7] - 该技术具备极高的“能力/成本比”,占用了原本用于预训练的大量计算资源,成为2025年模型能力提升的主要来源,模型参数规模未显著变化,但强化学习训练周期大幅延长[8] - OpenAI的o1模型是该技术的首次公开亮相,而2025年初o3模型的发布成为直观感受模型能力质性飞跃的明确拐点[9] 智能的本质与性能特征 - 大语言模型的智能形态本质被比喻为“被召唤出的幽灵”,而非“逐步进化成长的动物”,其优化目标与生物智能演化逻辑截然不同[10][11] - 在可验证奖励强化学习的驱动下,模型能力呈现“锯齿状性能特征”:在特定领域能力“爆发式增长”,表现如天才博学家,但在基础常识上可能脆弱如孩童,甚至可能被“越狱指令”诱导[12] - 2025年行业对各类基准测试失去兴趣与信任,因为其构建逻辑基于“可验证环境”,极易被针对性训练“攻击”,“针对测试集进行定向训练”已成为一种新型技术操作[12][13] 应用层的新范式与竞争格局 - Cursor的爆发式增长揭示了大语言模型应用的一个全新层级,其核心价值在于为特定垂直领域整合并编排大语言模型调用逻辑,包括处理上下文工程、编排复杂调用、提供人机回圈界面及自主权控制[14][15] - 行业围绕该应用层的“厚度”展开讨论:大语言模型实验室倾向于培育“通识能力极强的大学生”式模型,而垂直应用则通过整合私有数据、传感器等,将这些模型组织成特定领域的“专业团队”[15] 本地化智能体的实用化趋势 - Claude Code的问世令人信服地展现了大语言模型智能体的核心能力,其关键特点是本地化运行模式,可直接访问用户电脑的本地环境、私有数据与上下文[16][17] - 核心差异并非运算位置,而是对已启动设备、预装环境、本地上下文、私有数据及低延迟交互的利用,这重塑了AI的用户认知,使其从需要主动访问的网站转变为“栖息”在用户电脑中的智能实体,标志一种全新交互范式的诞生[18] 氛围编程的兴起与影响 - 2025年,AI突破关键能力阈值,使得“氛围编程”兴起,普通人仅凭自然英语就能构建功能强大的程序,编程成为通用能力[19][20] - 大语言模型正在逆转技术普及的传统逻辑,普通人从中获得的收益超过专业人士、企业与政府,氛围编程让代码变得廉价、即时、可塑,支持“用完即弃”的轻量化使用场景,将彻底改造软件开发生态并重新定义相关职业的核心价值[20][21] 大语言模型图形界面的演进 - 与大语言模型的“文本对话交互”类似20世纪80年代的电脑终端指令模式,并非人类最易接受的交互形式,人类更倾向于通过视觉化、空间化的方式获取信息[23][24] - 大语言模型应采用人类偏好的格式进行交互,如图像、信息图、幻灯片等可视化形态,谷歌Gemini Nano Banana是未来“大语言模型图形界面”的早期雏形,其核心价值在于文本生成、图像生成与世界知识的联合建模能力[24]
招商基金吴松凯:积极破解三大矛盾,推动财富管理可持续发展
中国金融信息网· 2025-12-23 15:40
行业核心矛盾与破解之道 - 行业面临短期收入压力与长期信任重建之间的矛盾 破解之道在于坚持长期主义 将考核重心聚焦于客户长期体验而非传统销售指标 [1] - 行业面临客户日益增长的个性化需求与同质化服务之间的落差 解决关键在于坚守客户立场 深入理解并精准匹配客户需求以实现精细化服务 [1] - 行业面临持续降费让利与机构自身可持续盈利之间的矛盾 解决之道在于积极拥抱科技 实现降本增效与高质量服务 [1] 招商基金的实践探索 - 在顶层设计上 公司在投顾业务创立之初便确立了独立的考核体系 着重关注客户盈利体验、复购率等指标 引导团队站在客户视角 [2] - 在客户服务层面 公司已构建起一套多层次、高频更新的客户画像体系 为开展精准化与个性化服务奠定了数据基础 [2] - 在科技应用方面 公司较早布局智能投顾 视科技为提升运营效率、降低成本及实现高质量个性化服务的有效手段 [2] 科技对行业未来的影响 - 生成式AI等技术的突破是近年来科技赋能财富管理领域的显著变量 有望从根本上改变行业服务模式 [2] - 过去专业而有温度的深度服务受限于高水平理财师的个人服务边界与成本 大多仅能覆盖高净值客户 [2] - 随着大语言模型等技术的发展 未来高质量的个性化投教与陪伴将更具可得性 能够普惠至更广泛的客户群体 [2] 可持续发展路径 - 对个体机构而言 主动推动解决行业共性矛盾的过程 本身就是构建自身长期竞争力的过程 [2] - 面对费率下行与模式重构的挑战 坚定长期主义、深度践行客户立场、积极将前沿科技转化为服务能力 是财富管理机构实现可持续发展与赢得未来的坚实路径 [2]
中国工商银行刘承岩:2026年,企业进入大规模智能产品化新阶段
新浪财经· 2025-12-23 14:50
行业趋势与阶段判断 - 2025年被称为智能体元年,以GPT5、千问3等为代表的大模型超级应用正式发布,标志着头部科技企业大语言模型训练已近尾声[1][3] - 大模型已成为数智时代的新型基础设施,企业进入了大规模智能产品化的新阶段[1][3] - 2026年企业将进入智能体大规模建设和应用阶段[1][4] 企业IT架构演进方向 - 企业需高质量推进AI+行动,加快IT架构从云原生向数智原生架构演进[1][3] - 数智原生架构需集算力、数据、算法、策略、应用于一体,为企业大规模上线和运营智能体提供企业级支撑和治理能力[1][3] - 中国工商银行已建成面向全机构、全组织、全员工的智能体平台,实现了全行全员AI创新应用的普惠[1][3] 高质量深化应用面临的六大挑战 - **算力挑战**:重点需解决异构算力融合、训推一体、算力池化和调度,以夯实算力底座,实现算力集约化应用[1][4] - **算法挑战**:企业需构建满足自身要求的企业模型,通过大小模型融合构建企业模型矩阵,并建立模型基线以实现迭代和演进[2][4] - **数据挑战**:能力上需构建知识工程、上下文工程和提示词工程能力;统筹上需尽快明确企业级知识集的建设组织、使用和治理体系,系统推进数据集建设[2][4] - **智能体平台挑战**:平台需具备记忆能力,以及在本体建模方法论指导下的原生智能体构建能力,这两大能力是核心关键[2][4] - **安全挑战**:需建立模型安全、数据安全、网络安全等一体化安全体系,特别要对客应用建立完备有效的内容安全护栏[2][4] - **人才挑战**:需加快培养面向智能时代的算力工程师、知识工程师、算法工程师、智能体工程师、提示词工程师等新型人才[2][4]
三季度收入超5000万美元、70%来自海外,中国AI独角兽拟港股上市
搜狐财经· 2025-12-23 12:21
上市进程与公司概况 - 国产AI大模型独角兽MiniMax已获证监会备案并通过港交所聆讯,计划于2026年1月挂牌上市,有望成为“中国大模型第一股” [2] - 公司注册成立于2021年11月,创始人闫俊杰曾任职于商汤科技,公司瞄准通用人工智能方向,坚持“模型+产品”双线推进的战略 [2] - 公司获得了阿里、腾讯、米哈游、红杉中国、IDG资本等知名机构的投资,在2025年8月完成近3.9亿美元的C轮融资,投后估值超过40亿美元 [2] 财务表现 - 公司收入增长迅速,2023年、2024年及2025年前9个月收入分别为346.0万美元、3052.3万美元和5343.7万美元 [2] - 公司仍处于亏损状态,2023年、2024年及2025年前9个月的年内亏损净额分别为2.692亿美元、4.652亿美元和5.120亿美元 [3] - 经调整净亏损(非国际财务报告准则计量指标)在2022年至2025年前9个月分别为1215.0万美元、8907.4万美元、2.44亿美元和1.86亿美元 [4] - 公司毛利率在2024年转正为12.2%,并在2025年前9个月提升至23.3% [3] - 研发支出是最大的成本项,2024年研发支出高达1.890亿美元,占收入的619.1% [3] 业务模式与产品矩阵 - 公司采用“模型+产品”双线并行的布局模式,模型方面包括大语言模型M1、M2和视频生成模型Hailuo-01、Hailuo-02 [5] - 产品端包括MINIMAX开放平台、AI交互应用Talkie、AI视频创作工具HailuoAI以及MiniMax语音等 [5] - 收入构成以C端订阅为主,2025年前9个月占比超过71%,同时依靠B端API服务驱动 [5] - 公司具有显著的全球化特征,2025年前9个月海外收入占比超过70%,主要市场为北美、东南亚及欧洲 [5] 核心产品表现与商业化 - AI伴侣应用Talkie是核心收入支柱之一,其收入占比从2023年的21.9%大幅增长至2024年的63.7% [9] - Talkie的付费用户量从2023年的11.97万增长至2024年的58.50万,年收入从75.80万美元增长至1945.80万美元 [9] - 视频创作工具海螺AI成为另一重要增长引擎,2025年前9个月收入达1746.40万美元,占总收入的32.6% [12] - 海螺AI在2025年前9个月付费用户量达31.11万,每位付费用户平均支出为56美元 [12] - 2025年1月,海螺AI的月度访问量已超过OpenAI的Sora [13] - 2025年6月,由Hailuo 02生成的“猫咪跳水”视频在TikTok播放量突破1亿,带动了产品用户增长 [15] 用户与市场数据 - 截至2025年9月30日,公司AI原生产品累计服务超过2.12亿个人用户及10万余名企业和开发者客户,覆盖全球200多个国家和地区 [18] - AI原生产品平均月活跃用户数从2023年的314.8万跃升至2024年的1911.1万,并在2025年前9个月达到2763.8万 [18] - 付费用户规模增长迅猛,从2023年的11.98万名增长至2024年的65.10万名,并在2025年前9个月突破177.41万名 [18] - 2025年前9个月,公司超73.1%的收入来自海外市场,新加坡和美国是两大核心引擎,分别贡献了24.3%和20.4%的收入 [12] 公司治理与股东结构 - 截至招股书编纂日,阿里巴巴持股15.04%,米哈游持股7.05%,腾讯持股2.84% [18] - 米哈游创始人刘伟和阿里巴巴集团战略投资部总经理陈英杰均以非执行董事身份进入公司董事会 [19][21] - 公司员工平均年龄29岁,以95后为主,组织结构高度偏向研发 [18] 发展历程与战略路径 - 公司于2022年10月在国内上线AI智能体产品Glow,早于ChatGPT发布,并同期内测300亿参数自研大语言模型 [6] - Glow的下架为后续产品积累了经验,公司于2023年6月推出首款“诞生起就出海”的产品Talkie,抢占了中国AI产品出海的先机 [8] - 海螺AI的发展路径是“产品即模型”的实践,底层模型升级直接转化为产品体验,由技术节奏牵引产品演进 [17] - 公司的模式是由模型能力驱动、产品迭代检验、组织和资本支撑的系统实践 [21]
深扒特斯拉ICCV的分享,我们找到了几个业内可能的解决方案......
自动驾驶之心· 2025-12-23 08:53
文章核心观点 文章系统阐述了特斯拉FSD等端到端自动驾驶方案面临的三大核心挑战,并分别提出了三项创新性的技术解决方案,这些方案相互协同,形成了一个从高效感知决策到可解释性增强,再到物理一致评估的完整技术栈,有望推动行业向L4/L5级别自动驾驶发展 [30][31] 挑战一:维度灾难及其解决方案 - **挑战核心**:端到端自动驾驶面临维度灾难,需在输入层面高效处理海量多模态时序数据,在输出层面实现从原始感知到规划决策的真正端到端映射 [4] - **解决方案**:提出UniLION框架,这是业界首个基于线性组RNN的统一自动驾驶框架,采用类ViT范式,将多视角图像、LiDAR点云和时序信息统一转换为token序列,在3D空间进行高效融合 [4] - **架构特点**:UniLION具有统一的3D骨干网络,基于线性组RNN实现线性计算复杂度,解决了传统Transformer处理长序列时的计算效率瓶颈,能无缝处理不同模态和时序信息,无需显式融合模块 [7] - **核心组件**:UniLION Block包含四个关键设计:UniLION Layer(利用线性组RNN实现长距离特征交互)、3D空间特征描述器、体素合并与扩展、自回归体素生成,采用层次化结构提取多尺度特征 [9] - **性能表现**:在多项任务中达到卓越性能,包括检测任务75.4% NDS和73.2% mAP,跟踪任务76.5% AMOTA,地图分割73.3% mIoU,占用预测51.3% RayIoU,车辆运动预测0.57 minADE,行人运动预测0.37 minADE,规划任务碰撞率仅0.18% [11] 挑战二:可解释性与安全保障及其解决方案 - **挑战核心**:自动驾驶系统需具备可解释性以确保安全,但传统LLM缺乏精确3D空间感知能力,而基于视觉的模型缺乏可解释性和自然语言交互能力 [12] - **解决方案**:提出DrivePI框架,这是业界首个以单一LLM模型(仅0.5B参数的Qwen-2.5)实现视觉-语言-行为(VLA)和视觉-行为(VA)架构统一的框架 [13] - **架构特点**:DrivePI是一种空间感知4D多模态大语言模型,引入激光雷达作为补充传感模态以提供精确3D几何信息,生成中间的精细3D感知和预测表示,确保MLLM输出特征保持可靠的空间感知能力 [14] - **性能表现**:在文本理解方面超越OpenDriveVLA-7B模型2.5个百分点(60.7% vs 58.2%),碰撞率比ORION降低70%(从0.37%降至0.11%),3D占用性能超过FB-OCC模型10.3个RayIOU点(49.3% vs 39.0%),轨迹规划L2误差比VAD低32%(0.49m vs 0.72m) [13] - **主要贡献**:提出了首个统一的空间感知4D MLLM框架,弥合了基于视觉和基于VLA范式之间的技术鸿沟,尽管仅使用0.5B参数骨干网络,但在3D占用和占用流预测方面优于现有的基于视觉的专用模型 [17] 挑战三:系统评估及其解决方案 - **挑战核心**:自动驾驶系统评估面临人类驾驶行为不确定性与复杂交互场景多样性的挑战,传统方法难以覆盖足够的边缘场景和安全关键场景 [18] - **解决方案思路**:需要开发一个具备物理感知场景生成能力、长时序预测能力和高度可控性的自动驾驶世界模型 [20] - **具体解决方案**:提出GenieDrive,这是业界首个采用4D占据表征作为中间状态的自动驾驶世界模型,采用“先生成4D占据、再生成视频”的两阶段框架,能生成长达20秒的多视角高质量视频序列 [21] - **架构特点**:GenieDrive是一种以4D Occupancy作为中间表示的自动驾驶世界模型框架,通过Tri-plane VAE高效压缩技术,仅使用现有方法58%的潜在表示数量实现SOTA的占据重建性能,大幅降低计算和存储需求 [22] - **性能表现**:在4D占据预测任务上将mIoU提高了7.2%(相比I²-World),在视频生成质量评估中将FVD指标降低了20.7% [21] - **主要贡献**:开创了“先生成4D占据、再生成视频”的全新研究路径,在仅使用3.47M参数的情况下实现了41 FPS的实时推理速度,支持长时序视频生成和场景编辑功能,为自动驾驶系统的闭环评测、难例生成和安全验证提供了强大技术支持 [27] 技术协同与生态系统 - **技术闭环**:三项技术创新形成了一个相互赋能的完整技术生态系统:UniLION提供高效的感知和决策基础,并为DrivePI提供强大的视觉编码能力;DrivePI增强了系统的可解释性和人机交互能力,同时为GenieDrive提供控制输入条件;GenieDrive则为整个系统提供可靠的评估和验证环境,并通过生成合成数据反哺UniLION和DrivePI的训练过程 [31] - **整体意义**:通过这种系统性方法,构建了一个从感知到决策再到评估的完整闭环自动驾驶技术栈,每个环节都实现了显著的性能突破,为未来更安全、更可靠、更高效的自动驾驶系统开发铺平了道路,有望加速整个行业向L4/L5级别自动驾驶的跨越式发展 [31]
腾讯从OpenAI、字节抢人才,加速AI破局
钛媒体APP· 2025-12-22 17:49
腾讯AI核心人事任命与战略意义 - 腾讯任命27岁的前OpenAI研究员姚顺雨为首席AI科学家,并兼任AI Infra部与大语言模型部负责人,向总裁刘炽平和技术工程事业群总裁卢山双线汇报 [1] - 姚顺雨拥有清华姚班与普林斯顿博士背景,曾入选《MIT科技评论》“35岁以下科技创新35人”中国区最年轻入选者,其学术研究总引用量超过1.9万次 [1][3] - 此次任命被解读为腾讯试图缩短从AI研究到产品落地距离的关键信号,标志着公司从“军备竞赛”转向“应用攻坚”的战略校准 [4] 腾讯AI组织架构重大调整 - 腾讯新成立三大部门:AI Infra部(聚焦大模型分布式训练与高性能推理)、AI Data部(聚焦数据与评测体系)、数据计算平台部(聚焦大数据与机器学习平台融合),旨在打通从数据、算力到模型训练的全链路 [1][8] - 组织架构调整形成“研发—数据—平台”闭环,以提升整体AI研发效率与规模化落地能力,结束此前内部研发力量分散的现状 [8][11] - 大语言模型部副总经理王迪向姚顺雨汇报,AI Data部与数据计算平台部负责人则向公司副总裁蒋杰汇报 [8] 姚顺雨的核心技术理念与腾讯战略契合 - 姚顺雨提出AI竞赛进入“下半场”,核心从上半场的“训练大于评估”(拼参数、规模)转向“评估大于训练”(定义真问题、构建可靠系统、建立可信评估标准) [4] - 其研究核心是让AI在复杂真实环境中学会推理与行动,与微信生态产生的海量、高频、多维交互数据天然契合,为训练和验证AI智能体提供了“现实实验室” [7] - 姚顺雨区分了“渐进式创新”与“颠覆式创新”的威胁,认为微信生态具有“易守难攻”的战略稳定性,这与腾讯依托超级应用防御颠覆性风险的思路一致 [5][6] 危机感驱动下的腾讯AI全面加速举措 - 公司因竞争对手(如字节跳动“豆包”日活逼近千万量级)而感到增长压力,高层定调AI必须“以产品化、商业化的方式来打这场仗” [9][10] - 产品层面采取务实开放策略:腾讯云率先接入DeepSeek-R1模型,腾讯元宝上线“自研混元+DeepSeek”双模型版本,带动元宝月活在短时间内突破4000万 [10] - 人才层面开启“抢人”模式,以“薪资翻倍”等条件从竞争对手挖角顶尖AI研究员,2025年招聘约1万名实习生,超过60%面向技术岗并重点倾斜AI方向 [10] - 研发投入持续加大,2025年第三季度单季研发投入达228.2亿元,同比增长28%,前三季度总和已显著超过2024年同期 [11] 行业竞争态势与腾讯的终极战场 - 行业竞争焦点正从“把模型做大”转向“让模型真正有用”,智能体被公认为下一个关键战场 [1][12] - 竞争维度已升级:字节跳动推出“豆包手机”尝试从硬件入口重构交互,阿里全力押注“通义千问”展现B端C端两手抓的决心,战火从软件烧向硬件和整个生态 [12] - 腾讯总裁刘炽平明确表示“微信最终会推出一个Agent”,但认为市场尚处早期,公司战略是必须依托微信核心生态,确保在智能时代的终极战场上占据关键席位 [13]
AI 语音输入法,正在偷偷挤走「键盘」
36氪· 2025-12-22 17:03
行业趋势:AI驱动的语音输入技术演进 - 语音输入正从传统的替代性输入方式,转变为与AI模型直接交互的前置层,其价值在于与后续AI反馈的无缝衔接[3] - 技术路线从传统的自动语音识别转向大语言模型,核心任务从“识别声音”转变为“理解意图”,使得机器更能适应人的自然表达习惯[18] - 语音作为人类最自然的输出方式,能够将用户从拼写、格式和预先组织语言的负担中解放出来,提升了输入的自然度和效率[25] 公司产品:Typeless的核心竞争力分析 - Typeless在语音输入工具中定位为“速度中上,文字质量最高”,其核心优势在于大幅降低出错和返工成本,能理解用户意图并生成完整、顺畅的文本[9] - 产品具备超越简单转录的智能功能,包括自动生成带格式的列表、重写邮件、翻译文本,并能根据当前使用的应用程序自动调整输出文本的语气[11][14][16] - 该软件在桌面端集成顺滑,为个人用户提供每周4000词的免费额度,付费套餐为每月12美元提供无限次转录[19] 市场格局与竞争威胁 - 面临操作系统级厂商可能提供系统级、无处不在的高水准语音输入功能的威胁,历史上许多优秀第三方工具因此被削弱[20] - 面临免费本地模型阵营的持续挤压,例如“闪电说”工具,其强化了语音识别应免费的用户预期,对Typeless的付费模式构成长期挑战[21] - 在iOS端因系统限制体验受损,必须跳转应用,后台常驻麦克风的解决方案又带来隐私和功耗问题,这些问题依赖操作系统厂商的配合[21][22] 产品性能与用户数据 - 在20天的使用测试中,用户通过Typeless总计口述输入了约7,883字,节省了约3小时15分钟,平均口述速度达到每分钟157字[20] 未来展望:输入方式的范式转变 - Typeless展现了激进的产品思路,在桌面端试图成为独立于具体应用之上的输入层,在iOS端则直接取消键盘,将语音设为默认动作[26] - 如果操作系统层接受“语音优先”的前提,将可能改写许多现有的交互细节,尽管大公司意愿、用户习惯和监管等问题仍存不确定性[29] - 该产品已在输入效率指标上证明,在许多场景下能以更短时间输入更多信息且更完整语义,减少了与键盘交互的环节,推动了输入方式的重新想象[29]
大模型的2025:6个关键洞察,来自OpenAI创始人、AI大神“AK”
36氪· 2025-12-22 12:22
2025年大语言模型年度回顾核心观点 - 2025年标志着大语言模型训练哲学从“概率模仿”向“逻辑推理”的决定性跨越,其核心驱动力是可验证奖励强化学习的成熟[1] - 行业正处于从“模拟人类智能”向“纯粹机器智能”跨越的临界点,未来竞争将转向对“如何让AI高效思考”这一核心逻辑范式的深度挖掘[2] - 尽管行业进步迅猛,但人类目前对这一新计算范式潜力的挖掘尚不足10%,未来发展空间极其广阔[2] 技术范式转移:可验证奖励强化学习 - 基于可验证奖励的强化学习在2025年脱颖而出,成为大语言模型生产堆栈中事实上的核心新阶段,它通过在数学、代码等可自动验证奖励的环境中训练,迫使模型自发形成近似人类“推理”的策略[4] - 该技术具备极高的“能力/成本比”,甚至占用了原本用于预训练的大量计算资源,成为2025年模型能力提升的主要引擎[5] - 与监督微调、基于人类反馈的强化学习等微调阶段不同,可验证奖励强化学习针对客观奖励函数开展训练,支持更长周期的优化过程,并带来了通过生成更长推理轨迹来灵活调控计算量的新调节维度[4][5] - OpenAI的o1模型是该技术的首次公开亮相,而2025年初o3模型的发布成为行业能力发生质性飞跃的明确拐点[5] 智能本质与性能特征 - 大语言模型的智能本质被比喻为“被召唤出的幽灵”,而非“逐步进化成长的动物”,其所有技术组成部分都与生物智能的演化逻辑截然不同[6] - 由于优化目标(模仿人类文本、在数学问题中获取奖励等)与人类大脑不同,大语言模型在可验证奖励强化学习普及的领域能力会出现“爆发式增长”,整体呈现出“锯齿状性能特征”:既是多领域天才,也可能在基础常识上存在认知缺陷[7][8] - 2025年,行业对各类基准测试失去了兴趣与信任,因为其构建逻辑基于“可验证环境”,极易被可验证奖励强化学习或合成数据生成等方式“攻击”,“针对测试集进行定向训练”已成为一种新型技术操作[8] 应用层演进:垂直整合与智能体 - 以Cursor为代表的大语言模型应用揭示了一个全新层级,其核心价值在于为特定垂直领域整合并编排大语言模型调用逻辑,包括处理上下文工程、编排复杂调用图、提供场景化图形界面及调节AI自主权[9] - 大语言模型实验室倾向于培育“通识能力极强的大学生”式模型,而垂直应用则通过整合私有数据、传感器等,对这些模型进行针对性组织与微调,使其成为特定领域的“专业团队”[9] - Claude Code的问世令人信服地展现了智能体的核心能力,其关键创新在于本地化运行模式,直接部署在用户电脑中,访问本地私有环境与数据,重塑了AI交互范式,使其成为“栖息”在用户电脑中的智能实体[9][10] 氛围编程的兴起 - 2025年,AI突破关键能力阈值,使得“氛围编程”兴起,普通人仅凭自然语言就能构建功能强大的程序,编程正从专业人士的专属技能转变为普通人的通用能力[11] - 与以往技术不同,普通人从大语言模型中获得的收益超过了专业人士、企业与政府,氛围编程不仅赋予普通人技术创作权,也让专业开发者能高效实现原本因门槛或成本不会尝试的项目[11] - 在氛围编程模式下,代码变得廉价、即时、可塑,支持“用完即弃”的轻量化使用场景,这将彻底改造软件开发生态并重新定义相关职业的核心价值[12] 大语言模型图形界面的雏形 - 与大语言模型的“文本对话交互”被视为类似20世纪80年代向电脑终端输入指令的初级模式,并非人类最易接受的交互形式[13] - 未来的“大语言模型图形界面”应采用人类偏好的可视化形态进行交互,如图像、信息图、幻灯片、白板、动画/视频等,当前趋势的早期萌芽是表情符号与标记语言实现的文本视觉化排版[13] - 谷歌Gemini Nano Banana是未来形态的早期雏形,其核心价值在于模型权重中深度融合了文本生成、图像生成与世界知识的联合建模能力[14]