人工智能模型
搜索文档
DeepSeek更新新模型,支持最高1M百万Token上下文长度
新浪财经· 2026-02-11 19:35
产品更新与功能发布 - DeepSeek在网页端和App端进行了版本更新,支持最高1M百万Token的上下文长度 [1][2] - 截至目前该版本仍未开放多模态能力 [1][2] - 相关媒体援引知情人士消息称,DeepSeek春节更可能推出针对V3系列模型的小幅更新 [1][2] 下一代模型规划与进展 - DeepSeek下一代旗舰模型预计将是一款万亿参数级别的基础模型 [1][2] - 因模型规模大幅跃升,训练速度明显放缓,导致发布进程有所延后 [1][2] 公司沟通与市场反馈 - 截至发稿,DeepSeek暂未回应新浪科技关于版本更新的相关问题 [2][3]
港股异动 | 智谱(02513)午前涨超22% 总市值逼近1500亿港元 神秘匿名模型或为智谱...
新浪财经· 2026-02-10 12:04
公司股价表现与市场动态 - 智谱(02513)股价午前大幅上涨,涨幅超过22%,最高触及338.2港元 [1] - 当前股价335.4港元较招股价116.2港元已上涨近200% [1] - 公司总市值逼近1500亿港元,成交额达6.65亿港元 [1] 新产品发布与市场猜测 - 全球模型服务平台OpenRouter上线一款代号为“Pony Alpha”的匿名模型,因其强大的编码能力、超长上下文窗口及针对智能体工作流的深度优化而引发关注 [1] - 市场猜测“Pony Alpha”的真实身份可能是智谱即将发布的新一代模型GLM-5 [1] - 分析指出,GLM系列模型在代码生成和智能体能力上的进步与“Pony Alpha”的主打方向完全一致 [1] 公司官方动态与回应 - 智谱首席科学家唐杰通过微博明确表示,公司最近将发布GLM-5模型 [1] - 截至目前,智谱及其疑似关联方尚未对“Pony Alpha”的身份作出官方回应 [1]
【播客】又有神秘模型海外走红 智谱股价暴拉40%
Datayes· 2026-02-09 19:52
Pony Alpha 模型上线引发市场关注 - 全球模型服务平台OpenRouter于2月6日上线名为“Pony Alpha”的神秘模型,凭借强大的编码能力和对智能体工作流的优化迅速走红,搜索量登顶并引发开发者关注 [1] - 该模型被定位为尖端基础模型,在编码、代理工作流、推理及角色扮演领域表现突出,支持通过Claude Code等工具调用,可完成耗时数小时的复杂项目开发 [1] - 社区实测显示,Pony Alpha配合Claude Code运行MineCraft项目,在2小时内生成了170KB的高质量JavaScript代码,输出结果超出预期 [1] - 在SVG生成等细节任务中,该模型的表现达到了“Claude Opus 4.5级品味”的水平 [1] 模型背景与来源推测 - 业内推测“Pony Alpha”可能为DeepSeek-V4、智谱GLM新模型(如GLM-5)、Grok4.2或Claude5 [1] - 由于“Pony”(小马)与马年存在关联,且OpenRouter合作方Kilo Code暗示其为“某全球实验室热门开源模型的专项进化版”,市场更倾向认为其出自中国企业,或为智谱或深度求索(DeepSeek)的新产品 [1] 对相关公司股价的直接影响 - 受“Pony Alpha”模型上线及市场对其来源猜测的影响,2月9日午后,智谱公司股价出现大幅拉升 [2] - 智谱公司股价在盘中涨幅一度超过40%,最终收盘上涨36%,报收于276.8港元 [2]
阿里千问正式推出最新旗舰推理模型Qwen3-Max-Thinking
每日经济新闻· 2026-01-26 23:41
公司产品发布 - 阿里巴巴于1月26日正式推出最新旗舰推理模型Qwen3-Max-Thinking [1] - 新模型在事实知识、复杂推理、指令遵循、人类偏好对齐及智能体能力等多个关键维度实现显著提升 [1] - 在19项权威基准测试中,其性能可媲美GPT-5.2-Thinking、Claude-Opus-4.5和Gemini3Pro等顶尖模型 [1] 行业竞争格局 - 阿里巴巴最新模型性能已对标国际顶尖模型,包括OpenAI的GPT-5.2-Thinking、Anthropic的Claude-Opus-4.5以及Google的Gemini3Pro [1]
Meta新模型要来了,但Llama 4的锅谁来接?1300多位作者的联合报告来了
机器之心· 2026-01-22 16:13
Meta AI团队进展与Llama 4技术报告发布 - Meta新成立的AI团队已于本月内部交付首批关键模型,公司CTO Andrew Bosworth评价其“非常好” [1] - 公司此前被报道正在开发代号为Avocado的文本AI模型和代号为Mango的图像视频AI模型,计划第一季度发布 [1] - 一篇关于Llama 4系列模型的技术报告《The Llama 4 Herd: Architecture, Training, Evaluation, and Deployment Notes》在arXiv上线,全面回顾了该系列宣称的数据和技术成就 [1] Llama 4技术报告来源与性质 - 报告由Meta机器学习工程师Arthur Hinsvark上传,但未明确标识来自Meta [3] - 报告作者名单包含超过1300名项目参与者,名单长达5页,可大体认为报告来自Llama 4团队 [4] - 报告引言声明其为对公开材料的独立调查,基准数值归因于模型卡,并提示对评估工具等持保留态度 [4] - 报告内容共15页,其中作者名单占5页,参考文献占1页,实际技术内容仅9页 [9] Llama 4系列模型技术规格总结 - 报告总结了已发布的模型变体,包括Scout、Maverick以及预览版Behemoth教师模型 [9] - **Llama 4 Scout规格**:基础与指令微调检查点,MoE架构,激活参数170亿,总参数1090亿,16个专家,支持文本+图像输入与文本+代码输出,支持12种语言,预训练覆盖约200种语言,知识截止日期2024年8月,训练token数约40万亿,模型支持上下文长度1000万token [9] - **Llama 4 Maverick规格**:基础与指令微调检查点,提供FP8量化权重,MoE架构,激活参数170亿,总参数4000亿,128个专家,支持文本+图像输入与文本+代码输出,支持相同12种语言,预训练覆盖约200种语言,知识截止日期2024年8月,训练token数约22万亿,模型支持上下文长度100万token [9] 报告揭示的模型能力与宣传差异 - 报告揭示了模型架构能力与实际部署存在显著差距,尤其是上下文长度 [4] - Scout架构设计支持1000万token上下文,但实际托管服务因硬件成本限制,常将可用上下文限制在128K或100万token [4][7] - 报告提及LMArena排行榜争议,指出Meta在榜单上提交的Maverick“实验性聊天”变体与公开发布版本不完全相同,这引发了对其“操纵基准测试”的批评 [11] - 报告明确区分营销话术与技术指标,指出发布公告中如Scout是“同类最佳”等声称属于“面向营销的主张”,应与严谨的基准测试结果分开解读 [11] 报告内容范围与目的 - 报告总结了与再分发、衍生命名相关的许可义务,并回顾了公开描述的安全措施和评估实践 [10] - 报告旨在为研究人员和从业者提供一份关于Llama 4的精确、有来源依据的紧凑技术参考 [10] - 报告技术内容涵盖:超越高级MoE描述的架构特征、训练披露、基准测试结果以及在实际部署环境中观察到的限制 [12]
智谱新模型也用DeepSeek的MLA,苹果M5就能跑
量子位· 2026-01-20 12:17
文章核心观点 - 智谱AI在上市后发布了其GLM-4系列的最新轻量级模型GLM-4.7-Flash,该模型采用创新的混合专家架构,在保持高性能的同时显著降低了计算成本,并已免费开放API调用 [1][2] 模型发布与定位 - 新模型为开源轻量级大语言模型GLM-4.7-Flash,直接替代前代GLM-4.5-Flash,其API已免费开放调用 [2] - 该模型是去年12月发布的旗舰模型GLM-4.7的轻量化版本,继承了GLM-4系列在编码和推理上的核心能力,并针对效率进行了专门优化 [7] - 官方定位该模型为“本地编程与智能体助手”,并推荐将其用于创意写作、翻译、长上下文任务及角色扮演场景 [4][8] 模型架构与技术细节 - 模型采用混合专家架构,总参数量为300亿,但实际推理时仅激活约30亿参数,大幅降低了计算开销 [4][10] - 模型首次采用了MLA架构,这一架构此前由DeepSeek-v2率先使用并验证有效 [12] - 从具体结构看,模型深度与GLM-4.5 Air和Qwen3-30B-A3B接近,但采用64个专家而非128个,激活时只调用5个 [13] - 模型配置细节显示,其最大位置嵌入为202,752,隐藏层数为47,词汇量为154,880 [12] 性能表现与评测 - 在SWE-bench Verified代码修复测试中,GLM-4.7-Flash获得59.2分,在“人类最后的考试”等评测中也显著超越同规模的Qwen3-30B和GPT-OSS-20B [4] - 经开发者实测,在配备32GB统一内存和M5芯片的苹果笔记本上,模型推理速度能达到每秒43个token [17] 部署与生态支持 - 模型发布不到12小时,HuggingFace、vLLM等主流平台就提供了day0支持 [14] - 官方在第一时间提供了对华为昇腾NPU的支持 [16] 定价策略与市场对比 - 在官方API平台上,基础版GLM-4.7-Flash完全免费,高速版GLM-4.7-FlashX价格也相当低廉 [18] - 根据定价表,GLM-4.7-Flash的输入、缓存输入、存储和输出费用均为免费 [19] - 对比同类模型,GLM-4.7-Flash在上下文长度支持和输出token价格上有优势,但目前延迟和吞吐量还有待优化 [19]
他们认识香蕉也认识黄色,却不知道香蕉是黄色的
36氪· 2026-01-16 15:25
研究核心发现 - 语言系统与视觉感知系统在大脑中存在深刻交互,语言不仅影响知识的存储与提取,甚至能影响实时视觉感知[1][2][5] - 前颞叶是存储抽象概念知识的关键脑区,它通过白质纤维束与视觉皮层连接,实现语言系统与感觉系统的沟通[1][2] - 连接前颞叶与视觉皮层的白质纤维受损的特殊卒中患者,视觉功能完好但无法判断灰度图片中物体的颜色,且损伤越严重,颜色判断能力与大脑颜色编码越差[1][2][3] - 先天性失明者通过语言习得的颜色知识,其大脑前颞叶的活动模式与视力健全者高度相似,证明语言是独立于感官体验的知识获取途径[2] - 利用AI模型进行对照实验发现,接受过文本训练的模型其内部特征与人类视觉皮层中由语言引发的活动模式相似,而纯视觉模型及特殊卒中患者、猴子的大脑活动模式则更接近[5][7][8][9] - 无论是通过语音、文字还是手语习得的语言,都可能深刻影响视觉感知,早期失聪但熟练使用手语的听障者,其大脑活动也更接近接受文本训练的AI模型[9] 实验方法与模型 - 研究团队通过对比先天性/早期失明受试者与视力健全者的大脑活动,探究非感官途径的知识表征[2] - 为解决人类研究中语言与视觉输入高度耦合的难题,团队采用AI模型作为分离研究手段,严格控制输入数据类型[5][7] - 研究选取了三个架构相同、仅训练时语言输入不同的AI模型进行对比:纯视觉模型MoCo、通过图像标签训练的ResNet-50模型、通过图像对应完整描述文本训练的CLIP模型[7][8] - 将人类实验中使用过的图片输入AI模型,观察其内部反应模式,并与人类受试者观看同样图片时的大脑活动进行对比[8] 理论意义与学科交叉 - 研究挑战了“语言仅是交流工具、不影响基础感知”的传统神经科学观点,认为语言作为抽象编码系统已深度重塑人类认知[10] - 认知科学与人工智能研究正在相互靠近、相互启发,利用AI模型可检验人脑机制,反之亦然[12]
小杯Gemini战胜GPT5.2,1分钟模拟Windows操作系统
量子位· 2025-12-18 12:40
产品定位与核心优势 - 谷歌新推出的Gemini 3 Flash模型定位为“Pro级智能+Flash级速度+更低价格”,旨在实现性能与效率的兼顾[2] - 该模型是谷歌迄今为止在智能体工作流程方面最出色的模型,继承了Gemini 3 Pro的复杂推理、多模态视觉理解、Vibe编程及处理智能体任务的能力,但响应速度更快[15][16] 性能表现与基准测试 - 在速度方面,Gemini 3 Flash几乎是Gemini 2.5 Pro的3倍,且平均使用的token数量少30%[3][33] - 在多项专业基准测试中,其性能显著超越前代模型,并在部分测试中略胜Gemini 3 Pro:在MMMU Pro(多模态理解与推理)测试中得分为81.2%,高于Gemini 3 Pro的81.0%;在ARC-AGI-2(视觉推理谜题)测试中得分为33.6%,高于Gemini 3 Pro的31.1%[31][32] - 在复杂图表信息合成(CharXiv Reasoning)测试中得分为80.3%,接近Gemini 3 Pro的81.4%[32] - 在代理编码任务(SWE-bench Verified)测试中得分为78.0%,高于Gemini 3 Pro的76.2%[32] - 在长上下文性能(MRCR v2)测试的12Bk平均任务中得分为67.2%[32] 多模态与视觉能力展示 - 在具体测试中展现出优秀的视觉理解与细节识别能力,例如能成功识破“数手指”图片陷阱并给出正确答案“6根”,而GPT-5.2则错误回答“5根”[4] - 在图像生成任务中,例如生成“骑车的鹈鹕”,其表现被评估为优于Gemini 2.5 Pro和Gemini 3 Pro[6] - 在人物识别测试中,能正确识别“谷歌宣传委员”Logan Kilpatrick,而Gemini 3 Pro则将其误认为前负责人Jack Krawczyk[8][9] 实际应用与功能演示 - 能够快速创建功能完整、美观的Windows操作系统核心环节,用时不到一分钟[17] - 能够根据提示词生成游戏代码,例如尝试创建《侠盗猎车手6》游戏,并能生成具有交互效果的天气卡片[20][24][25] - 能够为自己生成一个功能性的介绍网站,其中“立即体验”按钮可有效跳转至官网[26][28] 定价策略与市场定位 - 定价具有竞争力,输入价格为每百万token 0.5美元,输出价格为每百万token 3美元[35] - 虽然输入价格略高于Gemini 2.5 Flash的0.3美元/百万token,但凭借其显著提升的性能和速度,性价比依然突出[36] - 其价格远低于Gemini 2.5 Pro(输入1.25美元/百万token,输出10美元/百万token)和Gemini 3 Pro(输入2.00美元/百万token,输出18.00美元/百万token)[32][37] 技术特性与发布情况 - 模型提供四档思考模式:minimal、low、medium、high,以适应不同任务对计算资源与响应深度的需求[38] - 该模型已面向全球所有用户推出,普通用户可通过Gemini应用及谷歌搜索的AI模式使用,专业开发者可通过Google AI Studio、Gemini CLI及Google Antigravity平台调用API,企业客户可通过Vertex AI和Gemini Enterprise平台获取服务[12][13]
GPT-5.2真身是它?OpenAI紧急端出全套「下午茶」,新一代图像模型同步泄露
机器之心· 2025-12-10 18:30
OpenAI新模型发布动态 - 公司内部出现代号为“Olive Oil Cake”(橄榄油蛋糕)的新模型选项,标识码与现有GPT-5.1不同,被普遍猜测为GPT-5.2 [4][7] - 公司计划发布代号为“Chestnut and Hazelnut”(栗子和榛子)的下一代图像生成模型,疑似对应Image-2及其轻量版Image-2-mini [4][10][11] - 新图像模型旨在解决早期模型的色彩偏差问题,提升细节保真度,融合复古与先进视觉风格,并具备图像中撰写代码的能力 [11] - 这套“图像模型全家桶”预计将直接集成在ChatGPT中,服务于设计师和创意工作者 [16] 行业竞争与发布背景 - 公司此次行动被视为在内部“红色代码(Code Red)”警戒下,为阻击谷歌Gemini 3而进行的紧急反击 [5][8] - 谷歌Gemini 3在各项榜单上的强势表现,迫使公司可能将原计划于月底或明年的GPT-5.2发布时间提前 [8] - 在预测平台Polymarket上,市场押注的发布风向标从12月9日转向12月11日(本周四) [8] - 公司此举意在不让谷歌独占2025年末的市场关注度 [16]