人工智能模型
搜索文档
Meta新模型要来了,但Llama 4的锅谁来接?1300多位作者的联合报告来了
机器之心· 2026-01-22 16:13
Meta AI团队进展与Llama 4技术报告发布 - Meta新成立的AI团队已于本月内部交付首批关键模型,公司CTO Andrew Bosworth评价其“非常好” [1] - 公司此前被报道正在开发代号为Avocado的文本AI模型和代号为Mango的图像视频AI模型,计划第一季度发布 [1] - 一篇关于Llama 4系列模型的技术报告《The Llama 4 Herd: Architecture, Training, Evaluation, and Deployment Notes》在arXiv上线,全面回顾了该系列宣称的数据和技术成就 [1] Llama 4技术报告来源与性质 - 报告由Meta机器学习工程师Arthur Hinsvark上传,但未明确标识来自Meta [3] - 报告作者名单包含超过1300名项目参与者,名单长达5页,可大体认为报告来自Llama 4团队 [4] - 报告引言声明其为对公开材料的独立调查,基准数值归因于模型卡,并提示对评估工具等持保留态度 [4] - 报告内容共15页,其中作者名单占5页,参考文献占1页,实际技术内容仅9页 [9] Llama 4系列模型技术规格总结 - 报告总结了已发布的模型变体,包括Scout、Maverick以及预览版Behemoth教师模型 [9] - **Llama 4 Scout规格**:基础与指令微调检查点,MoE架构,激活参数170亿,总参数1090亿,16个专家,支持文本+图像输入与文本+代码输出,支持12种语言,预训练覆盖约200种语言,知识截止日期2024年8月,训练token数约40万亿,模型支持上下文长度1000万token [9] - **Llama 4 Maverick规格**:基础与指令微调检查点,提供FP8量化权重,MoE架构,激活参数170亿,总参数4000亿,128个专家,支持文本+图像输入与文本+代码输出,支持相同12种语言,预训练覆盖约200种语言,知识截止日期2024年8月,训练token数约22万亿,模型支持上下文长度100万token [9] 报告揭示的模型能力与宣传差异 - 报告揭示了模型架构能力与实际部署存在显著差距,尤其是上下文长度 [4] - Scout架构设计支持1000万token上下文,但实际托管服务因硬件成本限制,常将可用上下文限制在128K或100万token [4][7] - 报告提及LMArena排行榜争议,指出Meta在榜单上提交的Maverick“实验性聊天”变体与公开发布版本不完全相同,这引发了对其“操纵基准测试”的批评 [11] - 报告明确区分营销话术与技术指标,指出发布公告中如Scout是“同类最佳”等声称属于“面向营销的主张”,应与严谨的基准测试结果分开解读 [11] 报告内容范围与目的 - 报告总结了与再分发、衍生命名相关的许可义务,并回顾了公开描述的安全措施和评估实践 [10] - 报告旨在为研究人员和从业者提供一份关于Llama 4的精确、有来源依据的紧凑技术参考 [10] - 报告技术内容涵盖:超越高级MoE描述的架构特征、训练披露、基准测试结果以及在实际部署环境中观察到的限制 [12]
智谱新模型也用DeepSeek的MLA,苹果M5就能跑
量子位· 2026-01-20 12:17
文章核心观点 - 智谱AI在上市后发布了其GLM-4系列的最新轻量级模型GLM-4.7-Flash,该模型采用创新的混合专家架构,在保持高性能的同时显著降低了计算成本,并已免费开放API调用 [1][2] 模型发布与定位 - 新模型为开源轻量级大语言模型GLM-4.7-Flash,直接替代前代GLM-4.5-Flash,其API已免费开放调用 [2] - 该模型是去年12月发布的旗舰模型GLM-4.7的轻量化版本,继承了GLM-4系列在编码和推理上的核心能力,并针对效率进行了专门优化 [7] - 官方定位该模型为“本地编程与智能体助手”,并推荐将其用于创意写作、翻译、长上下文任务及角色扮演场景 [4][8] 模型架构与技术细节 - 模型采用混合专家架构,总参数量为300亿,但实际推理时仅激活约30亿参数,大幅降低了计算开销 [4][10] - 模型首次采用了MLA架构,这一架构此前由DeepSeek-v2率先使用并验证有效 [12] - 从具体结构看,模型深度与GLM-4.5 Air和Qwen3-30B-A3B接近,但采用64个专家而非128个,激活时只调用5个 [13] - 模型配置细节显示,其最大位置嵌入为202,752,隐藏层数为47,词汇量为154,880 [12] 性能表现与评测 - 在SWE-bench Verified代码修复测试中,GLM-4.7-Flash获得59.2分,在“人类最后的考试”等评测中也显著超越同规模的Qwen3-30B和GPT-OSS-20B [4] - 经开发者实测,在配备32GB统一内存和M5芯片的苹果笔记本上,模型推理速度能达到每秒43个token [17] 部署与生态支持 - 模型发布不到12小时,HuggingFace、vLLM等主流平台就提供了day0支持 [14] - 官方在第一时间提供了对华为昇腾NPU的支持 [16] 定价策略与市场对比 - 在官方API平台上,基础版GLM-4.7-Flash完全免费,高速版GLM-4.7-FlashX价格也相当低廉 [18] - 根据定价表,GLM-4.7-Flash的输入、缓存输入、存储和输出费用均为免费 [19] - 对比同类模型,GLM-4.7-Flash在上下文长度支持和输出token价格上有优势,但目前延迟和吞吐量还有待优化 [19]
他们认识香蕉也认识黄色,却不知道香蕉是黄色的
36氪· 2026-01-16 15:25
研究核心发现 - 语言系统与视觉感知系统在大脑中存在深刻交互,语言不仅影响知识的存储与提取,甚至能影响实时视觉感知[1][2][5] - 前颞叶是存储抽象概念知识的关键脑区,它通过白质纤维束与视觉皮层连接,实现语言系统与感觉系统的沟通[1][2] - 连接前颞叶与视觉皮层的白质纤维受损的特殊卒中患者,视觉功能完好但无法判断灰度图片中物体的颜色,且损伤越严重,颜色判断能力与大脑颜色编码越差[1][2][3] - 先天性失明者通过语言习得的颜色知识,其大脑前颞叶的活动模式与视力健全者高度相似,证明语言是独立于感官体验的知识获取途径[2] - 利用AI模型进行对照实验发现,接受过文本训练的模型其内部特征与人类视觉皮层中由语言引发的活动模式相似,而纯视觉模型及特殊卒中患者、猴子的大脑活动模式则更接近[5][7][8][9] - 无论是通过语音、文字还是手语习得的语言,都可能深刻影响视觉感知,早期失聪但熟练使用手语的听障者,其大脑活动也更接近接受文本训练的AI模型[9] 实验方法与模型 - 研究团队通过对比先天性/早期失明受试者与视力健全者的大脑活动,探究非感官途径的知识表征[2] - 为解决人类研究中语言与视觉输入高度耦合的难题,团队采用AI模型作为分离研究手段,严格控制输入数据类型[5][7] - 研究选取了三个架构相同、仅训练时语言输入不同的AI模型进行对比:纯视觉模型MoCo、通过图像标签训练的ResNet-50模型、通过图像对应完整描述文本训练的CLIP模型[7][8] - 将人类实验中使用过的图片输入AI模型,观察其内部反应模式,并与人类受试者观看同样图片时的大脑活动进行对比[8] 理论意义与学科交叉 - 研究挑战了“语言仅是交流工具、不影响基础感知”的传统神经科学观点,认为语言作为抽象编码系统已深度重塑人类认知[10] - 认知科学与人工智能研究正在相互靠近、相互启发,利用AI模型可检验人脑机制,反之亦然[12]
小杯Gemini战胜GPT5.2,1分钟模拟Windows操作系统
量子位· 2025-12-18 12:40
产品定位与核心优势 - 谷歌新推出的Gemini 3 Flash模型定位为“Pro级智能+Flash级速度+更低价格”,旨在实现性能与效率的兼顾[2] - 该模型是谷歌迄今为止在智能体工作流程方面最出色的模型,继承了Gemini 3 Pro的复杂推理、多模态视觉理解、Vibe编程及处理智能体任务的能力,但响应速度更快[15][16] 性能表现与基准测试 - 在速度方面,Gemini 3 Flash几乎是Gemini 2.5 Pro的3倍,且平均使用的token数量少30%[3][33] - 在多项专业基准测试中,其性能显著超越前代模型,并在部分测试中略胜Gemini 3 Pro:在MMMU Pro(多模态理解与推理)测试中得分为81.2%,高于Gemini 3 Pro的81.0%;在ARC-AGI-2(视觉推理谜题)测试中得分为33.6%,高于Gemini 3 Pro的31.1%[31][32] - 在复杂图表信息合成(CharXiv Reasoning)测试中得分为80.3%,接近Gemini 3 Pro的81.4%[32] - 在代理编码任务(SWE-bench Verified)测试中得分为78.0%,高于Gemini 3 Pro的76.2%[32] - 在长上下文性能(MRCR v2)测试的12Bk平均任务中得分为67.2%[32] 多模态与视觉能力展示 - 在具体测试中展现出优秀的视觉理解与细节识别能力,例如能成功识破“数手指”图片陷阱并给出正确答案“6根”,而GPT-5.2则错误回答“5根”[4] - 在图像生成任务中,例如生成“骑车的鹈鹕”,其表现被评估为优于Gemini 2.5 Pro和Gemini 3 Pro[6] - 在人物识别测试中,能正确识别“谷歌宣传委员”Logan Kilpatrick,而Gemini 3 Pro则将其误认为前负责人Jack Krawczyk[8][9] 实际应用与功能演示 - 能够快速创建功能完整、美观的Windows操作系统核心环节,用时不到一分钟[17] - 能够根据提示词生成游戏代码,例如尝试创建《侠盗猎车手6》游戏,并能生成具有交互效果的天气卡片[20][24][25] - 能够为自己生成一个功能性的介绍网站,其中“立即体验”按钮可有效跳转至官网[26][28] 定价策略与市场定位 - 定价具有竞争力,输入价格为每百万token 0.5美元,输出价格为每百万token 3美元[35] - 虽然输入价格略高于Gemini 2.5 Flash的0.3美元/百万token,但凭借其显著提升的性能和速度,性价比依然突出[36] - 其价格远低于Gemini 2.5 Pro(输入1.25美元/百万token,输出10美元/百万token)和Gemini 3 Pro(输入2.00美元/百万token,输出18.00美元/百万token)[32][37] 技术特性与发布情况 - 模型提供四档思考模式:minimal、low、medium、high,以适应不同任务对计算资源与响应深度的需求[38] - 该模型已面向全球所有用户推出,普通用户可通过Gemini应用及谷歌搜索的AI模式使用,专业开发者可通过Google AI Studio、Gemini CLI及Google Antigravity平台调用API,企业客户可通过Vertex AI和Gemini Enterprise平台获取服务[12][13]
GPT-5.2真身是它?OpenAI紧急端出全套「下午茶」,新一代图像模型同步泄露
机器之心· 2025-12-10 18:30
OpenAI新模型发布动态 - 公司内部出现代号为“Olive Oil Cake”(橄榄油蛋糕)的新模型选项,标识码与现有GPT-5.1不同,被普遍猜测为GPT-5.2 [4][7] - 公司计划发布代号为“Chestnut and Hazelnut”(栗子和榛子)的下一代图像生成模型,疑似对应Image-2及其轻量版Image-2-mini [4][10][11] - 新图像模型旨在解决早期模型的色彩偏差问题,提升细节保真度,融合复古与先进视觉风格,并具备图像中撰写代码的能力 [11] - 这套“图像模型全家桶”预计将直接集成在ChatGPT中,服务于设计师和创意工作者 [16] 行业竞争与发布背景 - 公司此次行动被视为在内部“红色代码(Code Red)”警戒下,为阻击谷歌Gemini 3而进行的紧急反击 [5][8] - 谷歌Gemini 3在各项榜单上的强势表现,迫使公司可能将原计划于月底或明年的GPT-5.2发布时间提前 [8] - 在预测平台Polymarket上,市场押注的发布风向标从12月9日转向12月11日(本周四) [8] - 公司此举意在不让谷歌独占2025年末的市场关注度 [16]
上市公司数字技术风险暴露数据(2007-2024年)
搜狐财经· 2025-12-10 15:57
研究数据与方法论 - 研究构建了2007年至2024年上市公司数字技术风险暴露数据集,数据可通过指定方式获取 [2] - 采用FinBERT大语言模型对企业年度报告MD&A部分进行文本情感识别,以构建企业-年份层面的数字技术风险指标,FinBERT是国内首个金融领域大规模语料训练的开源模型 [2] - 选择MD&A文本作为分析基础,因其被大量文献证实具有客观有效的信息含量和风险揭示功能,且部分企业会在此部分明确提及技术风险 [3] - 首先从MD&A文本中抓取与数字技术风险相关的论述,通过构建涵盖数据风险和网络风险两大来源的关键词列表,并利用Word2vec模型扩展关键词词典以提高普适性 [3] 模型训练与数据标注 - 从经过关键词筛选的句子中随机抽取10%的样本进行标注,以判断论述是否反映风险暴露或防范措施 [4] - 采用美国OpenAI公司的ChatGPT和国内智谱清言公司的ChatGLM两种AI模型结合人工复核的方式进行标注,以提高效率和准确性 [4] - 标注时,将反映数字技术风险可能对公司运营产生负面影响的论述界定为“风险暴露”,赋值为-1(负面情感);将反映企业采取风险防范措施的论述界定为“风险防范”,赋值为1(正面情感) [5] - 将标注数据按0.6:0.4的比例划分为训练集和验证集,对模型进行预训练,并设置模型评价指标 [5] 风险指标构建 - 企业数字技术风险暴露指标定义为:每年MD&A涉及数字技术风险的文本中,负面文本的负面情感概率最大值与正面文本的正面情感概率平均值之间的差值 [6] - 该构造使用最大风险点捕捉极端技术风险敞口,使用平均风险防范水平衡量整体应对能力 [6] - 进一步根据文本关键词差异,构建了数据安全风险和网络安全风险两个次级指标 [6] 指标有效性检验 - 通过验证技术风险暴露与其他风险的相关性来检验指标有效性,发现技术风险暴露与企业财务风险、经营风险等其他风险之间存在显著正向关联 [7] - 通过验证算法准确率来检验指标有效性,在涉及数字技术风险的文本中多次随机抽样进行人工审核,发现模型在情感分析任务中表现出较高准确性,尤其在情感倾向明显的句子中 [8]
铝:重心上移,氧化铝:继续承压,铸造铝合金:上行动力不足
国泰君安期货· 2025-12-08 11:20
报告行业投资评级 - 铝:重心上移;氧化铝:继续承压;铸造铝合金:上行动力不足 [1] 报告的核心观点 - 北京时间12月11日凌晨3点美联储将公布12月利率决议及主席鲍威尔召开货币政策新闻发布会,市场普遍预期联储将在此前两次降息基础上再次下调利率25个基点;面对谷歌和Anthropic竞争,OpenAI宣布进入“红色警报”状态并计划提前于12月9日发布新模型GPT - 5.2,GPT - 5.2几乎全面碾压Gemini 3和Claude 4.5 [3] - 铝趋势强度为1;氧化铝趋势强度为 - 1;铝合金趋势强度为0,趋势强度取值范围为【 - 2,2】区间整数, - 2表示最看空,2表示最看多 [3] 期货市场 电解铝 - 沪铝主力合约收盘价22345元,夜盘收盘价22165元;LME铝3M收盘价2901美元;沪铝主力合约成交量261562手,持仓量245335手;LME铝3M成交量22751手;LME注销仓单占比8.12%;LME给cash - 3M价差 - 30.25美元;近月合约对连一合约价差 - 15元;买近月抛连一跨期套利成本69.35元 [1] 氧化铝 - 沪氧化铝主力合约收盘价2555元,夜盘收盘价2580元;成交量268164手,持仓量327290手;近月合约对连一合约价差 - 15元;买近月抛连一跨期套利成本24.13元 [1] 铝合金 - 铝合金主力合约收盘价21190元,夜盘收盘价21070元;成交量8304手,持仓量16876手;近月合约对连一合约价差 - 260元;现货升贴水 - 80元;上海保税区Premium为100美元;欧盟鹿特丹铝锭Premium(MB)为325美元 [1] 现货市场 电解铝 - 预培阳极市场价6187元;佛山铝棒加工费310元;山东1A60铝杆加工费50元;铝锭精废价差607元;电解铝企业盈亏5700.25元;铝现货进口盈亏 - 1572.97元;铝3M进口盈亏 - 1515.04元;铝板卷出口盈亏3176.27元;国内铝锭社会库存59.30万吨;上期所铝锭仓单6.68万吨;LME铝锭库存52.83万吨 [1] 氧化铝 - 国内氧化铝平均价2831元;氧化铝连云港到岸价(美元/吨)338美元,(元/吨)2885元;澳洲氧化铝FOB(美元/吨)314美元;山西氧化铝企业盈亏 - 122元 [1] 铝土矿 - 澳洲进口三水铝土矿价格(美元/吨)(Al:48 - 50%, Si:8 - 10%)为某价格;印尼进口铝土矿价格(美元/吨)(Al:45 - 47%, Si:4 - 6%)为某价格;几内亚进口铝土矿价格(美元/吨)(Al:43 - 45%, Si:2 - 3%)71美元;阳泉铝土矿价格(含税现货矿山价,AI:Si = 4.5)为某价格 [1] 铝合金 - ADC12理论利润 - 272元;保太ADC12为21100元;保太ADC12 - A00为 - 990元;三地库存合计49486吨 [1] 烧碱 - 陕西离子膜液碱(32%折百)2430元 [1]
DeepSeek 上新
中国证券报· 2025-12-01 23:04
模型发布与定位 - 公司于12月1日正式发布两个模型:DeepSeek-V3.2和DeepSeek-V3.2-Speciale [1] - DeepSeek-V3.2定位为平衡推理能力与输出长度,适合日常问答和通用Agent任务 [1] - DeepSeek-V3.2-Speciale是V3.2的长思考增强版,结合了DeepSeek-Math-V2的定理证明能力,旨在将开源模型的推理能力推向极致 [1] 性能表现与基准测试 - 在公开推理类Benchmark测试中,DeepSeek-V3.2达到了GPT-5的水平,仅略低于Gemini-3.0-Pro [1] - 相比Kimi-K2-Thinking,V3.2的输出长度大幅降低,显著减少了计算开销与用户等待时间 [1] - DeepSeek-V3.2-Speciale在主流推理基准测试上的性能表现媲美Gemini-3.0-Pro [2] - 在AIME 2025测试中,Speciale模型得分为96.0,消耗约23k Tokens,表现优于GPT-5的94.6分和Gemini-3.0-Pro的95.0分 [3] - 在HMMT Feb 2025测试中,Speciale模型得分为99.2,消耗约27k Tokens,显著高于GPT-5的88.3分和Gemini-3.0-Pro的97.5分 [3] - 在IMOAnswerBench测试中,Speciale模型得分为84.5,消耗约45k Tokens,高于GPT-5的76.0分和Gemini-3.0-Pro的83.3分 [3] - 在CodeForces测试中,Speciale模型得分为2701,消耗约77k Tokens,接近Gemini-3.0-Pro的2708分,并大幅高于V3.2标准版的2386分 [3] - 在高度复杂任务上,Speciale模型大幅优于标准版本,但消耗的Tokens也显著更多,成本更高 [3] 竞赛成绩与能力边界 - DeepSeek-V3.2-Speciale在IMO 2025、CMO 2025、ICPC World Finals 2025及IOI 2025中取得金牌水平的成绩 [2] - 其中,在ICPC与IOI的成绩分别达到人类选手第二名与第十名的水平 [2] 技术特性与使用方式 - DeepSeek-V3.2是公司推出的首个将思考融入工具使用的模型,同时支持思考模式与非思考模式的工具调用 [4] - 公司通过提出一种大规模Agent训练数据合成方法,构造大量难解答、易验证的强化学习任务,以提高模型的泛化能力 [4] - V3.2思考模式增加了对Claude Code的支持,但未充分适配Cline、RooCode等使用非标准工具调用的组件,建议用户在使用此类组件时继续使用非思考模式 [4] - 目前DeepSeek-V3.2-Speciale仅供研究使用,不支持工具调用,暂未针对日常对话与写作任务进行专项优化 [3] 行业地位与影响 - DeepSeek-V3.2模型在智能体评测中达到了当前开源模型的最高水平,大幅缩小了开源模型与闭源模型的差距 [4] - 公司表示,V3.2并没有针对这些测试集的工具进行特殊训练,据此认为V3.2在真实应用场景中能够展现出较强的泛化性 [4]
谷歌又一张“王牌”发布!网友玩疯了
第一财经· 2025-11-21 11:21
产品发布与核心功能 - 谷歌于11月20日发布基于Gemini 3构建的新一代图像生成模型Nano Banana Pro [3][4] - 模型核心功能包括利用先进文本渲染、丰富世界知识和专业级创意控制来创建和编辑复杂视觉效果与信息图表 [4][5] - 关键升级方向涵盖支持2K和4K高分辨率直出、更优更长文字生成、多语言支持及图片内直接翻译、摄影质量参数调整以及1:1至9:16图片比例灵活调整 [7] 性能测试与实际表现 - 相比第一代Nano Banana,Pro版本在细节真实度上有显著提升,例如正确生成杂志名称并添加条形码等细节 [9] - 模型在多图像融合任务中表现合格但未超预期,存在角色与场景缺乏互动、角色一致性遵守不佳的问题 [16][17] - 在精准提示词引导下可实现高质量输出,例如使用14张玩偶图像生成自然融合画面,以及对电商场景中“侧逆光”、“柔光箱”等光影术语和材质反射率的精准理解 [19][21][24] 专业领域应用验证 - 模型展现出细分领域知识理解能力,成为首个能准确区分ITF跆拳道道服与奥运跆拳道道服并自动修正标志的AI模型 [27][29] - 在电商应用场景中,模型表现对中小卖家友好,可替代部分摄影师、灯光师及后期修图工作流程 [24] 用户策略与市场影响 - 面向消费者和学生提供免费有限配额体验,Google AI Plus、Pro和Ultra订阅用户可获得更高配额,开发者和企业可通过Gemini API等工具集成使用 [31] - 前代产品Nano Banana推动Gemini应用月活用户数从4.5亿暴增至6.5亿,主要得益于在泰国、印度尼西亚、印度等市场的病毒式传播 [32] - 新产品发布带动谷歌股价一度大涨超3%,总市值达3.65万亿美元超过微软,尽管最终收跌于3.49万亿美元,但年内涨幅仍超过50% [32]