Workflow
人工智能模型
icon
搜索文档
您猜怎么着?Grok 4进决赛,大模型对抗赛Gemini全军覆没,马斯克「装」起来了
36氪· 2025-08-07 15:05
比赛结果 - Gemini 2.5 Pro、o4-mini、Grok 4 和 o3 均以 4-0 的战绩分别击败对手晋级半决赛 [2] - Grok 4 和 o3 分别战胜 Gemini 2.5 Pro 和 o4-mini 晋级决赛 [5] - o3 以 4-0 横扫 o4-mini 晋级决赛 [7] - Grok 4 与 Gemini 2.5 Pro 在常规赛打成 2:2 平,最终通过加赛才分出胜负 [5] - 决赛将在 X 的 Grok 4 和 OpenAI 的 o3 之间展开 [31] 模型表现 - o3 展现出卓越的稳定性与复杂推理能力,在多个基准测试中取得优异成绩 [7] - o4-mini 作为轻量级模型在速度、成本与性能之间实现平衡,但在象棋任务中表现不佳 [7] - o3 在一盘棋中拿下完美的 100 分准确率评分 [10] - o3 在第12回合和第19回合的两个中间招法令人印象深刻 [12] - Grok 4 表现混乱,频频送子得分,最终通过末日加赛晋级 [16] - Gemini 2.5 Pro 在胜势局面下失误送皇后,导致比赛以和棋收场 [28] 比赛亮点 - o3 仅用12步就完成致胜攻击,手法接近闷杀 [7] - 第三盘对局展现出真正高质量的国际象棋 [12] - 末日加赛精彩纷呈,Gemini 错过一招将死机会 [25] - 比赛被评选为今日最佳对局 [28] 投票结果 - 48.64% 投票者看好 Gemini 2.5 Pro 成为最终赢家 [32] - 39.72% 投票者看好 Grok 4 成为最终赢家 [32] - 6.45% 投票者看好 o3 成为最终赢家 [32] - 5.19% 投票者看好 o4-mini 成为最终赢家 [32]
Qwen全面升级非思考模型,3B激活、256K长文、性能直逼GPT-4o
量子位· 2025-07-30 17:44
Qwen3-30B-A3B-Instruct-2507模型发布 - 全新非思考模型Qwen3-30B-A3B-Instruct-2507闪电上线,是Qwen3-30B-A3B的高质量指令微调版本[2][7] - 仅激活3B参数即媲美Gemini 2.5-Flash和GPT-4o等顶尖闭源模型性能[3] - 相较前代非思考模型,推理能力(AIME25)提升183.8%,对齐能力(Arena-Hard v2)提升178.2%,长文本处理能力从128K提升至256K[4][5] 模型性能优势 - 在多语言长尾知识覆盖、主观与开放任务文本质量、代码生成、数学计算、工具使用等通用能力上全面进步[5] - 在长文本处理任务中展现出惊人稳定性,极端情况下仅偶尔遗漏少量文档,而其他模型会出现大面积内容丢失[10] - 支持256K上下文窗口,具备稳健的长程依赖建模能力,能保持语义连贯和细节清晰[11] Qwen3系列产品矩阵 - Qwen3系列包含不同参数量和激活参数的模型,如旗舰模型Qwen3-235B-A22B(235B总参数/22B激活参数)和较小模型Qwen3-30B-A3B(30B总参数/3B激活参数)[14][15] - 针对不同场景推出密集(Dense)模型,参数量从0.6B到32B不等[14][16] - 提供多种量化策略版本,包括FP8、Int4、AWQ、GGUF、GPTQ等[16] - 模型命名系统清晰标注参数规模、精度格式和训练类型等信息[13][15] 行业影响 - 模型更新速度极快,一周内发布多款新模型,包括Qwen3-235B-A22B-Thinking-2507和Qwen3-Coder-480B-A35B-Instruct等[12][15] - 产品矩阵覆盖从研究到应用、从大厂集群到边缘部署的各种需求[18] - 网友评价其更新速度"疯狂",认为其他竞争者难以匹敌[5]
一句话克隆 ChatGPT Agent?智谱GLM-4.5首测:零配置,全功能|内有福利
歸藏的AI工具箱· 2025-07-28 23:20
模型性能与参数 - GLM-4.5总参数335B,激活参数32B,GLM-4.5-Air总参数106B,激活参数12B [1] - 模型在推理、代码和智能体能力测试表现优异,支持混合推理,性价比高,输入0.8元/百万tokens,输出2元/百万tokens,高速版输出速度超过100 Token每秒 [1] - 虽然总参数低于竞品,但代码能力不逊色甚至更优,混合推理能力可自动补全短提示词信息或精准遵循详细指令 [2] 核心功能与技术特点 - API兼容多种Agent能力(知识库检索、搜索等),可简化产品构建流程,单API Key即可实现弱化版ChatGPT Agent模式 [3] - 生成PPT视觉效果优于GPT [3] - 支持Claude Code模型兼容替换 [5] - 内置搜索工具信息检索质量高,时效性强,覆盖全面(如WAIC场馆、日程、交通等) [28] - 支持通过Anthropic API端点与Claude Code集成,修改环境变量即可切换 [29][30][31] 实际应用案例表现 - 简单指令生成完整功能(如Gmail页面自动包含点击分栏详情功能) [7] - 自动选择技术栈(如Three.js库)并生成动态效果丰富的3D抽象艺术 [9] - 复杂前端组件一次生成无bug(如支持视图切换/事件拖拽的日历组件) [10][11][12] - 企业级应用开发(OKR管理系统)完美实现多语言切换、进度计算、数据可视化 [13][14][15] - 高端电商流程开发(含购物车/结账三步骤)严格遵循设计规范,UI交互专业 [17][19][20][21][23][24] - 动态网页生成符合Bento Grid风格,整合实时数据与动效 [27][28] 商业模式与竞争优势 - 采用后发集成策略,将推理/代码/Agent/搜索/MCP/Claude兼容等模块整合为统一解决方案 [35][37] - 定价低于行业标准(50元包月无上限调用),同时提供更强功能 [34] - 通过单一API消除多模型编排复杂度,将跨模型协作简化为自然语言指令 [36]
3550亿参数!智谱发布GLM-4.5模型,12项基准评测国产最佳
新浪科技· 2025-07-28 22:32
模型发布 - 公司发布新一代旗舰模型GLM-4 5 专为智能体应用打造的基础模型 [2] - 模型已在Hugging Face与ModelScope平台同步开源 遵循MIT License [2] - 采用混合专家(MoE)架构 包括GLM-4 5和GLM-4 5-Air两个版本 [3] 性能表现 - 在推理、代码、智能体综合能力达到开源SOTA 实测国内最佳 [2] - 在12个代表性评测基准中取得全球模型第三、国产模型第一、开源模型第一 [2] - 在SWE-bench Verified榜单上位于性能/参数比帕累托前沿 相同规模下实现最佳性能 [2] - 参数量为DeepSeek-R1的1/2、Kimi-K2的1/3 但参数效率更高 [2] 技术参数 - GLM-4 5总参数量3550亿 激活参数320亿 [3] - GLM-4 5-Air总参数1060亿 激活参数120亿 [3] - 支持复杂推理和工具使用的思考模式 及即时响应的非思考模式 [3] 商业化信息 - API调用价格低至输入0 8元/百万tokens 输出2元/百万tokens [3] - 高速版最高可达100 tokens/秒 [3]
Nature报道:谷歌新模型1秒读懂DNA变异!首次统一基因组全任务,性能碾压现有模型
量子位· 2025-06-26 22:11
核心观点 - 谷歌DeepMind推出突破性生物模型AlphaGenome,能够从1兆碱基的DNA序列中预测数千种功能基因组特征,并以单碱基分辨率评估变异效应[3][4] - AlphaGenome在基因表达、剪接、染色质可及性等任务上性能全面超越现有模型,为解析基因组调控代码提供强大工具[5][7] - 该模型是首个统一基因组任务的单一模型,将多模态预测、长序列背景和碱基对分辨率统一于单一框架[10][11] - AlphaGenome在临床上有潜力帮助理解疾病原因、发现治疗靶点,例如在T细胞急性淋巴细胞白血病研究中解析致癌变异[29] 模型架构与技术细节 - 模型架构受U-Net启发,处理1兆碱基DNA输入序列,生成一维和二维嵌入,分辨率分别为1bp/128bp和2048bp[13] - 内部结合卷积层和Transformer块,通过8个张量处理单元实现完整碱基对分辨率训练,最终输出11种模态,涵盖5930条人类或1128条小鼠基因组轨道[13] - 采用预训练和蒸馏两阶段训练,在NVIDIA H100 GPU上推理时间可达1秒以内[15][17] 性能表现 - 在24项基因组轨道评估中,AlphaGenome在22项保持领先,例如在细胞类型特异性LFC预测上相对改进+17.4%[16][19] - 在26个变异效应预测基准中,24项达到或超越现有最强模型,例如表达QTL方向预测提升25.5%,可及性QTL提升8%[19][21] - 在剪接模态方面首次实现全方位预测,在7项基准测试中的6项实现最先进水平,auPRC达0.54[25][27][28] 应用与未来发展 - 可帮助研究人员更精准理解疾病潜在原因,例如解析T-ALL中TAL1基因附近的致癌变异[29] - 未来可通过扩展数据提升预测精度并涵盖更广泛物种,科学家只需微调即可快速生成和测试假设[29] - 目前提供预览版并计划正式发布,代码已开源[30]
火山引擎发布豆包视频生成模型Seedance 1 lite
快讯· 2025-05-13 15:12
产品发布 - 火山引擎在FORCE LINK AI创新巡展上海站发布豆包视频生成模型Seedance1lite 支持文生视频和图生视频 生成时长支持5秒和10秒 分辨率提供480P和720P [1] - 同时发布豆包1 5视觉深度思考模型 并升级豆包音乐模型 [1] - 通过更全面的模型矩阵和更丰富的智能体工具 帮助企业打通从业务到智能体的应用链路 [1] 产品应用 - 企业用户可在火山方舟平台使用Seedance1lite模型API [1] - 个人用户可在豆包APP和即梦体验该视频生成模型 [1]