Workflow
人工智能模型
icon
搜索文档
9月30日国际晨讯 | 现货黄金价格升破3840美元再创新高 美国关键经济数据或延迟发布
搜狐财经· 2025-09-30 09:09
市场回顾 - 北京时间9月30日 日经225指数开盘涨0.01% 韩国KOSPI指数涨0.08% [6] - 当地时间9月29日 美国三大股指小幅收涨 道指涨0.15%报46316.07点 标普500指数涨0.26%报6661.21点 纳指涨0.48%报22591.15点 [6] - 欧洲三大股指收盘小幅上涨 德国DAX指数涨0.02%报23745.06点 法国CAC40指数涨0.13%报7880.87点 英国富时100指数涨0.16%报9299.84点 [6] - 贵金属市场再度走强 北京时间9月30日早盘 伦敦现货黄金价格再创新高 升破3840美元/盎司 [4][6] 国际宏观 - 美国总统特朗普在白宫与两院领导人会面 就避免政府停摆进行磋商 参议院民主党领袖查克·舒默称存在巨大分歧 [7] - 美国联邦政府资金将在当地时间9月30日午夜耗尽 若民主共和两党不能就拨款法案达成一致 联邦政府面临"关门"风险 [7] - 美国劳工统计局已发布政府停摆应急预案 一旦拨款中断将全面停摆并停止数据采集 所有计划中的数据如月度非农就业报告都不会发布 [7] - 美国证券交易委员会主席承诺推行最低限度监管 并加快特朗普废除季度财报规定的提议 [7] 企业资讯 - DeepSeek-V3 2-Exp模型于9月29日正式在Hugging Face平台发布并开源 该版本在V3 1-Terminus基础上引入DeepSeek Sparse Attention稀疏注意力机制 [8] - OpenAI计划发布新版Sora 2视频生成器 并将作为独立应用程序推出 该版本在内容版权方未主动选择"退出"情况下可能生成含受版权保护内容的视频 [8] 机构观点 - 高盛策略分析师称由于美国经济表现强劲 股市估值具备支撑以及美联储货币政策趋于宽松 全球股市有望持续上涨至年底 [9] - 高盛团队将全球股市在未来三个月的配置评级上调至增持 认为在经济增速放缓但政策支持力度较大的后期阶段 股票资产通常表现良好 [9] - 高盛建议鉴于衰退风险已得到控制 在年底前逢低买入股票 [9]
阿里巴巴正式推出 Qwen3-Max
每日经济新闻· 2025-09-24 11:06
公司产品发布 - 阿里巴巴推出Qwen3-Max模型 为目前规模最大且能力最强的模型[1] - Qwen3-Max-Instruct预览版在LMArena文本排行榜位列第三 超越GPT-5-Chat[1] - 正式版本在代码能力和智能体能力方面进一步提升[1] 技术能力表现 - 模型在涵盖知识、推理、编程、指令遵循、人类偏好对齐、智能体任务和多语言理解的全面基准测试中均达到业界领先水平[1]
DeepSeek宣布涨价!适配下一代国产芯片,概念股飙升
21世纪经济报道· 2025-08-21 17:36
产品升级 - DeepSeek-V3.1版本正式发布 采用混合推理架构 支持思考与非思考模式自由切换 响应效率显著提升 Agent能力进一步增强 [1] - 新版本使用UE8M0FP8Scale参数精度 对分词器及chat template进行较大调整 与V3存在明显差异 UE8M0FP8针对下一代国产芯片设计 [1] - 基础模型在V3基础上重新进行外扩训练 增加训练840B tokens 基础模型与后训练模型已在Huggingface与魔搭平台开源 [4] 价格调整 - API接口调用价格上调 自9月6日起取消夜间时段优惠 [2] - 输入价格调整为缓存命中0.5元/百万tokens 缓存未命中4元/百万tokens(V3版本为2元/百万tokens) [2] - 输出价格调整为12元/百万tokens(V3版本为8元/百万tokens) [2] 市场反应 - 每日互动(300766.SZ)盘中直线拉升 收盘报47.98元/股 日内涨幅达13.62% [4] - 盘中出现火箭发射形态 短线拉升3.08% 成交额39.16亿元 股本3.95亿股 [5] 公司关联 - 每日互动主营业务为商业主体和政府部门提供数据智能产品与服务 [7] - 市场传言公司通过全资子公司杭州应景科技持有幻方量化14.50%股权 为二股东 可参与战略决策 [7] - 公司公告澄清未持有深度求索和幻方科技股权 也未向DeepSeek提供语料数据 [7]
您猜怎么着?Grok 4进决赛,大模型对抗赛Gemini全军覆没,马斯克「装」起来了
36氪· 2025-08-07 15:05
比赛结果 - Gemini 2.5 Pro、o4-mini、Grok 4 和 o3 均以 4-0 的战绩分别击败对手晋级半决赛 [2] - Grok 4 和 o3 分别战胜 Gemini 2.5 Pro 和 o4-mini 晋级决赛 [5] - o3 以 4-0 横扫 o4-mini 晋级决赛 [7] - Grok 4 与 Gemini 2.5 Pro 在常规赛打成 2:2 平,最终通过加赛才分出胜负 [5] - 决赛将在 X 的 Grok 4 和 OpenAI 的 o3 之间展开 [31] 模型表现 - o3 展现出卓越的稳定性与复杂推理能力,在多个基准测试中取得优异成绩 [7] - o4-mini 作为轻量级模型在速度、成本与性能之间实现平衡,但在象棋任务中表现不佳 [7] - o3 在一盘棋中拿下完美的 100 分准确率评分 [10] - o3 在第12回合和第19回合的两个中间招法令人印象深刻 [12] - Grok 4 表现混乱,频频送子得分,最终通过末日加赛晋级 [16] - Gemini 2.5 Pro 在胜势局面下失误送皇后,导致比赛以和棋收场 [28] 比赛亮点 - o3 仅用12步就完成致胜攻击,手法接近闷杀 [7] - 第三盘对局展现出真正高质量的国际象棋 [12] - 末日加赛精彩纷呈,Gemini 错过一招将死机会 [25] - 比赛被评选为今日最佳对局 [28] 投票结果 - 48.64% 投票者看好 Gemini 2.5 Pro 成为最终赢家 [32] - 39.72% 投票者看好 Grok 4 成为最终赢家 [32] - 6.45% 投票者看好 o3 成为最终赢家 [32] - 5.19% 投票者看好 o4-mini 成为最终赢家 [32]
亚马逊云科技上线Anthropic新一代Claude模型
搜狐财经· 2025-08-06 18:12
产品发布与上线 - 亚马逊云科技宣布Anthropic最新一代模型Claude Opus 4.1与Claude Sonnet 4在Amazon Bedrock全面上线 [1] - 新型双模推理模型支持在即时响应与“深度思考”模式间动态切换,能在复杂长耗时任务中保持稳定性能 [1] - 模型能够驱动AI Agents将耗时数小时的工作压缩至分钟级完成 [1] 模型性能与基准测试 - Claude Opus 4.1在Agentic coding SWE-bench测试中准确率为74.5%,高于Opus 4的72.5%、OpenAI O3的69.1%和Gemini 2.5 Pro的67.2% [2] - 在Agentic terminal coding Terminal-Bench测试中,Opus 4.1准确率为43.3%,高于Opus 4的39.2%、Sonnet 4的35.5%和OpenAI O3的30.2% [2] - 在Agentic tool use TAU-bench测试中,Opus 4.1准确率为82.4%,高于Opus 4的81.4%、Sonnet 4的80.5%和OpenAI O3的70.4% [2] - 在Multilingual Q&A MMMLUA测试中,Opus 4.1准确率为89.5%,高于Opus 4的88.8%和Sonnet 4的86.5% [2] 核心能力与优势 - Claude Opus 4.1在Agentic搜索与研究、内容创作以及记忆和上下文管理方面表现出色,能够综合提炼深刻见解、产出高质量内容并实现高效总结 [2] - Claude Opus 4.1是其迄今为止最智能的模型,且在编码和Agent领域处于行业领先地位,具备出色的长期任务处理能力和复杂问题解决能力 [2] - Claude Sonnet 4以高效性著称,适用于各类项目,在编码和推理能力上均超越了其前代产品Claude Sonnet 3.7 [2] 产品定位与特性 - Claude Opus 4.1可直接替代Opus 4 [2] - Claude Sonnet 4在性能与成本优化之间实现了平衡,非常适合处理大批量应用场景 [2] - 两款模型均配备20万token的上下文窗口,能让用户处理和生成大篇幅内容,且始终保持内容质量与连贯性 [2]
阿里通义千问推出新模型Qwen3-30B-A3B-Thinking-2507
快讯· 2025-07-31 07:30
新模型发布 - 公司发布新模型Qwen3-30B-A3B-Thinking-2507,定位为更睿智、更敏捷、更全能的新推理模型 [1] - 新模型相较于4月29日开源的Qwen3-30-A3B模型,在推理能力、通用能力及上下文长度上有显著提升 [1] - 新模型已在魔搭社区和HuggingFace平台开源 [1]
Qwen全面升级非思考模型,3B激活、256K长文、性能直逼GPT-4o
量子位· 2025-07-30 17:44
Qwen3-30B-A3B-Instruct-2507模型发布 - 全新非思考模型Qwen3-30B-A3B-Instruct-2507闪电上线,是Qwen3-30B-A3B的高质量指令微调版本[2][7] - 仅激活3B参数即媲美Gemini 2.5-Flash和GPT-4o等顶尖闭源模型性能[3] - 相较前代非思考模型,推理能力(AIME25)提升183.8%,对齐能力(Arena-Hard v2)提升178.2%,长文本处理能力从128K提升至256K[4][5] 模型性能优势 - 在多语言长尾知识覆盖、主观与开放任务文本质量、代码生成、数学计算、工具使用等通用能力上全面进步[5] - 在长文本处理任务中展现出惊人稳定性,极端情况下仅偶尔遗漏少量文档,而其他模型会出现大面积内容丢失[10] - 支持256K上下文窗口,具备稳健的长程依赖建模能力,能保持语义连贯和细节清晰[11] Qwen3系列产品矩阵 - Qwen3系列包含不同参数量和激活参数的模型,如旗舰模型Qwen3-235B-A22B(235B总参数/22B激活参数)和较小模型Qwen3-30B-A3B(30B总参数/3B激活参数)[14][15] - 针对不同场景推出密集(Dense)模型,参数量从0.6B到32B不等[14][16] - 提供多种量化策略版本,包括FP8、Int4、AWQ、GGUF、GPTQ等[16] - 模型命名系统清晰标注参数规模、精度格式和训练类型等信息[13][15] 行业影响 - 模型更新速度极快,一周内发布多款新模型,包括Qwen3-235B-A22B-Thinking-2507和Qwen3-Coder-480B-A35B-Instruct等[12][15] - 产品矩阵覆盖从研究到应用、从大厂集群到边缘部署的各种需求[18] - 网友评价其更新速度"疯狂",认为其他竞争者难以匹敌[5]
一句话克隆 ChatGPT Agent?智谱GLM-4.5首测:零配置,全功能|内有福利
歸藏的AI工具箱· 2025-07-28 23:20
模型性能与参数 - GLM-4.5总参数335B,激活参数32B,GLM-4.5-Air总参数106B,激活参数12B [1] - 模型在推理、代码和智能体能力测试表现优异,支持混合推理,性价比高,输入0.8元/百万tokens,输出2元/百万tokens,高速版输出速度超过100 Token每秒 [1] - 虽然总参数低于竞品,但代码能力不逊色甚至更优,混合推理能力可自动补全短提示词信息或精准遵循详细指令 [2] 核心功能与技术特点 - API兼容多种Agent能力(知识库检索、搜索等),可简化产品构建流程,单API Key即可实现弱化版ChatGPT Agent模式 [3] - 生成PPT视觉效果优于GPT [3] - 支持Claude Code模型兼容替换 [5] - 内置搜索工具信息检索质量高,时效性强,覆盖全面(如WAIC场馆、日程、交通等) [28] - 支持通过Anthropic API端点与Claude Code集成,修改环境变量即可切换 [29][30][31] 实际应用案例表现 - 简单指令生成完整功能(如Gmail页面自动包含点击分栏详情功能) [7] - 自动选择技术栈(如Three.js库)并生成动态效果丰富的3D抽象艺术 [9] - 复杂前端组件一次生成无bug(如支持视图切换/事件拖拽的日历组件) [10][11][12] - 企业级应用开发(OKR管理系统)完美实现多语言切换、进度计算、数据可视化 [13][14][15] - 高端电商流程开发(含购物车/结账三步骤)严格遵循设计规范,UI交互专业 [17][19][20][21][23][24] - 动态网页生成符合Bento Grid风格,整合实时数据与动效 [27][28] 商业模式与竞争优势 - 采用后发集成策略,将推理/代码/Agent/搜索/MCP/Claude兼容等模块整合为统一解决方案 [35][37] - 定价低于行业标准(50元包月无上限调用),同时提供更强功能 [34] - 通过单一API消除多模型编排复杂度,将跨模型协作简化为自然语言指令 [36]
3550亿参数!智谱发布GLM-4.5模型,12项基准评测国产最佳
新浪科技· 2025-07-28 22:32
模型发布 - 公司发布新一代旗舰模型GLM-4 5 专为智能体应用打造的基础模型 [2] - 模型已在Hugging Face与ModelScope平台同步开源 遵循MIT License [2] - 采用混合专家(MoE)架构 包括GLM-4 5和GLM-4 5-Air两个版本 [3] 性能表现 - 在推理、代码、智能体综合能力达到开源SOTA 实测国内最佳 [2] - 在12个代表性评测基准中取得全球模型第三、国产模型第一、开源模型第一 [2] - 在SWE-bench Verified榜单上位于性能/参数比帕累托前沿 相同规模下实现最佳性能 [2] - 参数量为DeepSeek-R1的1/2、Kimi-K2的1/3 但参数效率更高 [2] 技术参数 - GLM-4 5总参数量3550亿 激活参数320亿 [3] - GLM-4 5-Air总参数1060亿 激活参数120亿 [3] - 支持复杂推理和工具使用的思考模式 及即时响应的非思考模式 [3] 商业化信息 - API调用价格低至输入0 8元/百万tokens 输出2元/百万tokens [3] - 高速版最高可达100 tokens/秒 [3]
Nature报道:谷歌新模型1秒读懂DNA变异!首次统一基因组全任务,性能碾压现有模型
量子位· 2025-06-26 22:11
核心观点 - 谷歌DeepMind推出突破性生物模型AlphaGenome,能够从1兆碱基的DNA序列中预测数千种功能基因组特征,并以单碱基分辨率评估变异效应[3][4] - AlphaGenome在基因表达、剪接、染色质可及性等任务上性能全面超越现有模型,为解析基因组调控代码提供强大工具[5][7] - 该模型是首个统一基因组任务的单一模型,将多模态预测、长序列背景和碱基对分辨率统一于单一框架[10][11] - AlphaGenome在临床上有潜力帮助理解疾病原因、发现治疗靶点,例如在T细胞急性淋巴细胞白血病研究中解析致癌变异[29] 模型架构与技术细节 - 模型架构受U-Net启发,处理1兆碱基DNA输入序列,生成一维和二维嵌入,分辨率分别为1bp/128bp和2048bp[13] - 内部结合卷积层和Transformer块,通过8个张量处理单元实现完整碱基对分辨率训练,最终输出11种模态,涵盖5930条人类或1128条小鼠基因组轨道[13] - 采用预训练和蒸馏两阶段训练,在NVIDIA H100 GPU上推理时间可达1秒以内[15][17] 性能表现 - 在24项基因组轨道评估中,AlphaGenome在22项保持领先,例如在细胞类型特异性LFC预测上相对改进+17.4%[16][19] - 在26个变异效应预测基准中,24项达到或超越现有最强模型,例如表达QTL方向预测提升25.5%,可及性QTL提升8%[19][21] - 在剪接模态方面首次实现全方位预测,在7项基准测试中的6项实现最先进水平,auPRC达0.54[25][27][28] 应用与未来发展 - 可帮助研究人员更精准理解疾病潜在原因,例如解析T-ALL中TAL1基因附近的致癌变异[29] - 未来可通过扩展数据提升预测精度并涵盖更广泛物种,科学家只需微调即可快速生成和测试假设[29] - 目前提供预览版并计划正式发布,代码已开源[30]