Workflow
Grok 4
icon
搜索文档
腾讯研究院AI速递 20251110
腾讯研究院· 2025-11-10 00:09
生成式AI 一、Grok 4深夜大升级:200万上下文、五倍GPT-5脑容量? 3. 200万token上下文能力意味着可一次性处理相当于150万英文单词或6000页文本,相当于两部《战争与和平》。 https://mp.weixin.qq.com/s/PkHA-2aXsCg03xpoQOMXLA 二、GPT-5-Codex mini 紧凑版发布,性能相当速率提高 4 倍 1. OpenAI发布GPT-5-Codex-Mini紧凑版,使用量是GPT-5-Codex的约4倍,ChatGPT Plus等用户速率限制提高50%; 2. 代码中发现GPT-5.1系列三个新模型痕迹,包括旗舰模型GPT-5.1、推理模型GPT-5.1 Reasoning和研究级GPT-5.1 Pro; 3. 新模型 或 于 11月 底 发布,其中一个模型可能已以Polaris Alpha名字在OpenRouter等平台测试,在创意写作和基准测试中表现出 色。 https://mp.weixin.qq.com/s/er3zhiYfsyGKqchQuRYl0Q 三、谷歌二代Nano Banana爆出!一键推演微积分终结PS 1. Grok ...
马斯克把时间给了xAI,却问特斯拉要万亿薪酬
华尔街见闻· 2025-11-06 09:40
马斯克正将大量时间投入其新创立的人工智能公司xAI,与此同时,他却要求特斯拉股东批准一项旨在 确保其专注度的天价薪酬方案。 美国时间周四,特斯拉将公布一项关键股东投票的初步结果,核心议题是马斯克的新薪酬方案。 该方案若获通过,将在未来十年内把他的持股比例从约15%提升至25%,前提是公司达成包括销售一百 万台Optimus人形机器人和市值达到8.5万亿美元在内的宏大目标。 然而据媒体援引知情人士透露,一些主要特斯拉投资者近几周已私下向公司高管和董事会成员施压,询 问马斯克究竟将多少精力放在特斯拉,以及公司是否有CEO继任计划。两家有影响力的代理咨询公司已 建议股东投票反对该方案。 据前高管和与马斯克共事的人士透露,今年夏天大部分时间,马斯克都"躲在"他的最新创业公司xAI, 通宵达旦地参与会议。他甚至开始在xAI的办公室与特斯拉员工开会,而此时的特斯拉正面临连续两个 季度的销量下滑。 万亿薪酬与"兼职"CEO 特斯拉董事会在9月的委托书中提出了这项巨额薪酬方案。 董事会主席Robyn Denholm上周接受采访时表示,董事会并不担心马斯克如何分配时间。她说: 其他CEO可能喜欢打高尔夫,他喜欢创建公司,而这些 ...
1万美元实盘交易!全球首个AI投资大赛收官:中国大模型全盈利,美国GPT-5亏损超62%垫底【附大模型行业前景分析】
搜狐财经· 2025-11-05 15:41
(图片来源:摄图网) 11月4日,全球首个AI大模型实时投资比赛"Alpha Arena"正式收官。此次比赛由第三方机构Nof1发起,历时 17天,吸引了来自中国和美国的六款顶尖AI大模型同场竞技,包括中国的Qwen3-Max和DeepSeek v3.1,以 及美国的GPT-5、Gemini 2.5 Pro、Claude Sonnet 4.5和Grok 4。每个模型拥有一万美元初始资金,在无人工干 预的情况下进行真实市场交易。 最终,中国的Qwen3-Max以超过20%的收益率夺得冠军,DeepSeek v3.1位居第二,两款中国模型成为全场 唯二盈利的模型。而四款美国模型全部亏损,其中GPT-5亏损超60%,排名垫底。中国模型在本次AI投资大 赛中实现全盈利,完胜美国模型。 自2022年末ChatGPT横空出世,以其突破性技术在全球掀起了一场人工智能革命。不仅改变了人们对AI的 认知,更在悄然重塑着整个世界的产业格局。此后,无数大型预训练模型如雨后春笋般涌现,遍布学术界与 工业界,全球进入了一场激烈的科技竞赛。 中国大模型市场的竞争异常激烈,呈现出"百模大战"的态势。涵盖了通用大模型、行业大模型和端侧大模型 ...
AI大模型实时投资比赛落幕,阿里千问Qwen夺冠;微信支付为中小商家推出AI菜单识别功能丨AIGC日报
创业邦· 2025-11-05 08:08
AI大模型投资能力评估 - 阿里千问Qwen在AI大模型实时投资比赛Alpha Arena中以22.32%的收益率夺得冠军[2] - 该比赛集合全球六大顶尖模型,在真实市场上进行为期17天的无人工干预自主交易[2] - Qwen和DeepSeek是比赛中唯二实现盈利的模型,而四大美国顶尖模型全部亏损,GPT-5亏损超62%[2] AI行业竞争格局与战略动向 - 法庭文件显示,OpenAI曾在2023年11月讨论由竞争对手Anthropic提出的合并提议,该提议将使Anthropic接管OpenAI的领导权[2] - OpenAI联合创始人伊利亚·苏茨克沃几乎是董事会中唯一反对这项交易的人,合并讨论最终因实际障碍无果而终[2] AI应用落地与商业化进展 - 微信支付为中小商家推出AI菜单识别功能,商户拍照上传菜单后,AI可自动识别并生成收款码中的收款项[2] - 顾客扫码后可点选付款项并自动计算金额,简化了点餐支付流程[2] AI硬件市场发展趋势 - 谷歌、苹果、Meta等科技巨头正加快布局AI眼镜市场,将其视为下一代人机交互入口[2] - AI眼镜市场正朝两个方向发展:作为手机配件增强功能,或作为独立设备最终替代智能手机[2] - 2025年上半年全球AI眼镜市场出货量达406.5万台,同比增长64.2%,预计到2029年出货量有望突破4000万台[2]
全球首个AI投资大赛收官:阿里千问夺冠,美国四大模型均亏损
观察者网· 2025-11-04 22:52
比赛结果与模型表现 - Alpha Arena AI大模型实时投资比赛历时17天 阿里千问Qwen以22.32%的收益率夺冠 账户价值达12,232美元 [2][5][8] - DeepSeek v3.1以4.89%的收益率位列第二 账户价值10,489美元 成为全场唯二盈利的大模型 [2][5][8] - 美国四大顶尖模型全部亏损 GPT-5亏损62.66%垫底 账户价值仅3,734美元 Gemini 2.5 Pro亏损56.71% Claude Sonnet 4.5亏损30.81% Grok 4亏损45.3% [2][7][8] - 比赛初期DeepSeek v3.1领先 Grok 4通过激进策略一度将差距缩小至1美元 10月21日至22日成为转折点 六大模型收益率一度全部告负 [3] - 在转折点后 Qwen3-Max和DeepSeek v3.1自动改写投资策略 在其他模型持续亏损情况下脱颖而出 Qwen3-Max最终超越DeepSeek夺冠 [5] 比赛设计与特点 - 比赛由Nof1于10月18日发起 向六大顶尖模型提供1万美元初始资金及实时金融市场数据 全程无人工干预 [2] - 采用统一输入方式 所有模型接收相同市场数据和提示词 交易记录和持仓实时公开保证公平性 [3] - 允许AI模型通过"聊天互动"辩论市场走势 展示决策逻辑 是AI处理实时变动现实世界任务的真实评测 [2][3] - 参赛模型包括Qwen3-Max、DeepSeek v3.1、GPT-5、Gemini 2.5 Pro、Claude Sonnet 4.5、Grok 4 [2] 行业背景与意义 - 根据OpenRouter 7月榜单 阿里通义千问以10.4%市场份额超越OpenAI的4.7%位列全球第四 DeepSeek跻身全球前五 [9] - 成长最快前10大模型中有9个是开源的 Qwen3-Coder调用量以近5000亿Tokens高居第一 通义千问包揽前三并在前十中占据五席 [9] - 行业人士指出 阿里千问和DeepSeek的实战表现证明中国模型在解决实际问题方面具有强大潜力 [9] - 李开复认为DeepSeek推动了中国大模型开源生态的形成 开源模式高度契合中国企业学习特性 有望助力中国在AI领域缩小与美国差距 [9]
投资大赛:阿里千问、DeepSeek赚了,GPT-5大亏
南方都市报· 2025-11-04 21:41
比赛概况与结果 - 首届由美国AI研究实验室nof1发起的AI大模型交易大赛于11月3日结束,比赛为期两周,6家领先大模型各获得1万美元初始资金,在无人类干预的真实市场中进行自主交易[1] - 交易标的为加密货币衍生品(永续期货),币种包括比特币、以太坊、狗狗币等,模型仅能使用数值市场数据输入,无法获得新闻或市场消息[5] - 最终两家国产大模型实现盈利:阿里千问Qwen3 Max以22.3%收益率排名第一,盈利2232美元;DeepSeek Chat V3.1以4.89%收益率排名第二,盈利489.08美元[1] - 其余四家模型均大幅亏损:Claude Sonnet 4.5亏损30.81%,Grok 4亏损45.3%,Gemini 2.5 Pro亏损56.71%,GPT 5亏损62.66%[2] 模型交易行为分析 - 在做空倾向上,Grok 4、GPT-5和Gemini 2.5 Pro的做空频率远高于同行,而Claude Sonnet 4.5几乎从不做空[6] - 在持仓时间上,不同模型差异较大,Grok 4的持仓时间最长;在交易频率上,Gemini 2.5 Pro最活跃(238笔交易),Grok 4最不活跃[3][6] - 在仓位规模上,阿里Qwen 3的仓位规模始终最大,通常是GPT-5和Gemini 2.5 Pro的数倍[6] - 在退出机制方面,Qwen 3的止损与止盈距离最窄,Grok 4与DeepSeek V3.1则最宽;在持仓数量上,Claude Sonnet 4.5和Qwen 3通常一次只维持1-2个活跃仓位[6] 比赛过程与行业意义 - 比赛过程中出现显著波动,DeepSeek V3.1从10月26日起长期保持最高盈利,但在11月4日被阿里Qwen 3反超;Claude和Grok频繁调仓未能返回正区,Gemini和GPT-5持续下滑[7] - 主办方指出举办比赛的原因为:现有静态基准测试存在不足,仅测试固定数据集上的模式匹配能力,忽略了长期决策、运行鲁棒性和适应性,且测试结果易被模型记忆导致价值降低[7] - 比赛旨在真实、动态、竞争激烈的环境中测试模型的决策能力,参赛模型代表中美两国闭源和开源供应商的最新技术水平[5][7]
AI被严重低估,AlphaGo缔造者罕见发声:2026年AI自主上岗8小时
36氪· 2025-11-04 20:11
【导读】当我们还在调侃「AI写错代码」时,实验室里的科学家却看到它能独立完成几个小时的复杂任务。AlphaGo作者Julian罕见发声:公众对AI的认 知,至少落后一个世代。最新数据更显示,AI正以指数速度逼近专家水准,2026或许就是临界点。我们,是在见证未来,还是在自欺欺人? AlphaGo、AlphaZero的核心作者——Julian抛出了一个尖锐的比喻:人们今天对AI的态度,很像当初面对新冠疫情早期的反应。 Julian的意思很直接:我们正在严重低估AI的进展。 很多人还在笑它写错代码,抱怨它没法替代人类;但在实验室里,研究者早已看到另一幅景象——AI已经能独立完成几个小时的复杂任务,并且还在按 指数速度进化。 这就是他决定站出来发声的原因:公众的认知,和前沿的现实,之间至少隔着一个世代的落差。 科学家不忍再沉默:AI为何被大众低估? Julian Schrittwieser的名字,或许不像马斯克、奥特曼那样家喻户晓,但在AI圈,他是响当当的存在。 作为AlphaGo、AlphaZero、MuZero的核心作者之一,他亲历了AI从「围棋科幻」到「现实碾压」的全过程。 也正因如此,当他在个人博客写下那段 ...
首届AI交易大赛落幕,6个AI炒币2周:Qwen、DeepSeek赚钱,GPT-5血亏6000刀
36氪· 2025-11-04 19:13
大赛概况 - 首届Nof1 AI模型交易大赛于2025年10月17日启动,11月3日结束,旨在衡量AI投资能力,被誉为“币圈版的图灵测试” [1] - 参赛模型为6款代表中美两国闭源和开源供应商最新技术水平的大模型,包括DeepSeek Chat V3.1、Grok 4、Gemini 2.5 Pro、GPT-5、Qwen3 Max、Claude Sonnet 4.5 [1] - 每款模型获得1万美元初始资金,在Hyperliquid上进行加密永续合约交易,交易范围限于BTC、ETH、SOL、BNB、DOGE和XRP六种流行加密货币,全程无人类干预 [1][3] 比赛结果与模型表现 - 中国模型Qwen3 Max排名第一,收益率为22.3%,胜率为30.2%,总盈亏为$2232,总交易次数为43次 [3][5][9] - 中国模型DeepSeek Chat V3.1排名第二,收益率为4.89%,胜率为24.4%,总盈亏为$489.08,总交易次数为41次 [3][5][9] - 美国模型Claude Sonnet 4.5亏损30.81%,Grok 4亏损45.3%,Gemini 2.5 Pro亏损56.71%,GPT-5亏损62.66% [4][5] - 中国模型在风险控制与趋势识别上更为领先,而美国系模型普遍亏损严重 [12] 交易策略分析 - Qwen3 Max整体偏“进攻型”,Sharpe值为0.273,展现高风险高回报的进取型交易策略,最大盈利达$8,176 [5][9] - DeepSeek Chat V3.1策略理性稳健,Sharpe值为0.359为所有模型中最高,显示出色的风险控制能力,最大盈利$7,378 [5][9] - Gemini 2.5 Pro交易次数达238次为所有模型最高,极度活跃但胜率仅25.6%,Sharpe值-0.566,反映过度交易且回报低效 [5][10] - GPT-5交易存在较大波动且亏损严重,Sharpe值-0.525,最大盈利仅$270.77,缺乏有效的市场判断和风险管理 [5][11] 行业影响与市场观点 - 币安创始人赵长鹏评论认为,若所有人使用相同AI模型交易可能导致同质化操作,影响市场动态,但也可能通过购买力推动价格上涨 [7] - 预计因AI交易表现引起关注,未来将有更多人研究AI在交易中的应用,交易量会大幅增加 [7] - 比赛选择加密资产因市场全天候开放、数据丰富易于获取、Hyperliquid快速可靠且易集成,支持透明审计 [3]
谁家AI更会赚钱?大模型投资竞赛中国AI包揽前二
第一财经资讯· 2025-11-04 17:13
历时17天,AI大模型投资比赛"Alpha Arena"结果出炉,两个中国大模型夺得冠亚军,也是所有模型中 唯二两个赚钱的,四大美国头部模型均亏损,GPT-5亏损超62%垫底。 这是一场由初创公司Nof1发起的模型投资基准测试,但并非模拟交易,为了衡量AI投资能力,主办方 给每个模型账户发放了一万美元的启动资金,让它们在真实市场自主交易数字货币。Alpha Arena直播 整个过程,价格实时波动,并对实时收益进行排名,还可以看到每个模型的交易思路。 参与这次比赛的有六大模型,按最终盈利能力排名,阿里通义的Qwen3 Max在最后阶段反超,排名第 一,收益率22.32%,账户余额 12232 美元。DeepSeek chat v3.1紧随其后,收益率4.89%,余额 10489美 元 。 Claude Sonnet 4.5、Grok 4、Gemini 2.5 pro、GPT 5排在第三至第六位,亏损幅度均超过30%。尤其是 GPT-5亏得最多,账户余额只剩 3734 美元 。 对于这次竞赛,发起方Nof1在博客里提到,十年前 DeepMind 用游戏推动了前沿AI 的快速发展,现在 他们认为金融市场是下一个AI ...
首届AI交易大赛落幕,6个AI炒币2周:Qwen、DeepSeek赚钱,GPT-5血亏6000刀
机器之心· 2025-11-04 16:52
比赛概况 - 首届nof1 AI模型交易大赛于2025年10月17日至11月3日举行,旨在衡量AI投资能力,被誉为“币圈版的图灵测试”[1] - 参赛者为6款顶级大模型,分别来自DeepSeek、xAI、Google、OpenAI、阿里巴巴和Anthropic,代表中美两国闭源和开源供应商的最新技术水平[1] - 每款模型获得1万美元初始资金,在Hyperliquid上进行加密永续合约交易,交易范围限于BTC、ETH、SOL、BNB、DOGE和XRP六种流行加密货币,全程无人类干预[1][3] 交易规则与设置 - 模型操作空间限制为买入(做多)、卖出(做空)、持有或平仓,进行中低频交易(MLFT),决策间隔为几分钟到几个小时[3] - 选择加密货币市场的实际原因包括市场全天候开放、数据丰富易于获取、Hyperliquid快速可靠易集成以及市场的全球性[3] - 所有交易记录、持仓、决策日志和账户余额变化实时公开,观众可通过Nof1.ai平台查看动态图表,透明度极高[4] 比赛结果排名 - 阿里巴巴的Qwen3 Max排名第一,收益率为22.3%,胜率为30.2%,总盈亏为$2232,总交易次数为43次[5][7] - DeepSeek Chat V3.1排名第二,收益率为4.89%,胜率为24.4%,总盈亏为$489.08,总交易次数为41次[5][7] - 其余模型均大幅亏损,Claude Sonnet 4.5亏损30.81%、Grok 4亏损45.3%、Gemini 2.5 Pro亏损56.71%、GPT 5亏损62.66%[6][7] 模型交易策略分析 - Qwen3 Max整体偏“进攻型”,回报率高达22.32%,尽管费用较高($1654),但凭借30.2%的胜率和最大盈利$8176,展现“高风险高回报”策略,Sharpe值为0.273[13] - DeepSeek Chat V3.1表现稳健,回报率为4.89%,交易费用较低($690),最大盈利高达$7378,Sharpe值为0.359,为所有模型中最高,显示出色的风险控制能力[13] - Gemini 2.5 Pro交易次数达238次为所有模型最高,但胜率仅为25.6%,回报率为-56.71%,Sharpe值为-0.566,反映出过度交易且回报低效[14] - GPT-5表现最差,回报率为-62.66%,总亏损$6266,胜率为26.7%,Sharpe值为-0.525,缺乏有效的市场判断和风险管理[15] 行业影响与关注 - 赛事引发广泛关注,币安创始人赵长鹏公开评论,认为如果所有人都用相同的AI模型交易,可能导致大家在同一时刻买卖,影响市场动态[9] - 赵长鹏预测,由于AI交易表现引起关注,未来可能更多人研究AI在交易中的应用,预计交易量会大幅增加[11] - 总体来看,中国的Qwen3 Max与DeepSeek在风险控制与趋势识别上更为领先,而美国系模型则普遍亏损严重[16]