Workflow
token
icon
搜索文档
「Tokens是胡扯」,Mamba作者抛出颠覆性观点,揭露Transformer深层缺陷
机器之心· 2025-07-09 17:52
机器之心编译 原文作者:Albert Gu 编辑:陈陈、杜伟 「Tokenization(分词)是 Transformer 模型为弥补自身缺陷不得不戴上的枷锁。」 近日,Mamba 作者、CMU 助理教授、Cartesia AI 首席科学家 Albert Gu 撰写了一篇新博客,探讨了状态空间模型(SSM)和 Transformer 之间的权衡,并提出了这 样一种观点。 这篇博客改编自 Albert Gu 过去一年来多次进行的一场演讲。虽然演讲内容通俗易懂,面向比较广泛的受众群体,但其中的一些有趣的见解、观点和原理阐释,相 信对专业研究者也不乏启发价值。 在社交媒体 X 上,Albert Gu 抛出了「tokens are bullshit」的观点,并预告了接下来要发布的重大架构进展。 图源: https://x.com/_albertgu/status/1942615020111876248 评论区的很多网友赞成 Albert Gu 的观点,认为移除 tokenization 会在计算效率方面带来积极影响。 状态空间模型 本文首先定义了什么是状态空间模型(State Space Model,SSM)。 1. ...
21Shares Launches XDC Network ETP on Euronext
Globenewswire· 2025-07-09 15:00
文章核心观点 21Shares推出21Shares XDC Network ETP,为投资者提供受监管途径投资XDC Network,该产品在巴黎泛欧交易所和阿姆斯特丹泛欧交易所上市,XDC Network在全球贸易金融和跨境支付领域有重要地位 [1][2][3] 产品信息 - 产品名称为21Shares XDC Network ETP,代码为XDCN,ISIN为CH1464217285,管理费率2.50%,在巴黎泛欧交易所和阿姆斯特丹泛欧交易所上市,分别以欧元和美元计价,完全由标的资产抵押并存放于机构级冷存储中 [2][3] 公司信息 - 21Shares是全球领先的加密货币交易所交易产品发行商,提供市场上最大的加密ETP套件,2018年推出全球首个实物支持的加密ETP,隶属于21.co [4][5] - XDC Network是企业级、与以太坊虚拟机兼容的第1层区块链协议,自2017年以来建立了开发者和企业社区,支持智能合约,交易最终确认时间为2秒,成本和能耗低 [5][6] 行业信息 - XDC Network已成为贸易金融和跨境支付的关键基础设施层,与SWIFT和ISO 20022等金融消息标准集成,获德意志电信、SBI日本和Archax等行业参与者战略支持,弥合传统金融与去中心化网络差距 [2] 各方观点 - 21Shares金融产品开发主管Mandy Chiu称XDC处于区块链创新与现实应用交汇处,公司为投资者提供受监管途径投资关键基础设施 [3] - XDC Network联合创始人Ritesh Kakkad表示该ETP将XDC愿景变为现实 - XDC Network市场与合作主管Ziv Keinan称ETP推出是XDC Network迈向主流机构采用的重要里程碑,使传统金融机构参与支付和贸易金融基础设施未来,验证了XDC在现实资产代币化和跨境支付解决方案领域的地位 [3]
Robinhood Tokenized Stocks Face Scrutiny From Lithuania Central Bank
ZACKS· 2025-07-08 23:41
Key Takeaways Robinhood's tokenized equity launch in the EU is under review by Lithuania's central bank. Regulators question HOOD's handling of private stock tokens and related investor communication. Robinhood's history of regulatory fines adds weight to the EU's latest compliance investigation.Robinhood Markets, Inc. (HOOD) is under investigation by Lithuania's central bank, its lead regulator in the European Union (EU), regarding its newly launched tokenized equity products. This was first reported by ...
Robinhood CEO downplays OpenAI concerns on tokenized stock structure
CNBC· 2025-07-08 21:25
Robinhood CEO Vlad Tenev says it's not "entirely relevant" that the trading platform's so-called tokenized shares of OpenAI and SpaceX aren't technically equity in the companies.It comes after OpenAI raised concerns about the product, which is designed to give users in the European Union exposure to various U.S. stocks — including private companies, which are less liquid than publicly listed firms.OpenAI last week warned that Robinhood's stock tokens do not represent equity in the company and said in a post ...
Upexi, Inc. June 2025 Monthly Update
Globenewswire· 2025-07-08 20:00
TAMPA, Fla., July 08, 2025 (GLOBE NEWSWIRE) -- Upexi, Inc. (NASDAQ: UPXI), a brand owner specializing in the development, manufacturing, and distribution of consumer products with diversification into the cryptocurrency space, today released its June 2025 monthly update. “June was a particularly active and successful month,” stated Upexi CEO Allan Marshall. “We increased our SOL balance during June by 8%, demonstrating continued growth while also continuing to earn an 8% staking yield. And we delivered on k ...
DeepSeek 复盘:128 天后 ,为何迟迟推迟发布——SemiAnalysis
2025-07-07 23:45
纪要涉及的公司和行业 - **公司**:DeepSeek、OpenAI、Anthropic、Google、Microsoft、Amazon、Parasail、Friendli、Lambda、Nebius、Cursor、Oracle、Huawei、AMD、NVDA等 [4][22][24][29][30] - **行业**:人工智能(AI)行业,特别是大语言模型(LLM)领域 [4] 纪要提到的核心观点和论据 DeepSeek相关 - **核心观点**:DeepSeek R1发布后虽有影响,但自身服务市场份额下降,原因在于其在tokenomics上的权衡导致用户体验不佳 [8][13][21] - **论据** - **价格与延迟**:DeepSeek虽产品价格便宜,但用户需等待数秒模式才响应首个token,相比其他提供商延迟高,如Parasail、Friendli等可提供低延迟服务,微软Azure价格高但延迟低25s,且多数R1 0528实例现以低于5秒延迟托管 [22] - **上下文窗口**:DeepSeek运行K上下文窗口,是主要模型提供商中最小的之一,限制了如编码等需要大上下文窗口的用例,而相同价格下其他提供商如Lambda和Nebius可提供2.5倍上下文大小 [24] - **市场份额变化**:发布后消费者应用流量激增,但未跟上其他AI应用增长,自身网络应用和API服务市场份额下降,而第三方托管实例使用量近20倍增长,自身总token份额每月下降 [8][9][10][13] - **持续发展**:R1发布后持续扩展强化学习(RL),在许多领域尤其是编码方面有所改进,推理模型不断快速改进且更有效、更实惠 [5][7] Anthropic相关 - **核心观点**:Anthropic在编码应用方面成功,但受计算资源限制,不过用户体验优于DeepSeek [29][32][41] - **论据** - **编码应用成功**:Anthropic专注代码产品开发,其Claude Code使用量激增,超过OpenAI的Codex,Google也推出类似工具Gemini CL [29][30] - **计算资源压力**:Claude的输出速度在API上下降30%至略高于5 tokens每秒,因需处理大量请求且编码使用倾向大token数对话,相比之下OpenAI和Google的模型速度更快 [33] - **用户体验优势**:速度虽低但快于DeepSeek的2.5 tokens每秒,且回答问题所需token数远少于其他模型,端到端响应时间更低,Claude在领先推理模型中总输出token数最少 [41][42] 市场动态相关 - **核心观点**:AI市场竞争激烈,各公司在计算资源、价格、性能等方面竞争,开源模型有发展潜力,速度可通过其他因素补偿 [44][47][40] - **论据** - **价格竞争**:DeepSeek低价冲击市场后,OpenAI旗舰模型价格下降80%,其6月对GPT - 4 API定价大幅削减,缩小与R1的价格/性能差距 [4][53] - **计算资源投入**:Amazon大规模建设AI集群,投资数十亿美元用于Trainium AI集群,Anthropic将获得超50万个Trainium芯片用于推理和训练,Anthropic还从Google GCP租用大量计算资源,Google云也向其他AI公司扩展服务 [37][38][39] - **开源模型潜力**:廉价计算资源的可用性和软硬件的快速创新将推动开源模型发展,如DeepSeek R1在编码性能上不断改进,对采用有积极影响 [47] 其他重要但是可能被忽略的内容 - DeepSeek将研发团队从杭州迁至北京,运营人员翻倍以应对媒体请求,虽有R2延迟传言,但并非因出口管制导致训练延迟,且其仍保持快速招聘速度,还为华为盘古模型提供技术支持 [54][55][56] - 推理云兴起,越来越多公司效仿Anthropic以服务形式销售token,而非像ChatGPT那样以月度订阅形式捆绑销售 [44]
Robinhood stock tokens face scrutiny in the European Union after OpenAI warning
CNBC· 2025-07-07 23:21
监管动态 - 立陶宛央行已联系Robinhood 要求其就代币化股票产品提供澄清 此前OpenAI对该产品提出担忧 [1] - 立陶宛央行发言人表示 正在等待Robinhood对OpenAI和SpaceX股票代币结构及消费者沟通方式的说明 [1] - 立陶宛央行是Robinhood在欧盟的主要监管机构 因该公司持有该央行颁发的经纪牌照和加密资产服务提供商牌照 [2] 合规审查 - 立陶宛央行强调需在收到并评估信息后 才能判断这些特定工具的合法性和合规性 [2] - 监管机构要求Robinhood向投资者提供的信息必须清晰 公平且不具误导性 [2]
重温《英伟达GTC 2025》:挖掘AI算力需求预期差?
2025-07-07 08:51
纪要涉及的行业和公司 - **行业**:美股算力领域、AI 产业、数据中心市场 - **公司**:英伟达、微软、谷歌、亚马逊、Oracle、Marvell、戴尔、台积电 纪要提到的核心观点和论据 1. **算力需求现状与变化** - 全球 AI 算力跟踪方式与以往不同,过去依赖产业链数据,如今需关注大模型和应用,美股算力领域上涨由推理和训练需求共振驱动 [2] - AI 计算需求和扩展速度超加速增长,因推理模型出现,计算量比一年前预期至少高出 100 倍 [2][16] 2. **GTC 大会影响** - 今年参会人数较去年增长 50%,AI 产业人士增加,对 AI 产业重要性提升,重温可挖掘信息差和预期差,是海外算力链上涨核心原因 [3] - 提出 agentic AI 概念,与传统 LLM 不同,强调任务分布执行和规划 [6] 3. **算力需求相关因素** - 算力需求空间与 TOKEN 量密切相关,海外算力公司涨幅不能仅用传统业绩解释,需分析 TOKEN 量对计算需求的影响 [1][4] - 未来海外算力链发展需关注大模型和应用、全球市场变化、GTC 大会信息差、TOKEN 量与计算需求关系 [5] 4. **AI 范式区别** - agentic AI 与 generative AI 是不同范式,前者侧重协作和目标驱动,后者是生成式 AI [7] - agent 是独立执行任务个体,agentic AI 是协作性目标驱动系统 [11] 5. **Skin law 曲线** - 现在有三条 skin law 曲线,分别对应预训练、后训练和测试时间,三个阶段都存在算力需求通胀 [1][8] 6. **后训练与测试时间** - 后训练通过强化学习等优化模型,不涉及卷模型参数;测试时间指推理市场,是结果导向型 [9] 7. **协作型 AI** - 涉及多步骤、多代理等协作过程,信息沟通依赖 TOKEN,全球 TOKEN 量爆发提升了算力需求 [2][12] 8. **数据问题解决** - 强化学习产生的 COT TOKEN 数据和合成数据可用于模型训练,不必担心数据不足 [13] 9. **互联网大厂策略** - 免费开放 AI 应用是为保持竞争力和获取 TOKEN 数据用于训练下一代模型 [14] 10. **推理模型** - reasoning model 与传统大语言模型不同,需详细列出思考过程,增加了算力和 TOKEN 需求,比 one shot 方式至少高出 100 倍 [18][19] 11. **后训练应用** - 后训练在强化学习中用大量 tokens 验证和调整模型,计算需求高,推理环节 token 消耗量远超 chatbot [20] 12. **Token 相关关系** - Agentic AI 与 token 消耗是指数关系,token 与计算量关系复杂,总算力需求等于 Token 数量乘以单 Token 算力成本 [21][22][23] - TOKEN 量增加与计算需求不是 1:1 关系,可能是 1:n,n 可能为 10 甚至更高 [25][26] 13. **海外 AI 应用** - 海外 AI 应用中 TOKEN 量爆发因 Deepseek 降低成本,推动应用快速增长 [27] 14. **单任务执行问题** - 可通过增加算力降低单任务执行等待时间,涉及延迟和吞吐量权衡 [28] 15. **不同 AI 模型差异** - Chatbot 与 Deep Research Agent、通用模型与测试模型在 TOKEN 消耗上存在显著差异 [30] 16. **云服务提供商需求** - 四大云服务提供商对 GPU 需求巨大,2024 年买 130 万张 Hopper 架构 GPU,2025 年已买 360 万张 Blackwell 芯片 GPU [31] 17. **数据中心市场** - 预计到 2028 年数据中心市场规模达 1 万亿美金以上,2025 年是需求增长拐点 [32] 18. **英伟达战略** - 加强与戴尔合作,向政企领域拓展,利用戴尔客户网络 [33] 19. **算力需求驱动因素** - 底层计算架构从 CPU 转换为 GPU,软件未来需资本投入,通过自身生成 TOKEN 交互协作,推动算力需求 [34] 20. **软件运行模式转变** - “软件加算力”替代“软件加能力”,软件运行将自动化,企业依赖计算资源而非人力 [37] 21. **算力需求阶段** - 当前处于算力需求拐点向上阶段,因计算架构转换和 AI 技术发展,算力需求爆发式增长 [38] 22. **推理图表数据** - 单个用户每秒钟处理 TOKEN 量与智能 AI 反应速度有关,吞吐量越大、系统响应越快,影响用户体验 [39] 23. **Token 资源分配** - AI 应用中 Token 是资源,用户单位时间获 Token 数量影响应用运行速度,吞吐量决定系统任务执行和用户数 [41] 24. **AI 工厂优化** - 可通过增加 HBM 存储容量、提高存储带宽、优化算法和架构优化 AI 工厂吞吐量,提升系统性能 [42] 25. **公司股价上涨** - 英伟达和台积电等公司股价创新高因 AI 算力需求大幅增长,公司创新技术满足需求 [43][44] 26. **资本市场逻辑** - 资本市场对 AI 算力需求变化基于新需求驱动,深入研究原因可准确预测未来发展方向 [45] 其他重要但可能被忽略的内容 - 微软 2025 年一季度总吞吐量达 100 万亿个 tokens,谷歌 4、5 月吞吐量为 480 万亿个 tokens,后训练一次至少需 100 万亿个 tokens [20] - 从 2025 年 2 月底出现拐点,Deepseek 于 2024 年 1 月底发布,推动海外 AI 应用发展 [27] - 英伟达股价从 2024 年 6 月到 2025 年 6 月横盘一年,2025 年 6 月底突破新高 [44]
6大基准全面碾压!TW-GRPO刷新视频推理天花板,CLEVRER准确率突破50.4%!
机器人大讲堂· 2025-07-06 13:23
多模态大语言模型(MLLMs)与强化学习(RL)的融合 - 多模态大语言模型在视频推理等任务中快速进化,强化学习作为关键引擎显著提升模型推理能力 [1] - DeepSeek-R1通过纯RL优化实现推理能力质的飞跃,VideoR1引入T-GRPO增强视频时空逻辑拆解能力,VideoChat-R1通过多任务联合微调提升视频理解与多步推理表现 [1] - 当前RL优化面临思维链推理在多模态任务中效率低下、稀疏二元奖励信号忽略部分正确答案两大挑战 [1] TW-GRPO框架的创新设计 - TW-GRPO框架由多所高校联合提出,通过聚焦思维和密集奖励粒度增强视觉推理,解决传统GRPO的推理质量与奖励粒度问题 [2][7] - 动态加权机制通过分析token信息熵优先处理高信息密度内容,规避冗余干扰,提升推理精度与效率 [4] - 多层次奖励机制将单选题QA拓展为多选任务,结合视频定位IoU软奖励机制,对部分正确答案给予梯度反馈,改善训练稳定性 [5][9] - 问答反转(QAI)技术通过否定问题与反转答案扩充多选训练数据,解决数据稀缺问题 [6][9] TW-GRPO的性能表现 - 在CLEVRER、NExT-GQA和MMVU基准测试中,TW-GRPO分别以50.4%、76.1%和65.8%准确率超越Video-R1达18.8%、1.8%和1.6% [15][16] - 通用视频理解任务中,TW-GRPO在MVBench和TempCompass基准分别保持63.3%和73.3%的领先准确率,较基线模型最高提升0.4% [16] - 训练动态显示TW-GRPO奖励标准差收敛更快,输出序列长度缩短17%-23%,验证其推理简洁性与稳定性 [17][18][20] 技术实现细节 - Token重要性加权采用KL散度量化分布差异,通过最小-最大归一化与超参数α控制权重缩放,实现位置敏感优化 [8] - 多选软奖励设计借鉴视频定位IoU机制,依据预测与真实答案重叠度赋予分数,显著降低奖励波动 [9][10] - 实验基于Qwen2.5-VL-7B模型,使用NVIDIA H800 GPU处理128×28×28分辨率视频帧,推理时提升至256×28×28 [12] 定性分析案例 - 在MMVU密度估计任务中,TW-GRPO精准提取视频关键数值并正确应用阿基米德原理,而T-GRPO因错误假设体积导致计算结果偏差 [19][21][22] - 对比显示TW-GRPO在因果推理、定量推理和动态视觉线索处理方面具有显著优势 [22][24]
DeepSeek与Anthropic的生存策略 | Jinqiu Select
锦秋集· 2025-07-04 23:35
文章核心观点 - AI行业的核心瓶颈是计算资源的稀缺,这制约了各家公司的发展 [1] - AI服务的定价本质上是延迟、吞吐量和上下文窗口三个性能指标的权衡游戏 [2][3] - DeepSeek和Anthropic采取了不同的策略来应对计算资源限制,反映了行业面临的共同挑战 [4][5] - 随着推理云服务的崛起,如何在有限计算资源下实现技术突破和商业成功的平衡成为关键 [5] AI服务定价机制 - AI服务的定价由三个关键性能指标决定:延迟(用户等待时间)、吞吐量(每秒生成token数)和上下文窗口(模型记忆容量) [3][22][23] - 通过调整这三个参数,服务商可以实现任何价格水平 [24] - 单纯比较每百万token价格意义不大,需结合实际应用场景和用户需求 [24] DeepSeek的策略分析 - DeepSeek选择极端配置:数秒延迟、每秒25个token输出速度、64K上下文窗口,换取极低价格和最大化研发资源 [4][26][28] - 官方平台用户流失29%(从614.7M降至436.2M),但第三方托管模型使用量暴增20倍 [15][16] - 公司主动牺牲用户体验,通过高batch率降低推理资源消耗,保留最大计算资源用于内部研发 [33] - 采用开源策略扩大全球影响力,让其他云服务商托管模型 [33] Anthropic的困境与应对 - Claude在编程领域成功导致计算资源紧张,API输出速度下降30%至每秒55个token [36] - 编程应用消耗更多计算资源,迫使提高batch处理规模 [36] - 与亚马逊达成合作获取50万片Trainium芯片,并向Google租用TPU资源 [37] - 通过提升"智能密度"优化资源利用,模型回答问题所需token数量远少于竞争对手 [40][42] 行业竞争格局变化 - OpenAI将旗舰模型降价80%,价格战加剧 [8][49] - 推理云服务崛起,更多公司将token作为服务直接销售而非打包订阅 [43] - DeepSeek R1编程能力显著提升,成本效益优势明显 [45][47] - Google凭借TPU计算优势提供免费大配额服务 [34] 技术发展趋势 - 强化学习持续迭代改进模型能力,DeepSeek R1-0528版本编程性能显著提升 [10][52] - 出口管制限制中国大规模部署推理服务能力,但未同等阻碍训练优秀模型的能力 [33] - 计算资源优化方式包括:提高batch规模、优化硬件使用(AMD/NVIDIA芯片)、提升token智能密度 [31][32][42]