Workflow
Artificial Intelligence
icon
搜索文档
Surging AI Momentum Showcases Investment Opportunities
Etftrends· 2025-09-30 20:46
Even as some of the largest tech companies have continued to pour hundreds of billions of dollars into scaling up their AI infrastructure, some investors may be skeptical about AI's practical utility and broader adoption. After all, is artificial intelligence being used enough to justify all this investment? New evidence shows just how much artificial intelligence consumption has risen over the past year. Recent research from Alger examined the amount of AI tokens being consumed on a weekly basis. In layma ...
ChatGPT架构师,刚发布了最新研究成果
量子位· 2025-09-30 20:22
研究核心观点 - Thinking Machines发布第三篇研究博客,核心作者为OpenAI联创John Schulman,OpenAI前CTO Mira Murati为其转发站台[1] - 研究证实LoRA参数高效微调方法在抓准关键细节后,不仅能与全量微调拥有相同的样本效率,还能达到一样的最终性能[7] - 研究给出了大幅降低LoRA调参难度的简化方案[3][22] 研究背景与问题 - 当前主流大模型参数达万亿级别,预训练数据达数十万亿token,但下游任务通常只需小数据集且聚焦特定领域[6] - 全量微调更新所有参数会导致资源浪费严重,而LoRA作为参数高效微调方法,通过低秩矩阵捕捉微调信息,但始终面临能否追上全量微调性能的争议[7] 核心研究发现 - 在中小数据集微调场景下,高秩LoRA(如秩512)的学习曲线与全量微调几乎完全重合,损失值均随训练步数呈对数线性下降[9][11] - 仅在数据集规模远超LoRA自身容量的极端情况下,其训练效率才会出现下滑,但这种情况在多数后训练场景中极少出现[11] - 在数学推理类强化学习任务中,即便将LoRA的秩降低至1,其性能依旧能与全量微调持平,因为强化学习每轮训练仅需依靠scalar优势函数吸收O(1)比特信息,秩1 LoRA的参数容量已满足需求[13][14] LoRA应用优化策略 - LoRA应用需实现全层覆盖而非仅聚焦注意力层,因为模型梯度的主导权掌握在参数数量更多的层手中[15][21] - 仅作用于注意力层的LoRA表现明显落后,即便提升秩来匹配参数量,性能差距依然显著[16][17] - 当LoRA应用于模型所有层(尤其是参数占比最高的MLP层与MoE层)时,性能得到极大提升,仅在MLP层单独应用LoRA效果就与组合应用相差无几[19] 调参简化方案 - LoRA的最优学习率存在明确规律,始终约为全量微调的10倍,这一比例在14个不同模型的测试中几乎保持恒定[12][22] - 得益于1/r缩放因子的作用,不同秩LoRA的最优学习率差异极小,在秩4至秩512范围内变化幅度不足2倍,短期训练任务中甚至可忽略秩对最优学习率的影响[22] - LoRA的4个潜在超参数中有2个属于冗余参数,实际调试只需重点关注"初始更新规模"与"A矩阵偏离初始状态的步数"两个维度,这将调参难度降低了一半[25][26] 作者背景 - 研究核心作者John Schulman为OpenAI联创,在OpenAI工作9年期间领导了从GPT-3.5到GPT-4o的一系列对齐/后训练工作,被誉为ChatGPT架构师[27][28] - John Schulman学术引用近14万,其代表作PPO算法是ChatGPT核心技术RLHF中选用的强化学习算法[29] - John Schulman现以首席科学家身份加入Thinking Machines,旨在回归核心技术领域[30]
首次实现第一视角视频与人体动作同步生成!新框架攻克视角-动作对齐两大技术壁垒
量子位· 2025-09-30 20:22
技术突破 - 首次实现第一视角视频与人体动作的联合生成,攻克了视角-动作对齐与因果耦合两大核心瓶颈[1][2][4] - 提出基于扩散模型的框架,通过三模态联合生成框架实现文本、视频、动作的同步生成[4][12] - 采用异步扩散训练策略,为视频与动作分支设置独立采样时间步,适配不同模态演化节奏[23] 核心创新 - 创新性地提出以头部为中心的动作表征,直接将动作锚定在头部关节,使头部姿态回归误差显著降低[19][20][26] - 引入控制论启发的交互机制,在注意力机制中加入结构化掩码,实现视频与动作间的双向因果交互[20][21] - 采用三阶段训练范式,包括动作VAE预训练、文本-动作预训练和三模态联合训练,兼顾效率与性能[27] 性能表现 - 在9项评估指标上全面超越基线模型VidMLD,其中视角对齐误差从1.28米降低至0.67米,降幅达48%[32][33] - 手部可见一致性指标HandScore从0.36提升至0.81,增幅达125%[32][33] - 消融实验证实三大核心设计缺一不可,移除任一创新点均导致模型性能明显下降[34] 应用前景 - 技术为可穿戴计算、AR内容创作及具身智能打开了新的落地入口[2][34] - 生成的视频可通过3D高斯点渲染技术提升到三维场景中,支持多种生成模式[5][24][29][30]
深度讨论 Online Learning :99 条思考读懂 LLM 下一个核心范式|Best Ideas
海外独角兽· 2025-09-30 20:06
讨论主题: Online Learning 参与嘉宾: 拾象 Best Ideas 社群 在 OpenAI o1 将 LLM 带入 RL 范式 一年后,我们再次迎来 AI labs 的密集发布周期:OpenAl 在推出 Pulse 后紧接着在今天凌晨推出 ChatGPT 即时支付功能和协议,Anthropic 也同步推出最强编程模型 Claude Sonnet 4.5,能连续专注任务执行超过 30 小时。 这些迭代背后的共同特性是:推动模型在复杂、长程任务上的表现不断精进,甚至直接、实时地参 与人类社会经济活动。 要彻底实现这一目标、真正走入 AGI,更高效的模型进步路径、新的技术范 式一定是当下的关键问题,online learning 极有可能是这个问题的答案。 两周前,海外独角兽组织了一场 「Best ideas」闭门讨论,和一线 AI researchers 围绕 online learning 展开思考。 虽然今天 AI 社区对于 online learning 是什么、以及怎么做还存在非共识,但 online learning 代表了一种新的交互和推理范式,在实现极致个性化的同时能够动态迭代整个 ...
AI日报丨再套现超4000万美元!黄仁勋持续减持英伟达,看好OpenAI称其或成为下一个万亿美元巨头
美股研究社· 2025-09-30 20:06
A I 快 报 1 . 智谱旗舰模型GLM-4.6上线 寒武纪、摩尔线程已完成适配。 据智谱消息,最新的GLM-4.6模 型上线,其代码能力比前代GLM-4.5提升27%,在真实编程、长上下文处理、推理能力等多方面 表现优异。GLM-4.6在公开基准测试中达到国内最高水准,并在74个真实编程任务中超越其他国 产模型。 整理 | 美股研究社 在这个快速 变 化的 时代, 人工 智能技术正以前所未有的速度发展,带来了广泛的机会 。 《AI 日 报 》 致力于挖掘和分析最新的AI概念股公司和市场趋势,为您提供深度的行 业 洞察和 价 值 分析。 2. DeepSeek在下一代AI模型中首次引入"稀疏注意力"机制。 9月29日,DeepSeek更新了一个 实验性的人工智能(AI)模型,并称之为迈向新一代架构的中间步骤。DeekSeek在Hugging Face上发布帖子,概述了DeepSeek-V3.1-Exp平台,并解释说该平台引入一种名为DeepSeek Sparse Attention(DSA)的"稀疏注意力机制",DSA可以在长上下文中进行更快、更高效的训 练和推理。 3. Anthropic推出最新AI模型 ...
BullFrog AI Expands Sales and Marketing Team to Accelerate Commercial Adoption of Clinical Trial Optimization Solutions and bfPREP™ Module
Globenewswire· 2025-09-30 20:00
GAITHERSBURG, Md., Sept. 30, 2025 (GLOBE NEWSWIRE) -- BullFrog AI Holdings, Inc. (NASDAQ: BFRG; BFRGW) ("BullFrog AI" or the "Company"), a technology-enabled drug development company using artificial intelligence (“AI”) and machine learning to enable the successful development of pharmaceuticals and biologics, today announced the expansion of its internal sales organization to support accelerated commercialization of the Company’s clinical trial optimization offerings, including its recently launched bfPREP ...
DeepSeek-V3.2上线国家超算互联网 开发者可免费下载
搜狐财经· 2025-09-30 19:58
模型发布与技术进展 - DeepSeek于9月29日正式发布实验性模型DeepSeek-V3.2-Exp [1] - 新模型在V3.1-Terminus基础上引入DeepSeekSparseAttention稀疏注意力机制 [1] - 该技术针对长文本训练和推理效率进行探索性优化验证 [1] - DeepSeekSparseAttention首次实现细粒度稀疏注意力机制 [1] - 新技术在几乎不影响模型输出效果前提下大幅提升长文本训练和推理效率 [1] 平台接入与开发者服务 - DeepSeek-V3.2-Exp于9月30日上线国家超算互联网AI社区 [1] - 模型依托国产深算智能加速卡及全国一体化算力网运行 [1] - 企业和开发者均可在AI社区免费下载模型文件进行快速开发 [1] - 超算互联网AI社区已汇聚700余款国内外优质开源模型 [2] - 平台提供API调用、Chatbot在线推理对话、国产大模型分布式训练及微调等MaaS服务 [2]
Fermi's IPO to showcase Wall Street fervor for AI — and the Trump effect
MarketWatch· 2025-09-30 19:45
Fermi has yet to generate revenue as it readies its IPO of 32.5 million shares at an estimated price range of $18 to $22 each for trading Wednesday. ...
2026 CNBC Changemakers nominations: Why women business leaders on our annual list are more important than ever
CNBC· 2025-09-30 19:11
CNBC is now accepting nominations for the 2026 Changemakers list that features women transforming business and philanthropy, who have accomplished a meaningful achievement in 2025. With a community of 100 women who we've named to our 2024 and 2025 lists thriving and innovating across industries, it's more important than ever to highlight the women defying odds. Just like the women on our first two Changemakers lists, for this upcoming list we're looking for women who are taking novel approaches to old busin ...
从深夜炸场到凌晨跑路:Manus败退新加坡,“镀金”回来就能赢?
钛媒体APP· 2025-09-30 19:10
文 | 大模型之家 自始至终,Manus一直都"装"得很外国,产品如此、时差亦然……这种"外来和尚好念经"的刻板印象, 酿就了它注定败走的结局。 回首3月6日凌晨,当国内的AI从业者多沉睡在温柔乡时,一款名为"Manus"的智能体产品深夜炸场,彼 时,朋友圈和微信群里流传着一张又一张截图:Manus的邀请码在闲鱼上被炒到几万块,最高时甚至有 人挂出"十万"的标价。有人半开玩笑说,这比买理财更稳妥——毕竟谁都不想错过"AI Agent元年"的车 票。 那几天,北京、上海的创业者群里弥漫着一种躁动感。有人连夜注册账号,有人熬夜等官方放码,有人 打电话找投资人托关系,还有人专门开贴记录自己排队等邀请码的心路历程。仿佛谁先用上,就能抓住 下一个时代的钥匙。 据报道,Manus国内团队约120人,最终仅有核心研发团队约40人迁往新加坡,其余约80名非核心员工 被裁,尽管裁员补偿待遇据称优厚(N+3或2N),但出走海外的唏嘘,也成为了"智能体元年"里一段 略显仓促的"中国往事"。 Manus为何离开?原因比想象复杂 很多人第一反应是:是不是水土不服?其实原因比想象的复杂。 最直接的驱动力,无疑是资本的意志。AI大模型及其 ...