Reinforcement learning - 财报，业绩电话会，研报，新闻

Post - training

AI - powered smart glasses

metaverse products

Superintelligence

Post - training

AI - powered smart glasses

metaverse products

Tesla Rival Xiaomi Deploys Humanoid Robot With 3 Hours Of Autonomous Operating Time At EV Assembly Plant - Xiaomi (OTC:XIACF)

Benzinga· 2026-03-02 18:46

公司动态：小米部署人形机器人 - 中国科技公司小米在其电动汽车装配工厂中部署了人形机器人 [1] - 部署的人形机器人实现了3小时自主运行在压铸车间完成放置自攻螺母的任务 [2] - 机器人在执行该任务时成功率达到了90.2% [3] - 公司CEO雷军预测未来五年内将有更多人形机器人部署到其生产设施中 [3] 技术细节与应用前景 - 小米机器人采用了视觉-语言-动作模型与强化学习相结合的方法 [3] - 公司正在考虑为其机器人探索其他应用场景 [3] 行业背景与竞争对手 - 汽车行业正寻求将机器人技术融入生产活动 [1] - 特斯拉的Optimus机器人计划通过建立Optimus学院进行训练该学院将利用与训练其全自动驾驶技术相同的技术 [4] - 波士顿动力的Atlas机器人能举起高达110磅的物体工作温度范围为-4°F至104°F 并具备将单个单元学习的任务复制到整个机队的能力 [5]

Vision - Language - Action (VLA)

Autos

Xiaomi humanoid robots

Vision - Language - Action (VLA)

Crypto’s Machine Learning ‘iPhone Moment’ Comes Closer as AI Agents Trade the Market

Autos

Xiaomi humanoid robots

Yahoo Finance· 2025-12-13 21:00

AI交易模型的现状与挑战 - AI驱动的交易尚未达到“iPhone时刻”即尚未普及至人人皆可使用但专家认为类似变革即将到来 [1] - AI在动态且对抗性的交易市场中面临独特挑战无法像识别交通信号那样通过无限数据预测未来 [1] - 精炼AI交易模型是一个复杂且要求高的过程传统上以盈亏作为衡量标准 [2] AI交易模型的演进与优化 - 算法定制化的进步催生了能够持续学习在多变市场条件下平衡风险与回报的智能体 [2] - 在训练过程中引入风险调整后指标如夏普比率可显著提升测试的复杂性与有效性 [3] - 下一代构建者正探索算法定制与专业化将用户偏好纳入考量以寻找市场阿尔法而非仅优化原始盈亏 [4] 当前AI交易能力的基准测试 - 近期在去中心化交易所Hyperliquid上举行的交易竞赛为AI在交易领域的现状设定了基线涉及GPT-5、DeepSeek和Gemini Pro等多个大语言模型 [4] - 这些LLM根据相同提示自主执行决策但表现不佳仅勉强跑赢市场 [4] - 竞赛旨在测试经过专业定制的交易智能体是否优于这些基础模型 [5] 专业化定制模型的表现 - 在Recall Labs举办的约20场AI交易竞技中社区提交的AI交易智能体进行为期4至5天的竞争 [3] - 该竞赛的前三名均由定制化模型获得 [6] - 尽管部分模型无利可图且表现不佳但显然在基础模型之上应用额外逻辑、推理和数据源的专业化交易智能体表现更优 [6] - 领先金融机构在传统市场中的运作方式更倾向于优化特定比率而非仅看原始盈亏例如关注最大回撤、风险价值等指标 [4]

AI-powered trading

AI trading agents

AI-powered trading

首个多轮LLM Router问世, Router-R1可让大模型学会「思考–路由–聚合」

AI trading agents

机器之心· 2025-10-15 18:44

研究背景与问题定义 - 在大语言模型种类爆炸的背景下，AI系统设计面临性能、延迟与成本的多重平衡挑战，如何智能地在不同LLM之间分配任务成为AI基础设施的新挑战[3] - 当前AI应用大多依赖单一模型推理，导致简单问题算力浪费，复杂问题可能因模型能力不足而回答错误[6] - 现有LLM Router大多采用单轮决策机制，难以处理多跳推理或跨领域的复杂任务[6] Router-R1核心创新 - 提出了首个多轮LLM Router框架Router-R1，其核心创新在于让Router自身成为一个具备推理能力的Policy LLM[7][8] - Router-R1不再是简单的"Query分发器"，而是一个拥有思维链，能主动进行"思考—选择模型—聚合"的智能体[8] - 通过"思考–路由–聚合"的交替机制，Router-R1能充分利用不同LLM的互补优势，实现真正的多模型协同推理[8] 技术方法与训练机制 - 将多轮路由过程形式化为序列决策问题，并通过强化学习训练Router优化性能与成本的权衡[10] - 设计了三类奖励函数：Format Reward确保输出格式正确性[10]、Final Outcome Reward采用Exact Match指标激励正确结果[11]、Cost Reward创新引入计算成本奖励机制[14] - Cost Reward根据被调用模型的参数规模及输出Token数设计反比例奖励函数，实现可控且动态的成本感知路由[14][15] - 总奖励函数为α(x,y)= Rformat + (1-α)Routcome + αRcost，超参α控制性能与成本的权衡程度[16][17] 实验性能与结果 - 在7个QA Benchmark上进行系统评测，涵盖单跳与多跳推理任务，包括NQ、TriviaQA等数据集[19] - 当α=0时，Router-R1在所有数据集上达到综合最强性能，击败GraphRouter/RouterDC等单轮路由方法[21] - Router-R1展现出对Unseen Dataset的较强泛化性，仅在NQ与HotpotQA上训练，在其他数据集执行Out-of-domain Evaluation[19][21] - 随着超参α增加，调用成本显著下降，为可控成本的LLM智能调度策略开辟新范式[23] - 在未参与训练的外部模型加入后，无需重新训练即可保证性能相对稳定并实现提升，显示优异的零样本迁移能力[24] 行业意义与发展趋势 - Router-R1代表让多个模型协同工作的新范式，使LLM从"单一回答者"进化为"多智能体协调者"[26] - 该技术能在减少算力和成本开销的同时保持高质量输出，降低大模型部署的环境与资源压力[26] - Router-R1天然支持模型重用与模块化组合，只需添加新模型描述即可快速集成，为构建可扩展、多模型共生的AI基础设施奠定基础[26] - GPT-5技术报告已采用LLM Router机制进行不同版本模型的动态调度，印证多模型协同路由将成为未来大模型生态不可或缺的底层基础设施[26]

Multi-model collaborative routing

Performance-cost trade-off

Multi-model collaborative routing

Router-R1

Performance-cost trade-off

DeepSeek的阳谋：在《自然》杂志公布论文，到底赢得了什么？

Router-R1

新浪财经· 2025-09-27 20:18

核心观点 - DeepSeek的研究成果登上《自然》杂志封面，其核心突破在于通过强化学习实现了人工智能模型的自我提升，并成为首个接受独立同行评审的主流大模型，填补了行业空白 [1][3][5] 技术方法与突破 - 公司采用了一种名为“强化学习”的叛逆方法，绕过了传统监督式微调，不提供人类解题范例，仅通过“答对有奖励”的纯粹激励让模型在难题中自学成才 [8][9][11] - 训练数据显示，模型自发学会了深度思考，其生成的回答文本长度持续稳定暴涨，表明它领悟到需要更多时间推演才能解决复杂问题 [12] - 模型在训练过程中自发涌现出反思和自我纠错能力，例如使用“等等”、“不对”、“我要检查一下”等词汇，并在约8000步后“wait”一词使用频率飙升，形成了三思而后行的思维习惯 [13][15][16] - 最终该模型在数学、编程等严肃推理任务上表现全面超越接受传统教学的模型，在AIME数学竞赛基准测试中的成绩远超人类参赛者平均水平 [16] 行业影响与战略意义 - 公司选择在《自然》杂志接受严格的同行评审，打破了自ChatGPT-3以来大模型“黑箱发布”的江湖规矩，为行业建立了科学可信度标准 [5][6][7] - 开放和透明的战略看似短期吃亏，实则是长期阳谋，通过建立信任、融入全球智慧网络加速自我进化、吸引顶尖人才，以赢得AI时代的整体竞争 [17][18] - 此项研究赢得了“安全可信”的科学信誉，更重要的是赢得了对人工智能本质的认知优势，证明AI的推理能力不一定需要学习人类固有知识，可以独立发现规律，极大拓展了对AI潜力的想象 [19]

Seek .(US:SKLTY)

Peer review

DeepSeek-R1-Zero

Peer review

Braze (BRZE) 2025 Conference Transcript

DeepSeek-R1-Zero

2025-09-05 21:52

公司概况 * Braze是一家专注于客户互动领域的上市公司成立于2011年于2021年上市目前已完成16个上市后的财报周期[1][2] * 公司通过第一方数据和渠道为客户编排和个性化发送给消费者的信息以及直接面向消费者的产品体验主要服务B2C客户同时也有大量B2B用例[3] * 公司的业务模式基于消费和结果定价主要计价单位是月活跃用户数(MAU)和消息量而非基于席位收费合同平均加权长度超过两年[7][8][27] 核心业务与战略定位 * 公司定位为客户互动平台而不仅仅是营销自动化其差异化在于技术复杂性能够处理现代消费者旅程的复杂性并大规模交付用例[4][5] * 公司受益于品牌优先建设第一方数据集和与客户建立直接连接的趋势这一趋势因数字消费者体验中需求与注意力聚合者的出现而加强[3][4] * 公司的基础数据处理基础设施从最初就是事件驱动的流处理专注于从数据流中实时获取洞察和上下文语义[9] 人工智能(AI)战略与影响 * 公司自视为AI原生公司其业务模式特性(如不按席位收费开放API 快速集成)与AI原生理念相符[7][8] * 生成式AI和强化学习的进步使其中间的智能步骤能力更强让系统能进行更自主和智能的自动化大规模决策这推动了公司愿景的更快更全面实现[10][11] * 公司将聊天机器人和答案引擎等新AI视为需求聚合器类似于过去的在线旅行社外卖平台和流媒体聚合器这强调了品牌建立第一方数据直接连接客户的重要性[12][13][14] * AI的兴起使得技术复杂性成为不可或缺的能力这有利于Braze 因为其技术优势(如API架构数据可组合性合作伙伴集成)更能被欣赏和利用[39][40][43] 财务表现与运营亮点 * 公司最新季度业绩强劲有机收入增长加速 OfferFit收购贡献了约2%的同比收入增长符合预期[19][20] * 季度内美元净留存率从略低于107%改善至略高于107% 显示出积极的趋势[24] * 减少减售(downsell)的举措见效包括改善客户实施和 onboarding 提高对续约风险的能见度及早干预以及部分小客户因业务健康问题的流失已基本结束[21][22] * 增售(upsell)和新业务势头非常强劲销售团队生产率提高并计划在下半年增加销售容量以支持明年增长[23][32][33] 产品路线图与整合 * 公司于6月初完成了对OfferFit的收购整合进展迅速顺利包括人员和技术[29][30] * 公司将Project Catalyst和OfferFit均视为决策产品正在将两者的研发路线图整合专注于决策领域[30][44] * 公司提出"可组合智能"理念旨在让营销团队将智能单元(模型智能体操作器)注入品牌创造力和商业策略并灵活动态地插入不同策略中[45][46][50] * 公司计划让整个销售团队在明年都能销售客户互动和决策产品[36] 市场竞争与行业趋势 * 公司因其技术复杂性在有CTO等技术人员参与的采购过程中相比Salesforce和Adobe等对手更能体现差异化优势[39] * "氛围编码"(vibe coding)的兴起使更多人能自信使用其技术功能其可视化编程语言Canvas与此相关使得其技术差异化更易被接受和访问[42][43] * 公司看到客户在投资教育自己以使用这些更技术化的能力[41] 未来展望与风险 * 公司对下半年的续约基础健康状况更有把握情况相比一两年前有所改善[24] * 灵活积分模型的变更加快了销售谈判速度改善了客户体验[35] * 决策软件和智能层在推动高价值行为转换(如免费试用转付费单产品转多产品)方面有巨大潜力[36] * 在回答引擎优化(AEO)等领域仍处于早期系统如同黑箱但品牌应对聚合器的策略手册已较为清晰[17][18]

Braze(US:BRZE)

Generative AI

Composable intelligence

Braze customer engagement platform

Software

Project Catalyst

Generative AI

Composable intelligence

Braze customer engagement platform

Software

Project Catalyst

Meta hires key OpenAI researcher to work on AI reasoning models

TechCrunch· 2025-06-27 00:13

人才招聘 - Meta聘请了OpenAI有影响力的研究员Trapit Bansal加入其新成立的AI超级智能部门，负责AI推理模型开发 [1] - Bansal于2022年加入OpenAI，是强化学习研究的关键人物，并作为基础贡献者参与了OpenAI首个AI推理模型o1的开发 [2] - Meta近期大规模招聘AI人才，为顶级研究人员提供高达1亿美元的薪酬方案 [4] 团队建设 - Meta的AI超级智能实验室已汇聚多位行业领袖，包括前Scale AI CEO Alexandr Wang、前GitHub CEO Nat Friedman等 [3] - 目前Meta的Llama系列开源模型尚未包含公开的AI推理模型 [3] 行业动态 - OpenAI发言人确认Bansal已于2023年6月离职 [1] - 该事件仍在发展中，Meta发言人拒绝对此置评 [4]

Meta Platforms(US:META)

AI superintelligence

Llama family of open models

AI reasoning model

AI superintelligence