学习

搜索文档
汇量科技(01860)首次入选《财富》东南亚500强
智通财经网· 2025-06-25 16:39
公司荣誉与财务表现 - 公司入选2025年《财富》东南亚500强榜单,位列第208位 [1] - 2024年营业收入达15.1亿美元,同比增长43.0% [1] - 毛利润3.163亿美元,同比增长45.6% [1] - 调整后EBITDA达1.383亿美元,同比增长31.3% [1] 业务增长驱动因素 - AI与机器学习持续投入是公司增长的核心动力 [1] - Mintegral平台2024年收入达14.4亿美元,同比增长47.2% [1] - 智能竞价产品贡献超70%的总收入 [1] - 游戏业务收入10.4亿美元,同比增长37.0% [1] - 非游戏业务营收4.033亿美元,同比增长82.0% [1] 管理层观点 - 公司专注于助力开发者将复杂问题转化为发展机遇 [2] - 入选榜单是对公司在智能化和效果驱动型解决方案领域努力的鼓励 [2] - 将持续提升技术水平和服务质量以支持开发者实现智能增长 [2] 行业背景 - 《财富》东南亚500强榜单覆盖7个国家企业 [2] - 2025年上榜公司共创造1.82万亿美元收入 [2]
让多模态大模型「想明白再画」!港大等开源GoT-R1:强化学习解锁视觉生成推理新范式
机器之心· 2025-06-25 14:50
多模态大模型技术进展 - 当前多模态大模型在复杂文本提示生成高保真图像方面取得进展,但在处理精确空间关系、多对象属性及复杂组合指令时仍面临挑战[1] - 香港大学MMLab、香港中文大学MMLab和商汤科技团队推出GoT-R1框架,通过强化学习增强语义-空间推理能力,超越预定义模板限制[2][3] - GoT框架通过显式语言推理过程规划语义内容和空间布局,提升图像生成准确性和可控性,但依赖人工定义模板限制了自主推理潜力[4] GoT-R1技术创新 - GoT-R1创新性应用强化学习于视觉生成,赋予模型自主学习和优化推理路径能力[5] - 构建双阶段多维度奖励框架:推理过程评估奖励(RPR)、推理至图像对齐奖励(RRI)、语义对齐奖励(Rsem)、空间对齐奖励(Rspa)、文本提示至图像对齐奖励(RPI)[14][15][16][17] - 采用组相对策略优化(GRPO)强化学习算法,使模型主动探索更优质推理策略,突破训练数据固定模式限制[18] 性能评估与行业对比 - GoT-R1-7B在T2I-CompBench六个评估类别中五个(色彩、形状、纹理、非空间属性、复杂组合)取得最高分,确立新SOTA性能[22][23] - 相比监督微调基线模型(Janus-Pro-7B-GoT),GoT-R1-7B指标提升达15%,纹理和形状保真度显著进步[24] - GPT-4o评估显示GoT-R1在空间关系理解类别以84:16压倒性优势胜出,证明其从根本上优化了模型推理能力[25] 技术实现细节 - GoT依赖840万图像生成样本和92万图像编辑样本构建的大规模推理链图文对数据集,结合Qwen2.5-VL等多模态大模型[10] - 独创语义-空间指导模块(SSGM)增强扩散模型遵循推理链能力[10] - 空间对齐奖励创新性将文本坐标转换为可视化布局供MLLM评估,显著提升空间关系判断准确性[16]
机器人顶会RSS 2025奖项公布!大牛Pieter Abbeel领衔研究获杰出Demo奖
机器之心· 2025-06-25 14:50
RSS 2024获奖论文概览 杰出Demo论文奖 - 提出MuJoCo Playground开源机器人学习框架,支持单GPU分钟级策略训练,简化仿真环境搭建到现实迁移全流程[5] - 框架兼容四足机器人、人形机器人、灵巧手及机械臂等多平台,支持零样本迁移[6] - 技术栈集成物理引擎、批量渲染器与训练环境,由UC伯克利、Google DeepMind等机构联合开发[7][8] 杰出系统论文奖 - 开发SBA公式与XM优化引擎,通过凸半有限规划松弛实现三维重建全局最优解,速度显著提升[13] - XM引擎1小时内处理10,155帧数据达到全局最小值,重建质量优于现有SfM流程[15] - 哈佛大学团队成果,应用于运动结构重建领域[17] 杰出学生论文奖 - 提出Def-MARL算法解决多机器人系统协作安全问题,定义"零约束违反"标准[19][20] - 在8项模拟任务中性能最优,并通过四旋翼飞行器实体实验验证安全性[22] - MIT团队采用集中训练-分散执行架构,提升复杂任务协调能力[24] 杰出论文奖 - 开发FEAST进餐辅助系统,模块化设计支持进食、饮水、擦嘴功能切换[31] - 结合网页界面、头部姿势识别等多模态交互,适应残障用户个性化需求[31] - 康奈尔大学团队成果,参数化行为树架构支持LLM驱动的安全调整[29][32] 时间检验奖 - 2009年论文《Cooperative Manipulation with Aerial Robots》获奖,开创空中机器人协作运输研究[36] - 论文由宾夕法尼亚大学团队发表,奠定多无人机协同操作理论基础[39]
西部证券:运动控制为制约人形机器人商业化落地关键环节 建议关注固高科技(301510.SZ)等
智通财经网· 2025-06-25 14:47
人形机器人运动控制技术 - 人形机器人的运动控制是实现动态步态、精细操作和环境适应的核心技术,涉及硬件设备、软件工具和开发套件的综合应用 [1] - 运动控制包括对机器人关节的精确控制以及整体运动轨迹的规划,为机器人在实际应用中的广泛发展奠定基础 [2] - 基于模型的控制和数据驱动控制方法相辅相成,混合控制方式通过数学模型提供基础框架,数据驱动方法增强适应性和鲁棒性 [3] 人形机器人应用场景与挑战 - 人形机器人具备高度仿人外形、强大感知能力及智能决策能力,可应用于工业自动化、医疗康复、服务零售、危险救援、家庭服务、教育科研等领域 [1] - 随着资本和人才涌入、机器人控制及AI技术迭代,产业快速发展,但大规模商业化仍面临技术、经济和社会等多方面挑战 [1] 运动控制相关受益环节及标的 - 运控系统:固高科技(301510 SZ)、雷赛智能(002979 SZ) [1] - 软件及仿真工具:NVIDIA Isaac Sim、PyBullet、Gazebo [1] - 动作捕捉设备:Xsens、Vicon、凌云光(688400 SH)、诺亦腾 [1] 头部企业运控能力与产业链分工 - 特斯拉Optimus、宇树G1、波士顿动力Atlas等产品因硬件方案差异擅长不同领域,但均展现优秀运控能力 [4] - 运动控制软件算法通常由主机厂自研,硬件本体(控制器、执行器、传感器等)开发可能自研或采购第三方供应商 [4] - 机器人训练相关硬件(动捕设备、遥操设备、仿真工具)多由第三方供应商或开源平台提供 [4]
吉林监管局运输处党支部携手共建单位开展“七一”主题党日活动
中国民航网· 2025-06-25 12:42
党建共建活动 - 吉林机场集团运行指挥中心党委、南航吉林分公司运行指挥部党总支、吉林监管局运输处党支部共同开展"七一共学颂党恩,书香廉纪正党魂"主题党日活动 [1] - 活动通过沉浸式学习、互动式交流、情景式感悟等方式进行,包括参观数字阅读体验区、新语红色视听空间以及VR党建工作站 [2] - 党员借助VR技术"云游"红色教育基地,重走长征之路,并围绕中央八项规定精神展开探讨 [2] 活动内容 - 党员在党建学习园地面向党旗庄严宣誓,重温入党誓言,并开展"初心对话"活动,分享入党故事和工作实际 [2] - 集体观看中国共产党建党主题影片片段,回顾嘉兴南湖红船、革命年代和建设历程 [2] - 党员代表结合岗位实际分享观影感悟 [2] 活动意义 - 活动是三方党组织深化中央八项规定精神学习教育和党建共建的创新实践 [3] - 以文化浸润初心,以纪律锤炼党性,以担当践行使命,为党员上了一堂生动的"行走的党课" [3] - 吉林监管局运输处党支部将继续以党建共建为纽带,携手共建单位守牢安全运行底线,推动吉林民航在高水平安全前提下实现高品质运行 [3]
技术干货:VLA(视觉-语言-动作)模型详细解读(含主流玩家梳理)
Robot猎场备忘录· 2025-06-25 12:21
温馨提示 : 点击下方图片,查看运营团队2025年6月最新原创报告(共235页) 说明: 欢迎约稿、刊例合作、行业人士交流 , 行业交流记得先加入 "机器人头条"知识星球 ,后添加( 微信号:lietou100w ) 微信; 若有侵权、改稿请联系编辑运营(微信:li_sir_2020); 正文: 早期小编整理文章 【技术干货】"具身智能 "技术最全解析 , 本篇文章重点解读现阶段大火的 视觉-语言-动作 (VLA)模型, 一种整合视觉(Vision)、语言(Language)和动作(Action)的多模态模型 。 2022年,Google和CMU相继推出"SayCan"、"Instruct2Act" 工作,Transformer模型既看图、又读指令、还能 生成生成动作轨迹成为可能;2023年,随着谷歌DeepMind推出RT-2模型,机器人可以端到端地从给定的语言指 令和视觉信号,直接生成特定的动作,具身智能领域也迎来了一个新名词: VLA(Vision-Language-Action Model,视觉-语言-动作模型)。 如果说过去十年,机器人领域的焦点先后经历了「看得见」的视觉感知、「听得懂」的语言理解, ...
吴恩达担任董事长,这家公司面向K12学校推出AI智能体
搜狐财经· 2025-06-25 10:49
这家公司的名字,你也许没听过,但这家公司的董事长,想必你一定有所耳闻。 源:Kira Learning官网截图 美国的K12教室也正在通过AI助教进行技术升级。近日,美国教育科技初创公司Kira Learning面向K12学 校推出AI智能体。 图 从左至右:Kira董事长吴恩达、联创兼CEO Andrea Pasinetti、联创Jagriti Agrawal 据介绍,Kira能够高效处理各种教学数据,包括文本、音频、视频和图像,并提供即时反馈。无论是评 估学生的论文、分析课堂讨论,还是评估视频,Kira的AI智能体都能在几秒钟内提供分析,帮助教师做 出更快、更明智的教学决策。 Kira的董事长是机器学习和在线教育领域的先驱吴恩达,他还担任Google Brain创始人、Coursera董事长 兼联合创始人、DeepLearning.AI创始人、AI Fund董事合伙人、斯坦福大学教授和AI研究员。 美国教师也受日常繁琐任务的困扰,这些任务通常会占用教师数小时时间。据介绍,Kira的AI智能体会 执行重复性任务,包括打分、课程规划和课堂讨论分析,还会提供学生哪方面做得好、哪方面有困难的 分析,同时还支持一对 ...
一文读懂深度表格数据表示学习 | 南京大学
量子位· 2025-06-25 08:33
表格数据在AI应用中的重要性 - 表格数据在金融、医疗健康、教育、推荐系统及科学研究领域广泛应用[1] - 表格数据本质上是一种结构化的信息表示方式 在组织与表达复杂数据关系方面具有天然优势[3] 深度神经网络在表格数据建模中的发展 - 深度神经网络(DNN)凭借其强大的表示学习能力 在表格数据建模上展现出潜力[2] - DNN在表格数据相关应用中已取得显著进展 如点击率预测、异常检测、推荐系统与时间序列预测等[6] - 现代深度学习方法在多个方面的改进 推动了DNN在表格数据建模中的复兴 其性能已逐步接近甚至超过传统树模型[6] 表格表示学习方法分类 - 现有方法按泛化能力划分为三大类:专用模型(Specialized)、可迁移模型(Transferable)和通用模型(General)[2] - 专用方法是最早提出、使用最广泛的一类方法 围绕如何从特征层面和样本层面获得高质量表示展开讨论[9] - 可迁移方法基于预训练模型进行学习 能够提升学习效率并降低对算力资源和数据规模的依赖[12] - 通用模型是在可迁移模型基础上的进一步发展 将预训练表格模型的泛化能力扩展到多种异构的下游表格任务中[19] 表格数据建模的核心挑战 - 表格数据通常具有属性类型异质性 包含数值型、类别型或混合型等多种数据类型[4] - 表格数据面临测量噪声、缺失值、异常值、数据不准确以及隐私保护等问题 这些因素加大建模复杂性[4] - 表格数据缺乏空间或序列结构 使得传统深度学习架构难以直接适用[24] - 表格数据对不完整或错误的记录更加敏感 缺失值可能引入显著偏差 严重影响模型预测效果[25] - 许多表格数据集中存在类别分布不均的问题 尤其在分类任务中某些类别样本数量远少于其他类别[27] 表格数据建模的评估方法 - 单任务评估中分类任务常用准确率或错误率 回归任务常用均方误差(MSE)、平均绝对误差(MAE)和均方根误差(RMSE)[33] - 多任务评估早期主要依赖"平均排名"方法 常结合"临界差异比较"一起使用[34] - 近期研究提出更多多样化的评估指标 如算术平均指标、移位几何均值(SGM)误差等[35] - 基准测试应涵盖不同规模的数据集 包括样本量和特征数量较大的数据集以及较小规模的数据集[36] - 带语义的benchmark开始关注结合任务相关的元信息或整合属性名称 如UniTabE、OpenTabs等数据集[38] 模型选择与性能评估 - 模型选择通常在验证集上进行 包含超参数调优和提前停止两部分[41] - 为评估模型的泛化能力 常采用独立的训练/验证/测试集划分 典型比例为64%/16%/20%[42] - 近期研究表明基于固定验证集的超参数调优不够稳定 易导致对验证集过拟合[43] - 对于小规模数据集 已有多种替代评估策略 如重新打乱数据划分可提升泛化性能[43]
ToMAP:赋予大模型「读心术」,打造更聪明的AI说服者
机器之心· 2025-06-24 22:07
大语言模型的说服能力研究 - 顶尖大模型能生成条理清晰的说服语段 在Reddit等平台以假乱真 但缺乏心智感知能力成为发展瓶颈 [3] - 成功说服需精准洞察对方立场和思维过程 即心理学中的「心智理论」(ToM) 当前大模型在对话中缺乏心智感知导致两个缺陷:仅围绕核心论点讨论 无法根据论点联系提出新角度 仅重复己方观点 无法因应对方态度变化调整策略 [4][6] ToMAP模型架构创新 - 引入两大心智模块:反驳预测器通过提示词激活模型预判反对观点的能力 生成的反驳观点与真实被说服者语义高度相似 态度预测器动态评估对方对反论点的态度倾向 使用BGE-M3文本编码器与MLP分类器实现 [9] - 采用强化学习训练模型 说服力得分衡量对方态度变化 并引入格式奖励、重复惩罚等辅助信号优化生成质量 [11] 实验性能表现 - 基于Qwen-2 5-3B的ToMAP在CMV、Anthropic、args me数据集测试中 平均说服效果达17 48 显著优于基线模型和无心智模块的RL版本 超越GPT-4o与DeepSeek-R1等更大参数模型 [14] - ToMAP在10轮长对话中说服力保持稳定增长 而基准模型和常规RL模型说服力随轮次增加趋于饱和或下降 [17] - 训练轨迹显示ToMAP重复度惩罚保持低位 思考长度显著高于基线 更倾向使用理性策略而非情绪煽动 [15][16] 技术突破与行业意义 - ToMAP首次在大模型说服任务中实现对手建模与策略灵活性 通过心智模块使AI具备初步社会认知特征 [19][20] - 该框架证明小模型在适当训练和模块设计下可超越大参数模型 为构建可信AI交流系统提供新思路 [14][21]
生成式视角重塑监督学习!标签不只是答案,更是学习指南 | ICML 2025
量子位· 2025-06-24 21:36
PCL团队 投稿 量子位 | 公众号 QbitAI 生成式视角可以对监督学习重新思考乃至重新定义! 想象你在教一个学生解数学题——你会直接让他交卷对答案,还是会让他参考完整答案来理解解题思路? 如今,一种全新的监督学习范式正受到关注:标签不应只是用于对照回答的标准答案,更可能成为学习过程中的辅助参考。 受生成式一致性模型的启发,来自上海交大、SII、MIT、港中文深圳等机构的研究团队在ICML 2025最新提出预测一致性学习(PCL, Predictive Consistency Learning)。 PCL通过扩散模型的扩散过程消减标签的信息,将噪声标签(Noised Labels)引入模型的输入,使得模型在数据输入和噪声标签的共同参照 下预测完整标签,实现标签信息的复用和价值挖掘。 训练过程概览 传统监督学习中,输入 通过神经网络预测 ,通过对比和标准答案 之间的关系,来计算损失和反向传播更新模型,对应损失函数 $${\mathcal{L}}_{S L}=d(f_{\theta}(\mathbf{x}),\mathbf{y}),$$ 其中 为具体损失函数, 为神经网络函数。受生成一致性模型中一致性映射思想 ...