Workflow
学习
icon
搜索文档
00后投身具身智能创业,剑指机器人界「Model 3」!已推出21个自由度灵巧手
量子位· 2025-06-22 12:46
产品技术 - 灵初智能推出自研灵巧手,每只手21个自由度,支持16主动自由度,具备高精度操作能力,远超常见的6自由度抓取器 [1][2] - 人类一只手27个自由度,特斯拉Optimus Gen-3灵巧手22个自由度,21个自由度意味着机械结构复杂,硬件制造难度高 [3] - 灵巧手在夹持、旋转、精准插拔等精细操作上能力突出,能完成转笔、翻书、调方向等高自由度操作 [1][10] - 公司采用分层端到端快慢脑架构技术路线,快脑S1专注操作,慢脑S2专注推理规划,通过Action Tokenizer隐式连接 [22] - 推出分层端到端VLA+强化学习算法模型Psi-R1,结合历史动作与环境状态,理解动作长期影响,避免误差积累 [22] 团队背景 - 首席科学家杨耀东是北京大学人工智能研究院助理教授,强化学习领域知名学者,曾带领团队获NeurIPS 2022具身灵巧操作冠军 [13] - 联合创始人陈源培师从李飞飞和Karen Liu,曾首次实现强化学习在真实世界同时控制双臂、双手多技能操作 [14] - 团队在机器人领域采用强化学习冷启动训练,解决高自由度训练难度大、开放场景长程任务误差累积、跨任务泛化能力差等挑战 [15][16][17][18][19][20][21] 商业模式 - 目标将机器人整机价格打到10000美元(约71885元)级别,对标特斯拉Model 3定价策略 [3][29] - 自研灵巧手不单卖,采用软硬件深度耦合策略,所有硬件为算法、模型服务,强调系统闭环与数据链条完整性 [26][27] - 整机采用轮式+双手设计,紫色外观,动作系统迭代至Psi-R1,数据逐步积累,任务交付以ToB为主,聚焦3C制造和仓储物流 [4][29][39] 行业对标 - 借鉴特斯拉Model 3产业破局之路,通过降低价格、提升体验推动出货量增长,Model 3累计销量超百万辆 [32][33][34] - 特斯拉硬件+FSD+数据生态一体化构建护城河,灵初智能同样强调可靠硬件平台、一体化软件体验与数据回传机制 [35][36] - 预计2030年硬件成本降至10万元人民币级,单场景出货量突破百万台将触发生态爆发 [37][38]
从RLHF、PPO到GRPO再训练推理模型,这是你需要的强化学习入门指南
机器之心· 2025-06-22 12:26
强化学习技术发展 - 强化学习已成为LLM领域不可或缺的核心技术 覆盖大模型对齐、推理模型训练及智能体强化学习等方向 [1] - Unsloth团队发布强化学习教程 从吃豆人案例切入 系统讲解RLHF、PPO至GRPO的技术演进路径 其开源项目GitHub星数超4万 [2][5] - GRPO(组相对策略优化)由DeepSeek开发 通过移除价值模型、采用多轮采样统计替代传统PPO架构 显著降低显存消耗 [22][25][26] GRPO技术原理 - GRPO核心创新在于用采样答案的Z分数标准化替代价值模型 通过计算8-16次生成结果的平均奖励及标准差生成优势值A [27][28] - 技术优势体现在:支持自定义奖励函数 适用于数学验证/代码执行等场景 显存需求最低仅需5GB(1.5B参数模型) [30][44] - 训练机制采用多答案生成策略(每问题8-16变体) 通过奖励函数动态调整权重 需300-1000训练步数见效 [45][49] 应用场景与案例 - 适用领域包括数学推理(GSM8K数据集)、邮件自动化、法律医学等专业任务 准确率提升依赖可验证的阶段性奖励设计 [30][55][61] - Unsloth提供实战案例:在Qwen3基础模型上实现推理功能 通过邻近度评分、XML标签计数等定制化奖励函数优化输出质量 [62] - 典型奖励函数设计包含关键词匹配(+1)、格式合规性(-1)、答案接近度(梯度奖励)等多维度评估体系 [58][59][60] 实施要点与资源 - 硬件要求:17B参数模型需15GB显存 推荐使用QLoRA 4-bit量化技术降低资源消耗 [44][49] - 关键成功要素包括:500+行训练数据、12小时以上训练时长、基于指令微调的预训练模型(概率非零) [41][49][57] - 学习资源涵盖Nathan Lambert的RLHF专著、Yannic Kilcher视频解析及Unsloth提供的Colab实战笔记本 [63]
强作风担使命建新功 为国家中心城市现代化建设贡献智慧力量
郑州日报· 2025-06-22 08:42
根据提供的新闻内容,该文档主要涉及政府机关的学习教育活动,不包含公司和行业相关信息。因此无法按照要求提取关于公司和行业的关键要点。建议提供包含企业动态、市场数据或行业趋势的新闻素材以便进行分析。
锲而不舍落实中央八项规定精神丨各省管企业推动学习教育不断走深走实—— 在推进高质量发展中展现新作为
河南日报· 2025-06-22 07:20
学习教育开展情况 - 中豫航空集团针对年轻干部开展廉洁教育活动,通过青年理论学习小组研讨、《青年理论学习手册》编发及"青春扬正气 廉洁润初心"警示教育等形式强化理想信念[2] - 河南航空港投资集团分层推进学习:"关键少数"通过班子通读、板块精读、集中研读联动学习,"绝大多数"采用常态学习+警示教育+个人自学模式,"重点群体"(新提拔/年轻/关键岗位干部)开展集体研讨[2] - 豫资控股集团建立"带头学、集中学、专题学、自主学"四学联动机制,结合读书班、理论学习中心组、"三会一课"等形式深化作风建设论述学习[3] 查改整治措施 - 河南资本集团对照2个问题清单排查17个方面问题,制定28项整改举措,并通过"码上提"系统收集集团本部及6家功能性公司意见[4] - 河南交通投资集团实施领导干部违规插手干预重大项目登记报告制度,整治工程招标不规范行为[4] - 中原银行建立问题整改台账,针对17个方面39项具体问题实行挂账销号机制,每周更新进展,同步完善战略方向、改革发展等领域的制度漏洞[4] 数字化转型与治理优化 - 河南水利投资集团打造数字化协同办公平台,整合党建、人力、投资等核心业务数据,减少基层重复填报,实现数据实时同步更新[5] - 豫信电子科技集团优化"善政惠企利民"举措,保障22个已上线"一件事"系统运维,推进2025年15项新"一件事"梳理,并完成638家医疗机构接入医检互认系统[6] 经营机制创新 - 河南投资集团推行创利、创现、创值"三创"导向,建立"职级能上能下、人员能进能出、收入能增能减"三能机制,在54家企业开展存量资产盘活等任务的"揭榜挂帅"行动[6]
当我学会“多巴胺教育”,终于让孩子学习越来越主动,越来越自律
洞见· 2025-06-21 19:25
教育方法 - 文章核心观点是通过"多巴胺"引导法培养孩子的学习习惯,强调共情和鼓励比控制更有效[18][21][23] - 小学阶段未培养学习习惯导致初中成绩下滑,从年级中下游提升至前176名[8][52] - 采用"先共情后鼓励"策略后,孩子学习效率从3小时完成作业提升至与同学相当水平[8][50] 家长行为模式 - 初期采用高压管控导致孩子厌学加剧,出现"摆烂"行为[11][13] - 转型为分享自身失败经历进行共情,例如讲述数学不及格往事使孩子接纳学科难度[35][38] - 建立"精准鼓励"机制,对作业效率、解题成功等具体行为即时反馈[49][50] 学习习惯培养 - 习惯本质是无意识行为,良好习惯可使后期学习效率提升200%[19][20] - 通过每日预习复习+晨间背诵的强制计划失败,反而破坏学习兴趣[12][13] - 正确方法下孩子从"解不出题就放弃"转变为自主寻求进步[39][52] 教育心理学应用 - 多巴胺分泌机制被应用于学习激励,通过价值认可提升行动力[21][46] - 负面标签内化现象:批评会导致孩子固化消极自我认知[43] - 安全感和认知反思是习惯养成的先决条件[40] 学业成果转化 - 初二学年排名176位,达到当地普高录取线(前200名)[10][52] - 学习内驱力显著增强,从被动完成作业到主动设定更高目标[52] - 时间管理与专注力改善,作业耗时减少33%[8][50]
在华外国留学生的毕业季:“这里留下了我们美好的青春回忆”
中国新闻网· 2025-06-21 16:35
国际中文教育行业发展 - 全球85个国家将中文纳入国民教育体系,国际中文学习者和使用者累计超过2亿人 [2] - 195个国家和地区留学生来华求学,学历生比例提升至60%以上 [2] - 印度尼西亚籍留学生翁子伟因两国经贸合作密切选择来华深造汉语国际教育,反映"中文热"在印尼兴起 [1] 在华留学生文化体验 - 留学生通过《红楼梦》主题公园、西湖、拙政园等景点深度体验中国传统文化 [2] - 泰国留学生赵语汐通过毛笔字、戏曲及动画电影《哪吒之魔童闹海》接触中国文化 [3] - 留学生群体对中国影视剧和神话传说表现出浓厚兴趣 [3] 留学生教育交流成果 - 河北师范大学国际文化交流学院吸引多国留学生形成跨文化友谊网络 [1][3] - 留学生毕业回国后普遍计划继续从事中文教育或返华深造 [1][3] - 留学生活创造了包含跨国友谊的青春记忆,增强了对中国的情感联结 [1][3]
Kimi首个Agent开启小范围灰度测试 性能超OpenAI、Gemini
环球网· 2025-06-21 16:15
【环球网科技报道 记者 李文瑶】6月20日晚间,月之暗面Kimi对外宣布发布首个Agent产品Kimi-Researcher(深度研究),并开始小范围灰度测试。 Kimi-Researcher是基于端到端自主强化学习(end-to-end agentic RL)技术训练的新一代 Agent 模型,在HLE测试中,超过Claude 4 Opus、Gemini 2.5 Pro及 OpenAI Deep Research,与Gemini-Pro的Deep Research Agent打平。 从功能来看,Kimi-Researcher 都会自主规划任务执行流程,最终交付完整结果。Kimi-Researcher是一个零结构 Agent,没有复杂的提示词,也没有预设流 程。在动态的环境里,Kimi-Researcher 自己学会了如何思考:当信息冲突时,如何权衡判断;面对任务节点,何时切换工具;哪些中间信息值得保留,哪 些可以舍弃。模型的唯一驱动力,是任务本身是否被真正解决。据其介绍,作为深度研究模型,Kimi-Researcher引入大量数据来源,同时每条引用都能直接 点击追溯,拥有文献严谨性,帮助告别幻觉。 月之暗面 ...
三十余载,这艘“职教航母”将学生送达梦想彼岸
新浪证券· 2025-06-21 16:13
职业教育行业特点 - 职业教育以就业为导向 课程设置直接对接用人单位需求 采用"从岗位倒推课程"模式 [2] - 教学模式高度实践化 如烹饪专业"教室像厨房 考场像餐厅 考官像食客" 理论完全融入实践 [5] - 教师团队多来自行业一线 如星级酒店厨师长 4S店技术总监 互联网大厂工程师等 [7] 中国东方教育运营模式 - 旗下拥有新东方烹饪 新华电脑 万通汽车等7大职教品牌 形成职教航母格局 [1] - 建立产教融合体系 搭建校园到职场的"高速通道" 毕业生就业协议签订率高 [7] - 课程更新机制灵活 每学期调整课表 针对新兴岗位增设专业 如AI 新能源等 [8] 教学创新与行业同步 - 教师团队持续学习前沿技术 如组织AI学习小组 参加行业研讨会 邀请企业专家培训 [8] - 汽车专业引入特斯拉 比亚迪等最新车型教学 教师定期赴车企研发中心进修三电技术 [11] - 建立行业动态共享机制 定期分析技术白皮书和企业用人标准变化 [11] 人才培养体系 - 实施"立德树人 德技并修"理念 注重心理素质 思想道德与专业技能同步培养 [12] - 通过励志教育转化学生 典型案例显示自卑学生经辅导后成为专业尖子 [13][15] - 采用月度考评机制 毕业生普遍具备独当一面的实操能力 部分掌握豆腐雕花等绝活 [7]
月之暗面「调教」出最强Agent,在「人类最后一场考试」拿下最新 SOTA
机器之心· 2025-06-21 13:06
核心观点 - Kimi-Researcher是一款基于自研Kimi k系列模型的自主Agent,擅长多轮搜索和推理,平均每项任务执行23个推理步骤,访问超过200个网址[2] - 该Agent在"人类最后一场考试"中取得26.9%的Pass@1成绩,创下SOTA水平,Pass@4准确率达40.17%[3] - 通过端到端强化学习训练,Kimi-Researcher从初始8.6%的HLE分数提升至26.9%,证明该方法在提升Agent智能方面的潜力[4] - 在xbench-DeepSearch子任务上平均pass@1达到69%,超越其他带有搜索工具的模型[4] - 能够根据模糊信息进行电影识别、学术研究、法律政策分析、企业财报分析等复杂任务[7][8][10] 技术架构 - 基于三个主要工具:并行实时内部搜索工具、基于文本的浏览器工具、自动执行代码的编码工具[13] - 采用端到端智能体强化学习方法,训练单一模型整体性解决问题,融合规划、感知、工具使用等能力[14] - 使用REINFORCE算法训练,引入gamma衰减因子提升效率,鼓励更短更高效的探索路径[24][25] - 设计上下文管理机制,将单条轨迹迭代次数扩展至50次以上,平均提升30%的迭代次数[27][30] 训练方法 - 通过自动合成训练数据解决高质量强化学习数据集稀缺问题[20] - 设计以工具使用为核心和以推理为核心的两类任务,促进智能体深入学习[21] - 开发全自动数据生成与验证流程,确保数据多样性与准确性[21] - 引入Pass@N检查机制,保留具有挑战性的问题[22] - 采用基于最终结果的奖励机制,保持训练环境中的一致偏好方向[24] 性能表现 - 在FRAMES、Seal-0等多轮搜索推理和SimpleQA等事实信息检索基准测试中表现优异[4] - 能够处理超过70次搜索查询的长程任务,上下文窗口长度达数十万token[20] - 展现出谨慎严谨的行为模式,主动进行额外搜索和交叉验证[35] - 具备迭代假设修正与自我纠错能力,可消除多来源信息冲突[35] 部署计划 - 已开始逐步向用户推出,可在Kimi内实现对任意主题的深入全面研究[11] - 计划在未来几个月内开源基础预训练模型及其强化学习模型[11] - 构建了基于Kubernetes的混合云架构,支持多副本部署,确保生产环境容错能力与高可用性[34]
不读成语,不知中文有多神!
首席商业评论· 2025-06-21 11:56
成语是浓缩的历史,能知古鉴今! 比如 "一字千金" 记录着吕不韦的传奇; "一丘之貉" 讲述杨恽如何因言得福; "三顾茅庐" 呈现刘备的爱才… … 每个成语背后,都有着引人思考的故事和令人深思的道理。 成语, 语言表达的丰富性,文学素养 。 今天给大家推荐的这套 《藏在地图里的成语故事》(共4册) ,介绍了一种成语的新玩法—— 将每一个 成语起源地用历史地图与中国当代地图相结合的形式进行地理定位。 可以玩一玩 寻找成语发生地 的游戏,寓教于乐,实现出去走走的真正意义。 试想,当下次游秦岭的时候,或许他会给你讲讲 "终南捷径" 的典故; 到了南京,见到漂亮的"雨花石",他就马上想到 "天花乱坠" 这个成语的由来; 读到 "夜郎自大" ,就能在地图上指出夜郎国位于现在的贵州,还能轻松知道它的反义词是 "虚怀若谷" …… 这样一套有创意的成语读本 (4本成语书+精彩配套音频) ,性价比也很高,定价是 158.8元 ,咱们这儿的 团购价只要 58元包邮 ! 为什么值得剁手? 一套与地图相结合的成语书 01 多学科知识串联成网 这是一套全新的、与地图相结合的成语读本 ,每一个成语故事发生的地点或历史状态都用和成语相关的 ...