学习 - 财报，业绩电话会，研报，新闻

学习

搜索文档

晚点独家丨Agent 初创公司 Pokee.ai 种子轮融资 1200 万美元，Point 72 创投，英特尔陈立武等投资

晚点LatePost· 2025-07-09 19:38

以下文章来源于晚点科技，作者晚点团队晚点科技 . 晚一点，好一点今年 4 月，《晚点 LatePost》曾访谈 AI Agent 创业公司 Pokee.ai 创始人朱哲清，他分享了强化学习如何用于构造 Agent 。我们了解到，Pokee.ai 近期完成种子轮融资，募资额约 1200 万美元。投资人包括对冲基金 Point72 旗下风险投资机构 Point72 Ventures、芯片公司高通的风投部门 Qualcomm Ventures，以及英特尔 CEO 陈立武、前 Adobe CTO Abhay Parasnis 和前 Tinder CTO Maria Zhang。 Pokee.ai 去年 10 月成立，最近也只有 7 名员工。创始人朱哲清告诉我们，完成融资后 Pokee.ai 不计划大规模扩招，短期内研发员工数量不会超过 10 人。资金将用于扩张其 Agent 产品 Pokee 的可选工具集、加快对大公司客户销售。创立 Pokee.ai 之前，朱哲清曾任 Meta "应用强化学习" 部门负责人，用强化学习算法改善内容推荐系统，把上任前只剩 3 人，一度要关停的部门扩张至 10 余人，为 ...

AI Agent

强化学习

大型语言模型（LLM）

Artificial Intelligence

Artificial Intelligence

Pokee

5场经典毕业演讲分享：主动驾驭新技术的浪潮

红杉汇· 2025-07-09 19:27

获得智慧是一种道德责任，它不仅仅是为了让你们的生活变得更加美好。你们必须坚持终身学习。如果不终身学习，你们将不会取得很高的成就。光靠已有的知识，你们在生活中走不了多远。离开这里以后，你们还得继续学习，这样才能在生活中走得更远。让伯克希尔在这一个十年中赚到许多钱的方法，在下一个十年未必还能那么管用，所以沃伦·巴菲特不得不成为一部不断学习的机器。我不断地看到有些人在生活中越过越好，他们不是最聪明的，甚至不是最勤奋的，但他们是学习机器，他们每天夜里睡觉时都比那天早晨聪明一点点。孩子们，这种习惯对你们很有帮助，特别是在你们还有很长的路要走的时候。正值毕业季，很多高校会邀请各界的开拓者为同学们带来毕业演讲。他们穿越了各自领域的巅峰与低谷，以过来人的身份回望和分享，不仅是关于"未来""人生"的答案，还有更多值得思考的问题——如何在不确定中寻找确定，如何在碎片化时代保持完整，如何在新技术的浪潮下找到自己的位置，如何与AI共存并发挥人类独特的价值…… 今天，就让我们穿越时间，回顾那些经典的"最后一课"。 01 # 演讲者：查理 · 芒格时间地点： 2007 年，南加州大学毕业典礼总的来说，嫉妒 ...

智谱GLM-4.1V-Thinking登顶HuggingFace Trending全球第一：同尺寸效果最好

IPO早知道· 2025-07-09 18:01

模型性能与突破 - GLM-4.1V-9B-Thinking凭借9B模型尺寸登顶HuggingFace Trending第一 [2] - 该模型在28项权威评测中23项达成10B级模型最佳成绩，其中18项持平或超越72B的Qwen-2.5-VL [4] - 采用"思维链推理机制"和"课程采样强化学习策略"，系统性提升跨模态因果推理能力与稳定性 [3] 多模态能力 - 支持视频理解，可解析最长两小时内容并分析时间、人物、事件和逻辑关系 [4] - 具备图像问答能力，能深入分析图像内容并解答，逻辑能力和世界知识较强 [4] - 支持学科解题，包括数学、物理、生物、化学等学科的看图解题并给出详细思考过程 [4] 应用场景 - 文字识别：准确抽取图片和视频中的文字及图表内容并结构化输出 [5] - 文档解读：对金融、政务、教育等领域文档进行原生理解、抽取、提炼和问答 [5] - GUI Agent：识别网页、电脑和手机屏幕的交互界面元素，支持点击、滑动等指令执行 [5] 技术特点 - 轻量版模型参数控制在10B级别，兼顾部署效率与性能突破 [4] - 融合丰富多模态能力，包括代码生成（基于图片文字内容自动编写前端代码） [5] - 支持Grounding功能，识别图片特定区域并抽取坐标位置 [5]

虎嗅· 2025-07-09 15:57

论文背景 - 论文标题为《反思，重试，奖励：通过强化学习实现自我改进的大语言模型》，由人工智能创业公司Writer的研究团队撰写，联合作者共8人[5][3] - 论文内容简洁明了，仅16页，不同于传统学术论文的复杂风格[4] - 该论文在Hugging Face平台的"每日论文"栏目中排名6月第三位[1][3] 核心研究方法 - 提出三步骤方法让AI从错误中学习：反思、重试、奖励[5][11][12][13] - 与传统方法不同，不依赖更多数据或重新训练，而是教会AI自我改进的能力[8][9][10] - 奖励机制针对AI的反思过程而非最终答案，强化有效的反思方式[13][14] - 该方法使AI获得通用的自我纠错和提升能力，而非死记硬背[15] 实验验证 - 在函数调用任务中，15亿参数模型准确率从32.6%提升至52.9%[20][21] - 在数学方程求解任务中，同一模型准确率从6%提升至45%[23][24][25] - 经过训练的小模型表现超过未训练的大模型：70亿参数模型优于720亿参数模型[27][26] - 证明优化训练方式可使小模型具备强大能力，节省成本[29] 实际应用 - 用户可通过引导AI反思来提升回答质量，如指出错误并要求分析原因[31][32] - 在商业分析等场景中，可提供明确反思方向如"忽略市场风险因素"[33] - 多模型比较方法：让一个AI评估其他AI的回答，再改进自身回答[35][36][37][38] - 通过持续追问和挑战可激发AI产生新思路和更优解决方案[38][39]

AI反思机制

强化学习

Artificial Intelligence

Artificial Intelligence

阿里千问

ChatGPT

Claude

市委常委会召开学习教育查摆问题情况检视交流会：动真碰硬真查实改，推动学习教育走深走实

长江日报· 2025-07-09 15:05

郭元强强调，要坚持从抓作风入手推进全面从严治党，把党的自我革命推向深入。要持之以恒加强党性修养，坚持不懈用党的创新理论凝心铸魂，大力弘扬大别山精神、抗洪精神、抗疫精神，引导党员干部坚定理想信念、铸牢对党忠诚、厚植为民情怀。要强化对干部的监督管理，提高党组织日常监督的穿透力和有效性，突出加强对"一把手"和领导班子的全方位管理和经常性监督，全过程监督权力运行。要坚定不移正风肃纪反腐，深入推进风腐同查同治，坚决铲除腐败滋生的土壤和条件。要发挥领导干部示范带动作用，真正做到严于律己、严负其责、严管所辖，引领全市广大党员干部凝心聚力、干事创业，不断开创武汉高质量发展新局面。会上，市委常委同志紧密联系思想工作实际，针对学习教育个人查摆问题，分别作了检视发言。编辑：代婧怡 7月8日，市委常委会召开深入贯彻中央八项规定精神学习教育查摆问题情况检视交流会，深入学习贯彻习近平总书记关于加强党的作风建设的重要论述，对照中央八项规定及其实施细则精神，围绕查摆问题进行检视剖析，进一步提高思想认识、明确整改措施，推动学习教育走深走实、见行见效，为加快推动"三个优势转化"、重塑新时代武汉之"重"、在支点建设中当 ...

DeepSeek-R1超级外挂！“人类最后的考试”首次突破30分，上海交大等开源方案碾压OpenAI、谷歌

量子位· 2025-07-09 12:57

核心观点 - 上海交大联合深势科技团队在"人类最后的考试"(HLE)上取得32.1分，创下新纪录[2] - 该团队推出工具增强推理智能体X-Master和多智能体工作流系统X-Masters[3] - 研究成果已开源[4] - 使用DeepSeek-R1-0528作为驱动智能体的推理模型[6] - 这是首个在HLE上得分超过30%的系统[26] 技术方案 - X-Master是一个由开源模型驱动的工具增强型推理智能体，模拟人类研究者的动态问题解决过程[9] - 将代码概念化为一种交互语言，在遇到无法解决的问题时编写代码块执行[11] - 引入初始推理引导机制，通过精心设计的自我陈述引导模型[17] - X-Masters采用分散-堆叠式智能体工作流，通过多智能体协作增强推理[20] - 分散阶段：多个求解器智能体并行工作，批评者智能体修正方案[22] - 堆叠阶段：重写器智能体综合方案，选择器智能体裁定最佳答案[22] 性能表现 - 在HLE测试中取得32.1%的最高分[26] - 消融研究显示：工具增强推理提高3.4%，迭代优化增加9.5%，最终选择实现32.1%[29] - 在生物学/医学类别中表现优于现有系统，达到27.6%正确率[31] - 在TRQA-lit生物学测试中取得67.4%的SOTA成绩[32] HLE测试背景 - 由AI安全中心和Scale AI发起，被称为史上最难大模型测试集[34] - 题目来自500多家机构的1000多名学者，需通过大模型和人工双重审查[38] - 最终入围3000多道题目，涵盖数理化、生物医药等八大类[39] - 数学占比42%，物理和生物医药各占11%[39]

工具增强推理

多智能体工作流

强化学习

Artificial Intelligence

Artificial Intelligence

工具增强推理智能体X - Master

多智能体工作流系统X - Masters

Science重磅发现：人类成年后乃至老年时，大脑海马体中仍在持续产生新的神经元，有助于记忆和学习

生物世界· 2025-07-09 12:02

神经科学领域研究进展 - 人类大脑海马体中是否存在成年神经发生是神经科学领域最具争议的问题之一研究评估了从神经干细胞到新生神经元不同阶段的神经发生相关蛋白的存在但不同研究结果存在矛盾 [1] - 2025年7月3日瑞典卡罗林斯卡学院Jonas Frisen团队在Science发表研究提供了人类海马体神经元在成年后持续生成的新证据这一发现为长期争论的问题提供了"盖棺定论"的答案 [2] - 海马体是对于学习和记忆至关重要且参与情绪调节的大脑区域 2013年Jonas Frisen团队已表明成年人大脑海马体中可以形成新神经元通过测量大脑组织DNA中碳-14水平确定神经元形成时间 [4] 研究方法与技术应用 - 研究采用RNAscope和Xenium技术证实新生成的神经细胞位于海马体齿状回区域该区域对记忆形成学习和认知灵活性十分重要 [7] - 通过snRNA-seq测序技术对0-78岁人类海马体进行分析儿童早期发现所有神经祖细胞阶段成年人中通过Ki67抗体和机器学习算法发现增殖的神经祖细胞 [10] - 转录组学数据表明神经祖细胞位于海马体齿状回区域这些发现支持成年人类大脑海马体中存在神经发生的观点 [10] 研究意义与潜在影响 - 研究识别出成年人大脑海马体中神经元的起源细胞证实神经元生成持续进行 [6] - 人类成年神经元祖细胞与小鼠猪和猴子相似但在基因活跃状态方面存在差异个体间差异也很大有些成年人有许多神经祖细胞有些几乎没有 [8] - 这些发现为理解人类大脑在生命过程中如何运作和变化提供重要线索可能对开发刺激神经退行性疾病和精神疾病患者神经发生的再生疗法产生影响 [9]

单细胞核RNA测序（snRNA-seq）技术

单细胞核RNA测序（snRNA-seq）技术

RNAscope技术

吴桂英主持召开市委常委班子集中整治问题整改工作专题会议

长沙晚报· 2025-07-09 11:55

市领导谭勇、陈刚、冯紫英、李铁华、彭华松、陈刚（纪委）、张敏、刘汇、邹特、周敏、曹再兴出席。 7月8日，省委常委、市委书记吴桂英主持召开市委常委班子集中整治问题整改专题会议，强调要深入学习贯彻习近平总书记关于加强党的作风建设的重要论述和中央八项规定及其实施细则精神，以刀刃向内的决心和勇气抓好问题整改整治，更好推动学习教育走深走实、见行见效。会议指出，学习教育开展以来，市委常委同志带头抓、带头促，将问题导向和严的标准贯彻始终，各牵头单位压实整改责任、细化具体安排、提出针对举措，取得了阶段性的积极成效，同时也要清醒看到存在的不足和问题。要进一步提升政治站位、强化责任担当，真查实改、标本兼治，以集中整治成效检验学习教育成果。会议强调，要坚持全面发力，以严抓到底的毅力和韧劲抓好问题整改整治。要聚焦突出问题精准把脉、对症下药，对整改任务"再过筛子"，对整改时限"再紧发条"，对整改举措"再下实功"，提高问题整改针对性实效性。要强化统筹兼顾全面整改、系统施治，把抓好学习教育集中整治与落实习近平总书记关于湖南工作的重要讲话和指示批示精神贯通起来，与抓好中央和省委巡视交办问题整改、民主生活会查摆问题整改 ...

4B小模型数学推理首超Claude 4，700步RL训练逼近235B性能 | 港大&字节Seed&复旦

量子位· 2025-07-09 09:18

模型性能突破 - Polaris通过Scaling RL技术使4B模型在数学推理任务（AIME25得分79.4，AIME24得分81.2）超越商业大模型如Claude-4-Opus和Seed-1.5-thinking [1] - 仅用700步RL训练即让Qwen3-4B接近其235B版本的表现 [5] - 模型轻量化设计支持消费级显卡部署 [2] 训练方法论创新 - 提出"镜像J"数据分布理论：构建轻微偏向难题的分布可优化不同能力基模型的训练效果 [10] - 采用动态数据更新策略：删除训练过程中准确率过高的样本以维持挑战性 [13] - 实现多阶段温度调整：通过控制探索区温度初始化，动态维持60分多样性水平 [32][33] 技术实现细节 - 引入长度外推技术：应用YaRN方法将32K以上长文本准确率从26%提升至50% [41][43] - 优化采样温度区间：划分鲁棒生成区/控制探索区/性能崩塌区，打破t=0.6或1.0的行业惯例 [28] - 采用渐进式上下文窗口扩展：Qwen3-4B需直接从40K长度启动训练以避免性能塌陷 [52] 开源生态建设 - 完整公开训练数据/模型/代码，包括Huggingface模型库和GitHub仓库 [3][53] - 验证Scaling RL对前沿开源模型（如Qwen3）的普适性提升效果 [5] - 提出token利用效率概念：不同基模型对响应长度的敏感度存在显著差异 [51]

斯坦福毕业，用RL做Agent，华人创业团队种子轮融资1200万美元

机器之心· 2025-07-09 08:50

机器之心原创作者：Youli Pokee AI 公开测试版现已正式上线！「哈喽，可以听到吗？」北京时间上午 10 点，大洋彼岸的 Pokee.ai 创始人朱哲清接通了我们的连线电话，此刻他正位于美国西海岸，当地时间为前一日晚上 7 点。用他的话说最近的状态就是「忙」，非常忙。忙着发布 Agent 产品 Pokee AI 的公开测试版，忙着处理第一轮融资的各种后续事宜，忙着对核心 4 人组团队「扩张」至 7 人，忙里偷闲在小红书庆祝自己 29 岁生日，并在评论下认真回复网友提问…… 「忙」，或许不是从最近开始的，往前数 200 多天，那时候也「忙」。忙着成立 Pokee.ai，忙着与 100 多位投资人聊如何用强化学习模型构建 AI Agent，忙着准备产品内测。再往前数到 2017 年，依旧是「忙」。一边忙着在斯坦福攻读强化学习方向博士学位。一边忙着在 Meta 工作，带领团队将强化学习落地到广告竞价、自动内容生成等业务，为公司带来高额增收。朱哲清似乎已经习惯了「忙」。可他说，创业虽然忙，但有了更多的时间去思考，这是一种全新的体验…… 创业是从去年 10 月开始的，公司名为 Pokee. ...

AI Agent

强化学习（RL）

Artificial Intelligence

Pokee AI

AI Agent

强化学习（RL）

Artificial Intelligence

Pokee AI

Previous Next