Workflow
多阶段推理
icon
搜索文档
晚点独家丨月之暗面探索 o1,跟字节抢来华为刘征瀛
晚点LatePost· 2024-11-28 22:57
编辑丨程曼祺 本月初经历仲裁风波后,月之暗面在 11 月 16 日发布新的 数学模型 k0-math ,当时月之暗面创始人杨植 麟反复提到 "o1":他将 k0-math 的测评评分与 o1 比较,称其思路与 o1 类似——都采用了强化学习和思 维链技术。 o1 是 OpenAI 在今年 9 月发布的新模型,它有更强推理和数学能力。杨植麟曾在 o1 发布后不久的一场演 讲中说,o1 的出现意味着大模型的范式转换:从预测下一个 token 的规模扩展( Next-Token Predictio Scaling)到强化学习的规模扩展(Reinforcement Learning Scaling)。 11 月发布 k0-math 时,杨植麟提了 23 次强化学习,17 次推理,7 次 o1。 文丨王与桐 从成立至今,月之暗面长期被认为是中国大模型创业公司中,技术人才密度颇高的一家。月之暗面现在仍只 有 100 多人,但汇集了杨植麟和周昕宇两位技术背景创始人,杨植麟发表过两篇大语言模型领域重要论文 [1],周昕宇在旷视期间与现在加入另一家大模型独角兽阶跃星辰的张祥雨,一起发表过单篇引用超 9000 次 的卷积神经网络 ...