ShuffleNet - 财报，业绩电话会，研报，新闻

ShuffleNet

搜索文档

自动驾驶之心· 2025-06-30 20:33

作者 | hzwer 黄哲威编辑 | 自动驾驶之心原文链接： https://zhuanlan.zhihu.com/p/627032371 点击下方卡片，关注" 自动驾驶之心 "公众号戳我-> 领取自动驾驶近15个方向学习路线 >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球本文只做学术分享，如有侵权，联系删文以下内容后续更新在：https://github.com/hzwer/WritingAIPaper 导语 2021年来，笔者在多次论文被拒稿期间，开始研究和反思顶会论文生产到投稿的全流程，并全程参与了十几篇论文的审稿。近一年笔者有三篇论文录用 (笔者主页)，总共投了 5+4+1=10 次，其中感悟颇多。本文希望结合经历回顾，为新手提供一个指南，提高论文的质量和命中率。本文深度参考了计算机科学家 Simon Jones 的《How to write a great research paper》和北京大学施柏鑫老师的《从审稿人视角，谈谈怎么写一篇 CVPR论文》。本文有 pdf 版本，全文 5k 字，求点赞求收藏（论文生产发表流程为了方便读者理解，先科普一下一般的深度学 ...

论文创新性

论文写作

论文投稿

Artificial Intelligence

Artificial Intelligence

MXNet

ShuffleNet

专访张祥雨：多模态推理和自主学习是未来的 2 个「GPT-4」时刻

海外独角兽· 2025-06-08 12:51

多模态大模型发展现状 - 阶跃星辰发布中国首个千亿参数原生多模态大模型Step-1V 基于业内最早的图文生成理解一体化框架DreamLLM [3] - 多模态领域预计未来2-3年将迎来两个GPT-4时刻：多模态推理和自主学习 [3] - 当前多模态生成理解一体化面临四大挑战：语言对视觉控制能力弱图文对齐不精确数据质量有限生成模块无法反向影响理解模块 [3] 计算机视觉领域瓶颈 - CV领域长期缺乏类似NLP的GPT时刻主要受限于数据标注依赖和自监督方法局限性 [13][15] - 对比学习和MIM等方法在小模型有效但缺乏scale up特性因其学习的不变性来自人工设计而非数据驱动 [16][18][19] - 静态图像数据存在本质缺陷：生成理解与人类对齐三者割裂难以实现智能质变 [24][25][26] 多模态技术突破方向 - 短期解决方案是利用图文对齐数据通过文字的自闭环特性赋予模型智能能力 [27] - 长期需探索视频和具身系统视频数据蕴含更丰富信息但利用难度更高 [27] - 生成理解一体化需先解决视觉空间CoT问题当前action space过于受限 [55][56] 大模型训练范式演进 - Next Token Prediction存在本质缺陷：更大模型在数学等推理任务上表现反降因倾向跳步且优化目标与任务目标存在gap [38][40][42] - Rule-based RL通过直接优化任务目标可抑制跳步并强化稳定思维路径 [44] - o1范式突破在于激发Meta CoT 允许模型在关键节点反悔重试使推理从单线变为图状结构 [44][53] 多模态数据影响 - 图文混排训练中生成模块产生的gradient噪声大且信息量低可能破坏语义理解 [62] - 高质量多模态数据应确保图文强相关避免无关数据导致模型confuse [63][64] - 视频数据蕴含丰富思维过程但清洗难度大是扩展action space的重要方向 [65][66] 未来技术趋势 - 多模态GPT时刻预计1年内到来需解决生成可控性和视觉空间推理问题 [68][69] - 当前long context方案存在注意力涣散问题未来可能采用multi-agent分层记忆架构 [69][73][74] - 模型自主学习是ASI关键路径需解决环境scaling和自然语言反馈利用问题 [78][80][82]

多模态推理

自主学习

next token prediction

next token prediction

o1 范式

思维链