AI 编程冲击来袭，程序员怎么办？IDEA研究院张磊：底层系统能力才是护城河

多模态智能体的发展现状与挑战 - 实现智能体"看懂、想透、做好"需整合视觉理解、语言推理与物理执行能力，是多模态领域的核心挑战 [5] - 视觉输入维度极高且涉及三维结构理解，需结合交互知识（如物体操作判断），当前技术距离理想目标仍有差距 [6] - 空间智能对机器人操作至关重要，但现有视觉-语言-行动模型（VLA）因缺乏物体精确定位，实际成功率远低于实用水平 [7][8] 技术落地的可行路径 - 从"半结构化"场景（如产线灵活操作）切入是务实选择，介于高重复性结构化与全开放环境之间 [11] - 工业场景中，危险操作或遥操作结合智能的闭环迭代可驱动技术进步，但家庭等开放环境落地需超5年时间 [10][11] - 视觉与三维表征方法尚未统一，斯坦福团队主张三维内部表示是建模关键，但技术鸿沟仍需逐步填补 [9] 工业界研究的平衡之道 - 研究价值评估需兼顾学术与应用双维度，避免仅追求论文发表而忽视实际问题解决 [12] - 产品开发与研究探索节奏差异显著，需给予研究人员探索空间，同时确保方向与产品关联 [14] - 目标检测等基础问题仍存挑战，突破后将带来广泛价值，需坚持本质问题研究而非跟风热点 [13] 人才培养与底层能力 - 系统级能力（如分布式计算、GPU架构优化）比模型调参经验更关键，FlashAttention案例显示基础优化可推动领域进步 [17][18] - 计算机科学基础学科训练优于过早专攻应用方向，扎实的体系结构理解能适应技术迭代 [20] - AI时代程序员需超越基础编码，通过协作提升编程深度，聚焦AI无法替代的贡献 [19][20] 行业会议与趋势聚焦 - AICon大会聚焦Agent、多模态等方向，探讨大模型降本增效案例，反映企业级AI应用趋势 [3][21]