百度视觉技术部多模态感知与理解招聘(社招/校招/实习)
自动驾驶之心·2025-09-04 07:33
招聘岗位: 工作职责: 1. 校招/社招/实习(可转正) 2. Base 北京/深圳 1. 前沿算法研发: 负责文心一言在视频理解方向的算法研究与开发,探索和实现世界领先的(SOTA)视 频理解模型。 2. 核心任务攻关: 聚焦于一项或多项核心视频理解任务,包括但不限于: 视频问答 (Video QA) & 对话: 实现模型对视频内容的深度推理和对话能力。 视频描述/摘要生成 (Video Captioning/Summarization): 让模型能用自然语言精准描述或概括视频内 容。 时序行为定位与识别 (Temporal Action Localization & Recognition): 精准识别视频中人物的行为及 其发生的时间段。 视频主题/事件检测 (Video Topic/Event Detection): 对长视频进行结构化分析,理解其核心主题与关 键事件。 3. 大规模数据构建: 负责视频理解所需的大规模、高质量多模态数据集的构建,包括数据采集、清洗、 标注和管理策略的制定与执行。 4. 大规模训练: 负责视频理解大模型的分布式训练、微调和性能优化,解决训练过程中的效率和收敛性 挑战。 5 ...