Workflow
多模态大模型
icon
搜索文档
锦秋基金被投公司「生数科技」完成新一轮数亿元A轮融资 | Jinqiu Spotlight
锦秋集· 2025-09-19 10:17
锦秋基金,作为12 年期的 AI Fund,始终以长期主义为核心投资理念,积极寻找那些具有突破性技术和创新商业模式的通用人工智能初创企业。 锦秋基金于2023年年中投资了生数科技,是生数科技的早期机构投资人 。 近日, 生数科技 完成新一轮 数亿元人民币规模的A轮融资 。该轮融资由博华资本领投,百度战投、北京市人工智能产业投资基金、启明创投、达泰资本、卓 源亚洲、BV百度风投等老 股东持续 跟投,建发新兴投资等产业合作方加码跟投。 以下为此次融资的相关新闻。 9月9日,生数科技全球上线Vidu Q1参考生图, 在多主体一致方面持续全球领先 生数科技往期里程碑 未来,生数科技将继续坚持以技术为核心驱动力,通过创新的产品与服务,助力全球每一个人与组织提升生产力和创造力! (完) 近日, 生数科技 完成新一轮 数亿元人民币规模的A轮融资 。该轮融资由博华资本领投,百度战投、北京市人工智能产业投资基金、启明创投、达泰资本、卓 源亚洲、BV百度风投等老 股东持续 跟投,建发新兴投资等产业合作方加码跟投。 生数科技成立于2023年3月,核心团队由来自清华大学、北京大学、帝国理工学院、卡耐基梅隆大学等全球顶尖高校的技术人才 ...
星动纪元招聘!具身多模态、强化学习等多个方向
具身智能之心· 2025-09-17 08:02
点击下方 卡片 ,关注" 具身智能 之心 "公众号 职位描述 职位要求 加分项 职位描述 职位要求 1. 多模态强化学习算法研究与开发: 负责前沿多模态强化学习算法的研究、设计和实现,解决实际应用中的 复杂问题。 2. 模型训练与优化: 负责多模态大模型的训练、微调和优化,以提升模型在不同任务上的性能。 3. 多模态数据处理与分析: 负责多模态数据的收集、处理、清洗和分析,构建高质量的训练数据集。 4. 技术文档撰写与分享: 撰写相关技术文档,分享研究成果,并与团队成员进行技术交流和协作。 1. 强化学习(RL): 深入理解强化学习基本原理,熟悉主流 RL 算法(如 PPO、GRPO、DAPO 等)。 2. 多模态学习: 深入理解多模态学习的原理和技术,熟悉多模态融合、跨模态对齐等技术。 3. 大模型(LLM/LVM): 深入理解大模型的架构和训练原理,熟悉 Transformer 结构,了解预训练、微 调、提示工程等技术。 4. 计算机视觉/自然语言处理: 具备扎实的 CV 或 NLP 基础,了解主流模型(如 ViT、DINO、LLaMA 等),并具备相关项目经验。 1. 在顶级学术会议(如 NeurIPS ...
大模型初创公司出海,云计算护航丨创新场景
钛媒体APP· 2025-09-16 17:42
行业背景与市场动态 - 2024年初Sora的问世将AI视频生成赛道推向全球焦点,使该领域从“实验创意”阶段提升至战略高地[3] - 全球科技巨头纷纷入局AI视频生成赛道,吸引了大量资本和媒体关注[3] - 在短视频平台上,只有不到10%的用户会创作或发布视频,大部分用户存在拍摄和剪辑的心理门槛[4] 爱诗科技业务发展 - 公司自2023年创立以来一直布局海外AI视频市场,现已推出第六代视频大模型PixVerse[3] - 在短短两年间,用户量已突破6000万,成为全球用户规模最大、生成速度最快、质量最高的视频大模型之一[3] - 公司采用模块化提示词模式,降低用户使用门槛,使全体用户都能获得较好的使用体验[13] 技术架构与挑战 - 公司采用Diffusion+Transformer架构,需要处理大量视频、文本和元数据[6] - 面临三大技术挑战:海量训练数据的迁移与归集、实时数据处理能力提升、优化资源利用效率[4] - 多模态大模型对GPU显存和并行计算能力要求较高,需要处理跨模态数据交互和高性能缓存[13] - 由于全球化布局,数据分散在世界各地,需要解决跨区域数据传输和统一管理问题[5] 云计算合作解决方案 - 选择阿里云作为全球化云服务商,利用其在全球29个地域运营的89个可用区[9] - 通过阿里云多EIP和共享带宽提升公网下载速度,使用OSS实现全球数据加速分发和容灾备份[9] - 采用阿里云实时数仓Hologres支持PB级数据分析,满足实时数据和高并发需求[9] - 使用阿里云人工智能平台PAI进行大模型训练,实现灵活的细颗粒度资源管控和高效调度[10] 效率提升与成本优化 - 通过阿里云CADT实现分钟级GPU云服务器部署和业务上线,显著降低管理难度和时间成本[14] - 阿里云通过数据加载优化和ACCL通信库大幅提升GPU利用率,提高AI作业效率[13] - 采用标准化云资源调度系统,帮助公司实现全球资源调度,确保跨国业务体验一致性[11] - 云服务合作使公司能够以更小硬件成本获得更大算力供给,提升资源利用率[10] 未来合作规划 - 公司与阿里云将深化云资源合作,扩大在云计算、数据存储及大模型应用等多个领域的合作[15] - 合作目标是为全球AI视频生成用户提供更加稳定、高效的服务,推动技术持续发展[15]
登顶苹果应用榜!谷歌火遍全网的“纳米香蕉”,凭啥击败ChatGPT?
证券时报· 2025-09-16 15:54
谷歌市值冲上3万亿美元的同时,旗下的"杀手级"AI应用也超越ChatGPT,成功登顶苹果应用榜第一 名。 最新数据显示,在美区AppStore中,谷歌旗下大模型应用Gemini的下载量已超过OpenAI的ChatGPT,成 为免费榜排名第一的应用。此外,在加拿大、印度、摩洛哥等国家,Gemini同样实现了登顶,打破了 ChatGPT自发布以来长期的垄断地位。 再比如,输入提示词"将我手中的物体变成3D透明线条艺术全息图",Nano Banana也能准确地理解提示 词的含义。 | | Top Charts | All Apps | | --- | --- | --- | | Free Apps | | Paid Apps | | 1 | Google Gemini | | | Your Al assistant | | | | from Google | | | | 2 | ChatGPT | | | The official app | | | | by OpenAl | | | | Threads | | | | | Connect and share ideas | | | 1 | X | | | Bre ...
登顶苹果应用榜!谷歌火遍全网的“纳米香蕉”,凭啥击败ChatGPT?
证券时报· 2025-09-16 15:51
谷歌Gemini应用市场表现 - 谷歌旗下AI应用Gemini在美区AppStore下载量超越ChatGPT,登顶免费榜第一名 [1][2] - 除美国外,Gemini在加拿大、印度、摩洛哥等国家同样实现下载榜登顶,打破ChatGPT长期垄断地位 [2] Nano Banana技术突破与用户增长 - 谷歌DeepMind发布新一代AI图像生成与编辑模型Gemini 2.5 Flash Image,代号Nano Banana,在图像质量、编辑控制和应用场景上有大幅改进 [4] - Nano Banana功能上线后累计完成超2亿次图像编辑,并带动超1000万新用户尝试Gemini应用 [4] - 技术层面实现四大提升:自然语言驱动图像编辑、角色一致性与场景融合、多图融合与世界知识注入、降低3D建模门槛 [4][5] - 用户体验范式重构,实现从复杂工具栏到一句自然语言、从渲染缓慢到秒级出图、从效果不稳定到跨图一致性等突破 [9] 资本市场反应与行业影响 - 受益于反垄断裁决结果好于预期及Nano Banana市场表现,谷歌股价持续上涨,市值冲上3万亿美元 [1][9] - 花旗集团分析师将谷歌母公司Alphabet目标价从225美元上调至280美元,理由是Gemini在广告与云业务中采用加速,产品开发周期更快 [9] - Nano Banana火爆点燃图像生成视频赛道战火,国内厂商如字节跳动Seed团队推出豆包图像创作模型Seedream 4.0,生数科技推出Vidu Q1参考生图功能正面对标 [10] - 华泰证券认为原生多模态模型架构获业界认可,多模态为主的产品商业化快于文本产品,多模态大模型和应用发展奇点将至 [10] 多模态AI投资机会 - 多模态在算力和应用两方面带来投资机会:算力侧,原生多模态模型需要更多算力,视频推理算力需求远大于文字 [11] - 应用侧,国内视频生成模型领先,广告、零售、创作、教育等领域均有AI化需求 [11]
明略科技CEO吴明辉即将出席2025腾讯全球数字生态大会
新浪财经· 2025-09-16 11:14
行业趋势 - 全球大模型技术加速演进,行业应用逐步走向纵深 [1] - 通用大模型在专有数据、行业知识方面存在局限性 [1] - 垂类大模型正成为企业AI落地的破局关键 [1] 公司动态 - 明略科技CEO吴明辉将于9月16日下午亮相腾讯全球数字生态大会“互联网AI应用专场” [1] - 公司将发表主题演讲《多模态大模型在营销场景的落地实践》 [1] - 演讲将分享明略科技最新技术突破与实战成果 [1]
论文解读之港科PLUTO:首次超越Rule-Based的规划器!
自动驾驶之心· 2025-09-16 07:33
PLUTO模型技术架构 - 采用典型的两段式网络架构作为端到端自动驾驶的Planner模型 [1] - 不基于BEV特征图进行下游控制任务,而是直接对感知输出的结构化信息(如边界框、车道线等)进行编码 [1] - 将编码后的结构化信息作为序列标记输入到解码器中 [1] - 二段式端到端架构非常适合新人入门练手 [1] PLUTO模型训练机制 - 包含三个主要损失函数,主任务损失由回归损失和分类损失共同组成模仿学习损失 [7] - Agent轨迹预测损失有专门设计 [7] - 添加了多个辅助损失以帮助模型收敛 [9] 端到端自动驾驶技术发展趋势 - 端到端自动驾驶已发展出多个技术方向,需要掌握多模态大模型、BEV感知、强化学习、视觉Transformer、扩散模型等知识 [13] - 技术发展迅速,去年的技术方案已不适合当前环境 [13] - VLA(视觉语言动作)范式是当前端到端自动驾驶的皇冠,上限高但难度大,行业招聘需求旺盛 [29] - 基于扩散模型输出多模轨迹成为学术界和工业界追捧的热点,多家公司尝试落地 [26] 课程内容体系 - 第一章介绍端到端算法发展历史,涵盖从模块化方法到端到端的演变,分析一段式、二段式和VLA范式的优缺点 [20] - 第二章重点讲解端到端涉及的背景知识,包括大语言模型、扩散模型、强化学习、BEV感知等,这些是未来两年求职面试频率最高的技术关键词 [20][21][27] - 第三章聚焦二段式端到端,分析经典算法PLUTO、CVPR'25的CarPlanner和最新工作Plan-R1 [21] - 第四章涵盖一段式端到端与VLA,包括基于感知的方法(UniAD、VAD、PARA-Drive)、基于世界模型的方法(Drive-OccWorld、OccLLaMA)、基于扩散模型的方法(DiffusionDrive、Diffusion Planner、DiffE2E)和基于VLA的方法(ORION、OpenDriveVLA、ReCogDrive) [22][24][26][29] - 第五章设置RLHF微调大作业,提供预训练模块和强化学习模块的搭建实践 [31] 课程特色与目标 - 基于Just-in-Time Learning理念,通过通俗易懂的语言和案例帮助学员快速掌握核心技术栈 [15] - 帮助学员构建领域框架,梳理端到端自动驾驶研究发展脉络,形成自己的研究体系 [16] - 理论结合实践,配备实战环节完成从理论到实践的完整闭环 [17] - 学完课程能够达到1年左右端到端自动驾驶算法工程师水平,掌握端到端技术框架和关键技术 [36] - 可复现扩散模型、VLA等主流算法框架,将所学应用到实际项目中 [37]
关于大模型和自动驾驶的一切
自动驾驶之心· 2025-09-16 07:33
大模型技术社区定位 - 平台专注于大模型RAG、大模型AI Agent、多模态大模型(预训练、微调、强化学习)和大模型部署推理优化等技术方向 [1] - 社区致力于构建国内最大的大模型技术社区 持续为行业和个人输送人才及产业学术信息 [1] - 社区定位为培养未来领袖的地方 强调内容质量和人才培养 [2] 社区发展目标 - 快速搭建相关技术模块 吸引对大模型技术感兴趣的人群加入 [1] - 通过知识星球形式深化学习 提供进一步技术交流平台 [1] - 借助自动驾驶VLA等热点技术趋势推动大模型技术普及 [1]
全新开源模型复现o3视觉推理,无需大量训练即可实现深度思考
量子位· 2025-09-15 11:59
OpenAI o3的多轮视觉推理,有开源平替版了。 并且,与先前局限于1-2轮对话的视觉语言模型(VLM)不同,它在训练限制轮数只有6轮的情况下,测试阶段能将思考轮数扩展到 数十轮 。 不圆 发自 凹非寺 量子位 | 公众号 QbitAI 这个模型叫Mini-o3,它无需消耗大量训练周期资源,通过恰当的数据、初始化方法和强化学习微调,即可实现长周期视觉搜索能力。由字 节、香港大学团队联合开发。 跨越数十个步骤的深度推理 最近的多模态大模型虽然能通过"图像工具+强化学习"处理视觉问题,但现有开源方案存在很大的短板: 比如推理方式单调、交互轮次受限、遇到需要反复试错的复杂任务就束手无策。 而Mini-o3突破了上述局限——它能够进行 长达数十个步骤的深度多轮推理 ,在高难度视觉搜索任务中达到了当前最佳水平。 这得益于它的三个关键设计: 第一,研究团队构建了视觉探测数据集VisualProbe,包含数千个专为探索式推理设计的视觉搜索难题; 第二,开发了迭代式数据收集流程,让模型能学会深度优先搜索、试错探索、目标维持等多样化推理策略; 第三,提出超轮次掩码策略,在强化学习中避免对达到最大交互轮次的响应进行惩罚,从而平 ...
招聘几位大佬,打算共创平台(世界模型/模型部署)
自动驾驶之心· 2025-09-14 11:44
业务拓展计划 - 公司计划在国内外招募10名业务合伙人[2] - 合伙人将负责自动驾驶相关课程研发、论文辅导业务开发及硬件研发[2] 技术研究方向 - 重点关注大模型/多模态大模型、扩散模型、VLA、端到端自动驾驶技术[3] - 涉及具身交互、联合预测、SLAM及3D目标检测领域[3] - 布局世界模型、闭环仿真3DGS、大模型部署与量化感知推理等前沿方向[3] 人才招募标准 - 要求应聘者来自QS200以内高校且具有硕士及以上学历[4] - 优先考虑拥有顶会论文发表记录的候选人[4] 合伙人待遇 - 提供自动驾驶行业资源共享包括求职、读博及出国留学推荐[5] - 设置丰厚的现金激励机制[5] - 开放创业项目合作与推荐机会[5]