Gemini Pro

搜索文档
大模型无法真正理解视频,GPT-4o正确率仅36%,南洋理工大团队提出新基准
量子位· 2025-08-01 15:19
视频大型语言模型(Video LLMs)研究进展 - 视频大型语言模型展现出精准描述视频内容、回答相关问题的能力,接近人类级理解力[1] - 核心争议在于模型是否真正"理解"视频内容,还是仅进行高级"模式匹配"[2] - 南洋理工大学S-Lab团队提出Video Thinking Test(Video-TT)基准测试,旨在分离"看"与"想"的能力,精准测量AI的真实理解和推理水平[3] Video-TT测试设计原理 - 现有视频理解基准测试存在根本缺陷:无法区分模型因"没看清"或"没想明白"而犯错[9] - 传统长视频评测存在"帧采样悖论":模型因计算资源限制只能稀疏采样,性能下降可能反映采样策略失败而非理解能力不足[12][13] - 传统短视频评测存在"天花板幻觉":模型因能看完所有帧表现接近人类,但实际仍缺乏深度推理能力[15][16] - Video-TT创新点:选用1000条YouTube短视频,统一80帧采样,确保评测焦点从"采样效率"转向"理解深度"[16] 测试维度与问题设计 - 构建视觉复杂度(Visual Complexity)和叙事复杂度(Narrative Complexity)两大核心维度[18] - 视觉复杂度包含:模糊与非常规内容、运动速度、时空布局、视错觉四个子维度[19] - 叙事复杂度包含:复杂情节、叙事剪辑、技术性剪辑、世界知识四个子维度[19] - 问题设计强调激发"思考",需依赖上下文、原因和场景进行推理,例如需要世界知识回答"视频中的女士在模仿什么行为"[17][22] 模型性能评测结果 - 人类基准表现:正确性84.3%,鲁棒性64.4%,显著领先所有AI模型[29] - GPT-4o作为SOTA模型,正确率仅36.6%(不足人类一半),鲁棒性36.0%[30] - 开源模型在开放式问题上与GPT-4o差距显著,显示现有基准测试可能因侧重选择题高估模型能力[31] - 主要错误集中在复杂情节(Complex Plot)和世界知识(World Knowledge)相关任务[34] AI模型核心弱点分析 - 时空混淆:难以处理物体计数(如动态相框追踪)和序列定位(如多事件场景排序)[36][37] - 常识缺失:无法理解角色动机与情感(如银牌得主的失望情绪)等社会心理知识[38][39] - 复杂情节理解失败:难以建立跨场景因果关系(如棒球破坏房屋导致押金扣除的推理)[40][41] 研究团队与数据资源 - 主要作者包括南洋理工大学博士生张元瀚、董宇昊,通讯作者为助理教授刘子纬[6] - 论文与数据集已公开:论文链接(arXiv:2507.15028)、Hugging Face数据集、项目主页[42]
ICML 2025|多模态理解与生成最新进展:港科联合SnapResearch发布ThinkDiff,为扩散模型装上大脑
机器之心· 2025-07-16 12:21
多模态理解与生成技术进展 - 当前文本到图像生成技术如Stable Diffusion和Flux缺乏真正的多模态推理能力,难以理解图像与文本的复杂逻辑关系[1] - OpenAI的GPT-4o和Google的Gemini Pro展示了强大能力,但依赖超大规模参数和算力资源[2] - 香港科技大学与Snap Research提出的ThinkDiff方法,仅需少量数据和数小时训练即可实现多模态推理式生成[3] ThinkDiff核心技术 - 核心创新在于将视觉语言模型(VLM)的推理能力迁移至扩散模型,结合两者优势实现高质量生成[7] - 利用LLM与Diffusion共享特征空间的特性,通过代理任务将VLM与LLM解码器对齐[9][11] - 采用掩码训练策略强制对齐网络深度理解多模态信息,避免特征对齐走捷径[15] 模型架构与变体 - ThinkDiff-LVLM版本继承大型视觉语言模型的多模态理解能力[16] - ThinkDiff-CLIP版本强化文本图像组合能力,可扩展至视频生成领域[16][34] - 网络设计关键:对齐VLM自回归生成的tokens特征而非输入tokens,实现真正的推理能力传递[15] 性能表现 - 在CoBSAT基准测试中全面领先:Color-I准确率0.638(较SEED-LLaMA提升32.4%),Action-II准确率0.664(提升220.8%)[19] - 训练效率显著:仅用4块A100训练5小时即达0.463平均准确率,远优于需64块A100训练216小时的SEED-LLaMA[21] - 定性测试显示其生成质量与商业模型Gemini相当,且具备视频生成扩展能力[25][34] 行业影响 - 突破性解决低资源环境下的多模态推理难题,为学术研究和工业应用提供新路径[3][36] - 开创扩散模型理解复杂图文组合的新范式,显著提升生成式AI的语义理解深度[7][15] - 技术方案具备高度可扩展性,可适配不同VLM架构并延伸至视频生成领域[16][34]
谷歌挖人,Cognition收产品:Windsurf被“一拆二卖”
36氪· 2025-07-15 18:38
收购交易核心信息 - Cognition公司正式签署协议收购AI开发编程公司Windsurf 具体金额和条款未公开[2] - 收购内容包括Windsurf核心产品 品牌以及剩余团队 此前Windsurf CEO及共同创始人已通过24亿美元技术与许可交易加入谷歌[2][5] - 谷歌支付24亿美元薪酬与许可费用获得部分Windsurf技术的非独占许可 该交易不涉及股权投资或全面收购[5] 产品整合与战略方向 - 重点整合Cognition自主AI工程师Devin与Windsurf的IDE 新产品支持单一界面内任务规划 AI智能体代码生成及拉取请求审核[2] - Devin具备自动修复bug 部署应用等能力 将深度嵌入Windsurf IDE 实现从任务规划到代码审查的完整工作流[8] - 整合平台将重复性任务交由AI智能体执行 保留开发者对核心架构决策的控制 构建人类与AI协同系统[8] 市场竞争格局 - 合并后实体直接对标GitHub Copilot Replit Cursor等AI编程平台 面临谷歌Gemini和微软VS Code"智能体模式"的竞争[8] - OpenAI曾于5月与Windsurf进行30亿美元收购的独家谈判 但谈判最终破裂[5] 公司运营与财务表现 - Windsurf保持季度收入翻倍增长趋势 拥有数十万日活跃用户[4] - Cognition凭借3亿美元融资和40亿美元估值 营收增速已超过Windsurf[10] - Windsurf大部分核心成员将留任 继续推动产品在企业市场落地[9] 合作关系变动 - Anthropic于6月撤销Windsurf对Claude 3系列模型的API访问权限 导致Windsurf转向第三方推理模型提供商并限制免费用户访问[6] - 此次交易意外修复Windsurf与Anthropic的合作关系[8]
特朗普AI计划在GitHub上泄露,网友怒喷用AI代码“治国”!
AI前线· 2025-06-16 15:37
AI.gov项目泄露事件 - 特朗普政府AI发展计划的核心代码库"AI.gov"在GitHub上意外泄露,后被移至归档项目[1] - 项目由美国总务管理局(GSA)与技术转型服务局(TTS)合作开发,负责人为马斯克盟友Thomas Shedd[1] - 泄露信息显示项目计划于7月4日美国独立日正式上线[2] AI.gov技术架构 - 包含三大核心组件:聊天机器人、一体化API(支持OpenAI/谷歌/Anthropic模型接入)、CONSOLE监控工具[4] - 通过Amazon Bedrock提供AI模型,部分模型已获FedRAMP认证,但Cohere模型未获认证[5] - 计划发布大模型排名,但排序标准未明确[5] 政府AI应用争议 - DOGE部门使用AI工具错误标记2000多份退伍军人事务部合同,错误率显著(3400万美元误判为3.5万美元)[9] - AI工具仅依据合同前2500词做判断,专家认为代码存在严重缺陷[9] - 开发者承认工具存在缺陷,称代码不应直接用于决策[10] 数据安全风险 - 政府整合敏感数据引发安全担忧,包括医疗记录、社会安全号等[12] - 国防部长办公室存在未加密设备连接私人网络的安全隐患[11] - Palantir构建的美国人隐私数据库被质疑采用"反向瑞士奶酪模型"[12] 行业AI应用现状 - 企业推广Copilot遭遇工程师抵制,CEO与开发者对AI认知存在断层[17] - AI代码维护性问题突出,修改时易导致系统崩溃[20] - 实际工作中AI仅减少部分编程时间(案例显示C转Java节省90%时间),但高管过度乐观[21] AI使用副作用 - 开发者出现"编程肌肉退化"现象,过度依赖Gemini导致基础能力下降[23][24] - AI生成代码存在脆弱性,需多次调试但管理层仅关注"成功"案例[19] - 非编程工作场景中AI效用有限,但企业决策层忽视这一现实[22]
文旅新玩法!藏师傅教你做食物微缩景观宣传海报&视频
歸藏的AI工具箱· 2025-05-28 16:06
AI生成内容创新应用 - GPT-4o的图片生成功能被用于创造超现实风格的食品键盘 键盘按键采用微缩甜点设计 包括马卡龙 迷你蛋糕 水果挞等 色彩鲜亮 质感逼真 场景设定为烘焙坊灯光环境 [1][2] - 该技术进一步拓展至城市主题微缩场景 将城市代表性食物与景观结合 例如成都主题中 辣椒和青花椒排列成"成都"汉字 火锅红油形成河流 食材化作山峦 糍粑熊猫在香菜竹林嬉戏 [5][8] 多模态AI工具协同 - 豆包和GPT-4o均可实现类似场景生成 但GPT-4o输出的场景更简洁 [3] - Veo3视频生成技术可扩展应用 通过延时摄影风格动态展现微缩景观的组装过程 支持从无到有的渐进式构建 但需注意其对中文支持有限 城市名称需用拼音表示 [6][7] 文旅产业应用潜力 - 该技术特别适合制作文旅宣传素材 可诱导用户生成代表各自城市的特色食物微缩场景 具有较强视觉吸引力和传播性 [4] - 成都案例展示完整技术路径 包含3D等距渲染 Q版设计 元素符号化处理(如豆腐皮乌篷船)等手法 形成热辣安逸的整体氛围 [5][8] 技术实现优化方向 - 可通过Flow功能实现一镜到底的连贯视频效果 但需考虑抽卡机制带来的成本问题 [6] - 建议结合《Veo3和FLOW一手实测》中的技巧 利用20美元Gemini Pro会员在Gemini App和FLOW中使用Veo3功能 [9]
深度|黄仁勋Global Conference发言:AI工厂是下一个千兆瓦级产业革命,英伟达正建造多座五六百亿美元投入的AI工厂
Z Potentials· 2025-05-13 10:44
AI工厂革命 - AI技术具备感知、生成、推理等能力,彻底突破传统IT工具范畴,形成自动化数字劳动力,支撑万亿美元级新兴产业[3] - AI工厂以千兆瓦级设施为特征,单座工厂投资达500-600亿美元,未来十年全球将建成数十座此类工厂[4] - AI技术首次实现跨行业渗透,从金融到医疗、制造到物流,重构全球基础设施格局[5] 劳动力市场变革 - AI将即时改变就业结构,掌握AI工具者将取代未掌握者,而非AI直接替代人类[7] - 过去30年计算机技术仅服务3000万编程人群,AI首次让75亿人获得技术平权机会[7] - 当前全球面临劳动力短缺,AI可填补4000万劳动力缺口,成为提升GDP的关键路径[8] 芯片产业生态 - NVIDIA构建从芯片设计到软件生态的全栈能力,单芯片重1.5吨、价值300万美元,年研发预算200-300亿美元[13][14] - 采用超级计算机测试AI芯片,通过200家全球供应商协作完成液冷系统组装与交付[13][14] - 公司定位已超越芯片制造商,成为AI基础设施提供商,服务消费互联网之外的医疗、制造业等更大市场[18] 技术竞争格局 - 限制芯片出口无法真正遏制对手军事能力,关键在于建立以美国技术为核心的全球AI标准[15] - 中国市场规模潜力达500亿美元,相当于波音公司体量,是必须把握的战略性市场[16] - 物理AI(机器人制造机器人)将成为制造业升级方向,撬动数万亿美元产业规模[18] 创新文化构建 - 专注解决传统计算无法处理的难题,在长期孤独攻坚中形成极致效率与韧性文化[10][11] - 5-10年研发周期成为常态,在机器人技术领域保持全球领先的技术储备[11] - 团队涵盖数字生物学家、量子化学家等跨领域专家,强调"自讨苦吃"型人才价值观[19]
超越DeepSeek?巨头们不敢说的技术暗战
36氪· 2025-04-29 08:15
DeepSeek-R1模型技术突破 - 模型性能指标与OpenAI等领军企业产品相当甚至超越 计算资源需求较同类减少30% [1] - 独创分布式训练框架和动态量化技术使单位算力推理效能提升40% [1] - 多头潜注意力机制(MLA)实现内存占用降低50% 但开发复杂度显著增加 [2] MLA技术创新与挑战 - 键值矩阵存储密度提升18-23倍 4096 tokens上下文窗口内存占用量从96GB降至7.2GB(降幅92.5%) [4][5] - 非英伟达GPU部署需手动实现37%算子级优化 工程周期平均延长2.8周 [5] - RISC-V架构处理器运行MLA时推理延迟激增300% [6] 全球AI算力发展格局 - 全球AI算力支出占比从2016年9%升至2022年18% 预计2025年达25% [9] - 2022年全球智能算力规模451EFlops首次超越基础算力(440EFlops) 同比增速94.4% [10] - GPT-4单次训练消耗超2.5万块A100 GPU 相当于1200个美国家庭年用电量 [10] 算力市场竞争态势 - 美国科技巨头2023年AI算力投入占资本开支超60% 中国2022年AI算力支出增速38% [11] - 中美欧形成三足鼎立格局(美34% 中33% 欧17%) 竞争转向生态控制 [12] - 中国国产AI芯片良率仅达国际水平60% 先进制程代工依赖构成隐忧 [13] 新一代计算基础设施需求 - 需实现即插即用式替换 开发者仅需最小化修改即可部署各类系统 [15] - 要求自适应实时性能优化 硬件能动态调整资源配置维持峰值利用率 [16] - 必须突破传统架构桎梏 构建多层次算力矩阵应对指数级增长需求 [18] 中国算力产业发展 - 2024年全国算力总规模突破280EFLOPS 智能算力占比超30% [18] - 2025年中国智能算力预计突破千亿EFLOPS 2026年实现两年翻番 [19] - 推理算力年复合增速将达训练算力四倍 推动形成三位一体算力生态 [20]