Workflow
Gemini Pro
icon
搜索文档
Everywhere all at once makes India a safe AI bet
The Economic Times· 2025-11-04 11:47
Usually, India doesn’t feature in these conversations. It isn’t going to be a chipmaking superpower any time soon. And, although a couple of big data-center projects have been announced, high energy costs and land scarcity limit its ambitions.And yet India may be the biggest, safest bet in the age of artificial intelligence. Not because it will build the models, but because it will use them.Also Read: Amazon’s layoffs show how AI is coming for IndiaThe Live EventsThat two of the three are going with teleco ...
大模型无法真正理解视频,GPT-4o正确率仅36%,南洋理工大团队提出新基准
量子位· 2025-08-01 15:19
视频大型语言模型(Video LLMs)研究进展 - 视频大型语言模型展现出精准描述视频内容、回答相关问题的能力,接近人类级理解力[1] - 核心争议在于模型是否真正"理解"视频内容,还是仅进行高级"模式匹配"[2] - 南洋理工大学S-Lab团队提出Video Thinking Test(Video-TT)基准测试,旨在分离"看"与"想"的能力,精准测量AI的真实理解和推理水平[3] Video-TT测试设计原理 - 现有视频理解基准测试存在根本缺陷:无法区分模型因"没看清"或"没想明白"而犯错[9] - 传统长视频评测存在"帧采样悖论":模型因计算资源限制只能稀疏采样,性能下降可能反映采样策略失败而非理解能力不足[12][13] - 传统短视频评测存在"天花板幻觉":模型因能看完所有帧表现接近人类,但实际仍缺乏深度推理能力[15][16] - Video-TT创新点:选用1000条YouTube短视频,统一80帧采样,确保评测焦点从"采样效率"转向"理解深度"[16] 测试维度与问题设计 - 构建视觉复杂度(Visual Complexity)和叙事复杂度(Narrative Complexity)两大核心维度[18] - 视觉复杂度包含:模糊与非常规内容、运动速度、时空布局、视错觉四个子维度[19] - 叙事复杂度包含:复杂情节、叙事剪辑、技术性剪辑、世界知识四个子维度[19] - 问题设计强调激发"思考",需依赖上下文、原因和场景进行推理,例如需要世界知识回答"视频中的女士在模仿什么行为"[17][22] 模型性能评测结果 - 人类基准表现:正确性84.3%,鲁棒性64.4%,显著领先所有AI模型[29] - GPT-4o作为SOTA模型,正确率仅36.6%(不足人类一半),鲁棒性36.0%[30] - 开源模型在开放式问题上与GPT-4o差距显著,显示现有基准测试可能因侧重选择题高估模型能力[31] - 主要错误集中在复杂情节(Complex Plot)和世界知识(World Knowledge)相关任务[34] AI模型核心弱点分析 - 时空混淆:难以处理物体计数(如动态相框追踪)和序列定位(如多事件场景排序)[36][37] - 常识缺失:无法理解角色动机与情感(如银牌得主的失望情绪)等社会心理知识[38][39] - 复杂情节理解失败:难以建立跨场景因果关系(如棒球破坏房屋导致押金扣除的推理)[40][41] 研究团队与数据资源 - 主要作者包括南洋理工大学博士生张元瀚、董宇昊,通讯作者为助理教授刘子纬[6] - 论文与数据集已公开:论文链接(arXiv:2507.15028)、Hugging Face数据集、项目主页[42]
ICML 2025|多模态理解与生成最新进展:港科联合SnapResearch发布ThinkDiff,为扩散模型装上大脑
机器之心· 2025-07-16 12:21
多模态理解与生成技术进展 - 当前文本到图像生成技术如Stable Diffusion和Flux缺乏真正的多模态推理能力,难以理解图像与文本的复杂逻辑关系[1] - OpenAI的GPT-4o和Google的Gemini Pro展示了强大能力,但依赖超大规模参数和算力资源[2] - 香港科技大学与Snap Research提出的ThinkDiff方法,仅需少量数据和数小时训练即可实现多模态推理式生成[3] ThinkDiff核心技术 - 核心创新在于将视觉语言模型(VLM)的推理能力迁移至扩散模型,结合两者优势实现高质量生成[7] - 利用LLM与Diffusion共享特征空间的特性,通过代理任务将VLM与LLM解码器对齐[9][11] - 采用掩码训练策略强制对齐网络深度理解多模态信息,避免特征对齐走捷径[15] 模型架构与变体 - ThinkDiff-LVLM版本继承大型视觉语言模型的多模态理解能力[16] - ThinkDiff-CLIP版本强化文本图像组合能力,可扩展至视频生成领域[16][34] - 网络设计关键:对齐VLM自回归生成的tokens特征而非输入tokens,实现真正的推理能力传递[15] 性能表现 - 在CoBSAT基准测试中全面领先:Color-I准确率0.638(较SEED-LLaMA提升32.4%),Action-II准确率0.664(提升220.8%)[19] - 训练效率显著:仅用4块A100训练5小时即达0.463平均准确率,远优于需64块A100训练216小时的SEED-LLaMA[21] - 定性测试显示其生成质量与商业模型Gemini相当,且具备视频生成扩展能力[25][34] 行业影响 - 突破性解决低资源环境下的多模态推理难题,为学术研究和工业应用提供新路径[3][36] - 开创扩散模型理解复杂图文组合的新范式,显著提升生成式AI的语义理解深度[7][15] - 技术方案具备高度可扩展性,可适配不同VLM架构并延伸至视频生成领域[16][34]
谷歌挖人,Cognition收产品:Windsurf被“一拆二卖”
36氪· 2025-07-15 18:38
收购交易核心信息 - Cognition公司正式签署协议收购AI开发编程公司Windsurf 具体金额和条款未公开[2] - 收购内容包括Windsurf核心产品 品牌以及剩余团队 此前Windsurf CEO及共同创始人已通过24亿美元技术与许可交易加入谷歌[2][5] - 谷歌支付24亿美元薪酬与许可费用获得部分Windsurf技术的非独占许可 该交易不涉及股权投资或全面收购[5] 产品整合与战略方向 - 重点整合Cognition自主AI工程师Devin与Windsurf的IDE 新产品支持单一界面内任务规划 AI智能体代码生成及拉取请求审核[2] - Devin具备自动修复bug 部署应用等能力 将深度嵌入Windsurf IDE 实现从任务规划到代码审查的完整工作流[8] - 整合平台将重复性任务交由AI智能体执行 保留开发者对核心架构决策的控制 构建人类与AI协同系统[8] 市场竞争格局 - 合并后实体直接对标GitHub Copilot Replit Cursor等AI编程平台 面临谷歌Gemini和微软VS Code"智能体模式"的竞争[8] - OpenAI曾于5月与Windsurf进行30亿美元收购的独家谈判 但谈判最终破裂[5] 公司运营与财务表现 - Windsurf保持季度收入翻倍增长趋势 拥有数十万日活跃用户[4] - Cognition凭借3亿美元融资和40亿美元估值 营收增速已超过Windsurf[10] - Windsurf大部分核心成员将留任 继续推动产品在企业市场落地[9] 合作关系变动 - Anthropic于6月撤销Windsurf对Claude 3系列模型的API访问权限 导致Windsurf转向第三方推理模型提供商并限制免费用户访问[6] - 此次交易意外修复Windsurf与Anthropic的合作关系[8]
特朗普AI计划在GitHub上泄露,网友怒喷用AI代码“治国”!
AI前线· 2025-06-16 15:37
AI.gov项目泄露事件 - 特朗普政府AI发展计划的核心代码库"AI.gov"在GitHub上意外泄露,后被移至归档项目[1] - 项目由美国总务管理局(GSA)与技术转型服务局(TTS)合作开发,负责人为马斯克盟友Thomas Shedd[1] - 泄露信息显示项目计划于7月4日美国独立日正式上线[2] AI.gov技术架构 - 包含三大核心组件:聊天机器人、一体化API(支持OpenAI/谷歌/Anthropic模型接入)、CONSOLE监控工具[4] - 通过Amazon Bedrock提供AI模型,部分模型已获FedRAMP认证,但Cohere模型未获认证[5] - 计划发布大模型排名,但排序标准未明确[5] 政府AI应用争议 - DOGE部门使用AI工具错误标记2000多份退伍军人事务部合同,错误率显著(3400万美元误判为3.5万美元)[9] - AI工具仅依据合同前2500词做判断,专家认为代码存在严重缺陷[9] - 开发者承认工具存在缺陷,称代码不应直接用于决策[10] 数据安全风险 - 政府整合敏感数据引发安全担忧,包括医疗记录、社会安全号等[12] - 国防部长办公室存在未加密设备连接私人网络的安全隐患[11] - Palantir构建的美国人隐私数据库被质疑采用"反向瑞士奶酪模型"[12] 行业AI应用现状 - 企业推广Copilot遭遇工程师抵制,CEO与开发者对AI认知存在断层[17] - AI代码维护性问题突出,修改时易导致系统崩溃[20] - 实际工作中AI仅减少部分编程时间(案例显示C转Java节省90%时间),但高管过度乐观[21] AI使用副作用 - 开发者出现"编程肌肉退化"现象,过度依赖Gemini导致基础能力下降[23][24] - AI生成代码存在脆弱性,需多次调试但管理层仅关注"成功"案例[19] - 非编程工作场景中AI效用有限,但企业决策层忽视这一现实[22]
文旅新玩法!藏师傅教你做食物微缩景观宣传海报&视频
歸藏的AI工具箱· 2025-05-28 16:06
AI生成内容创新应用 - GPT-4o的图片生成功能被用于创造超现实风格的食品键盘 键盘按键采用微缩甜点设计 包括马卡龙 迷你蛋糕 水果挞等 色彩鲜亮 质感逼真 场景设定为烘焙坊灯光环境 [1][2] - 该技术进一步拓展至城市主题微缩场景 将城市代表性食物与景观结合 例如成都主题中 辣椒和青花椒排列成"成都"汉字 火锅红油形成河流 食材化作山峦 糍粑熊猫在香菜竹林嬉戏 [5][8] 多模态AI工具协同 - 豆包和GPT-4o均可实现类似场景生成 但GPT-4o输出的场景更简洁 [3] - Veo3视频生成技术可扩展应用 通过延时摄影风格动态展现微缩景观的组装过程 支持从无到有的渐进式构建 但需注意其对中文支持有限 城市名称需用拼音表示 [6][7] 文旅产业应用潜力 - 该技术特别适合制作文旅宣传素材 可诱导用户生成代表各自城市的特色食物微缩场景 具有较强视觉吸引力和传播性 [4] - 成都案例展示完整技术路径 包含3D等距渲染 Q版设计 元素符号化处理(如豆腐皮乌篷船)等手法 形成热辣安逸的整体氛围 [5][8] 技术实现优化方向 - 可通过Flow功能实现一镜到底的连贯视频效果 但需考虑抽卡机制带来的成本问题 [6] - 建议结合《Veo3和FLOW一手实测》中的技巧 利用20美元Gemini Pro会员在Gemini App和FLOW中使用Veo3功能 [9]
深度|黄仁勋Global Conference发言:AI工厂是下一个千兆瓦级产业革命,英伟达正建造多座五六百亿美元投入的AI工厂
Z Potentials· 2025-05-13 10:44
AI工厂革命 - AI技术具备感知、生成、推理等能力,彻底突破传统IT工具范畴,形成自动化数字劳动力,支撑万亿美元级新兴产业[3] - AI工厂以千兆瓦级设施为特征,单座工厂投资达500-600亿美元,未来十年全球将建成数十座此类工厂[4] - AI技术首次实现跨行业渗透,从金融到医疗、制造到物流,重构全球基础设施格局[5] 劳动力市场变革 - AI将即时改变就业结构,掌握AI工具者将取代未掌握者,而非AI直接替代人类[7] - 过去30年计算机技术仅服务3000万编程人群,AI首次让75亿人获得技术平权机会[7] - 当前全球面临劳动力短缺,AI可填补4000万劳动力缺口,成为提升GDP的关键路径[8] 芯片产业生态 - NVIDIA构建从芯片设计到软件生态的全栈能力,单芯片重1.5吨、价值300万美元,年研发预算200-300亿美元[13][14] - 采用超级计算机测试AI芯片,通过200家全球供应商协作完成液冷系统组装与交付[13][14] - 公司定位已超越芯片制造商,成为AI基础设施提供商,服务消费互联网之外的医疗、制造业等更大市场[18] 技术竞争格局 - 限制芯片出口无法真正遏制对手军事能力,关键在于建立以美国技术为核心的全球AI标准[15] - 中国市场规模潜力达500亿美元,相当于波音公司体量,是必须把握的战略性市场[16] - 物理AI(机器人制造机器人)将成为制造业升级方向,撬动数万亿美元产业规模[18] 创新文化构建 - 专注解决传统计算无法处理的难题,在长期孤独攻坚中形成极致效率与韧性文化[10][11] - 5-10年研发周期成为常态,在机器人技术领域保持全球领先的技术储备[11] - 团队涵盖数字生物学家、量子化学家等跨领域专家,强调"自讨苦吃"型人才价值观[19]
超越DeepSeek?巨头们不敢说的技术暗战
36氪· 2025-04-29 08:15
DeepSeek-R1模型技术突破 - 模型性能指标与OpenAI等领军企业产品相当甚至超越 计算资源需求较同类减少30% [1] - 独创分布式训练框架和动态量化技术使单位算力推理效能提升40% [1] - 多头潜注意力机制(MLA)实现内存占用降低50% 但开发复杂度显著增加 [2] MLA技术创新与挑战 - 键值矩阵存储密度提升18-23倍 4096 tokens上下文窗口内存占用量从96GB降至7.2GB(降幅92.5%) [4][5] - 非英伟达GPU部署需手动实现37%算子级优化 工程周期平均延长2.8周 [5] - RISC-V架构处理器运行MLA时推理延迟激增300% [6] 全球AI算力发展格局 - 全球AI算力支出占比从2016年9%升至2022年18% 预计2025年达25% [9] - 2022年全球智能算力规模451EFlops首次超越基础算力(440EFlops) 同比增速94.4% [10] - GPT-4单次训练消耗超2.5万块A100 GPU 相当于1200个美国家庭年用电量 [10] 算力市场竞争态势 - 美国科技巨头2023年AI算力投入占资本开支超60% 中国2022年AI算力支出增速38% [11] - 中美欧形成三足鼎立格局(美34% 中33% 欧17%) 竞争转向生态控制 [12] - 中国国产AI芯片良率仅达国际水平60% 先进制程代工依赖构成隐忧 [13] 新一代计算基础设施需求 - 需实现即插即用式替换 开发者仅需最小化修改即可部署各类系统 [15] - 要求自适应实时性能优化 硬件能动态调整资源配置维持峰值利用率 [16] - 必须突破传统架构桎梏 构建多层次算力矩阵应对指数级增长需求 [18] 中国算力产业发展 - 2024年全国算力总规模突破280EFLOPS 智能算力占比超30% [18] - 2025年中国智能算力预计突破千亿EFLOPS 2026年实现两年翻番 [19] - 推理算力年复合增速将达训练算力四倍 推动形成三位一体算力生态 [20]