Workflow
AI科技大本营
icon
搜索文档
谷歌发布最强 AI“全家桶”、一句话就让AI拍大片!这一夜,谷歌Gemini贯穿始终,网友:果然Android“靠边站”了
AI科技大本营· 2025-05-21 09:06
整理 | 郑丽媛 回顾 上一次 I/O 大会至今,Sundar Pichai 表示 谷歌已发布了十多个新模型和研究突破,并推出了 20 多个重 大 AI 产品与新功能。 他解释道, " 我 们的目标很简单:让最优秀的模型和产品尽快触达用户, 因此 我们正以前所未有的速度推进发布节奏。 " 他指出 ,相比第一代 Gemini 1.0 Pro, 如今的 Gemini 2.5 Pro 几乎 发生了 "跃迁式"变化: 在 LMArena 榜单上横扫各大类别 、 在多项基准测试中 刷新 纪录; 在代码领域也取得 巨大进展, 登顶 WebArena 榜首。 出品 | CSDN(ID:CSDNnews) 昨天, 微软在 Build 大会上刚刚甩出"Windows 子系统"和"Copilot 开源"的重磅炸弹 ,整个开发者圈还没从热议中缓过劲来,转眼今天凌晨,谷歌就 在 I/O 大会上掏出了自己的"王炸"牌——一场 AI 盛宴,正式上演! 从凌晨 1 点开始,这场 持续了 2 小时的发布会彻底印证了网友的预测: 曾经占据谷歌 I/O 大会中心的 Android 系统正在"靠边站",C 位已经留给了 更具革命性的 AI。 无论 ...
对话阶跃星辰段楠:“我们可能正触及 Diffusion 能力上限”
AI科技大本营· 2025-05-20 09:02
「具备更深层次理解能力的视觉领域基础模型(可能带来视觉的"GPT-3时刻"),有望在未来 1-2 年内出现。」 对话 | 唐小引,CSDN&《新程序员》执行总编 嘉宾 | 段楠, 阶跃星辰 Tech Fellow 责编丨张红月 出品 | AI 科技大本营(ID:rgznai100) 这场由 AI 驱动的视觉内容革新浪潮中,阶跃星辰的 Tech Fellow、前微软亚洲研究院资深研究员段楠,正站在探索的前沿。其团队在今年 2 月和 3 月 开源两个重要的视频生成模型 —— 30B 参数的文生视频模型 Step-Video-T2V,以及基于此训练的 30B 参数图生视频模型 Step-Video-TI2V , 在 AI 视频生成领域引起了广泛关注。 段楠清醒地指出,尽管当前的视频生成技术(如 Diffusion 模型)已能产出惊艳的视觉片段,但我们可能正触及其能力的"天花板",真正的、具备深度 理解能力的视频乃至多模态基础模型,其革命性的突破尚在孕育之中。 段楠,阶跃星辰Tech Fellow,带领研究团队构建以语言和视频为中心的多模态基础模型。此前,他曾任微软亚洲研究院资深首席研究员、自然语言计算团队研究经理( ...
WSL、Copilot皆重磅开源,深夜炸场的微软给我们带来了哪些惊喜?
AI科技大本营· 2025-05-20 09:02
以下文章来源于CSDN ,作者CSDN CSDN . 成就一亿技术人 整理 | 屠敏 出品 | CSDN(ID:CSDNnews) 每年初夏,科技圈总会迎来一波"新品大秀",尤其是 5 月和 6 月几乎成了开发者的"小春晚"的热闹时刻——微软 Build、Google I/O、苹果 WWDC 轮 番登场,带来一大波新技术、新工具,想方设法吸引开发者的注意。今年是微软打头阵,Build 2025 大会于 5 月 20 日凌晨 12:05 率先登场。 这场大会上,微软 CEO 纳德拉和 CTO Kevin Scott 亲自上阵,令人意外的是,一直不太对付的 OpenAI CEO Sam Altman 和特斯拉 CEO 马斯克,还 有英伟达 CEO 黄仁勋,也都"出现"在这场大会上,只是以线上视频接入的形式,分别与纳德拉来了场关于合作、大模型、芯片等维度的简短对话。 整体来看,AI 无疑是微软最重要的战略方向。不过,今年「开源」也成了另一大贯穿全场的关键词,其不仅将 VS Code 上 Copilot 的核心功能开放了 出 来,就连 适 用于 Linux 的 Windows 子系统( WSL)也重磅开源了,实属令人 ...
图文跨模态“近视”问题破局:360开源新模型 FG-CLIP,实现细粒度图文对齐突破|ICML2025
AI科技大本营· 2025-05-19 16:05
核心观点 - 360人工智能研究院发布FG-CLIP模型,突破传统CLIP模型在细粒度图文对齐上的局限性,显著提升对图像局部细节的识别能力 [1][4][10] - FG-CLIP采用显式双塔结构+双阶段训练策略,结合难细粒度负样本学习,实现全局与局部特征的双重优化 [10][16][20] - 模型在FG-OVD、COCO等基准测试中全面超越CLIP/EVA-CLIP等主流模型,细粒度理解准确率最高提升34个百分点 [29][30][31] - 技术已开源并获ICML 2025收录,潜在应用覆盖搜索推荐、电商、安防等多领域 [3][5][11] 技术架构 模型设计 - 首创显式双塔结构解耦图文特征,解决传统CLIP粗粒度对齐问题 [10] - 两阶段训练:首阶段全局对比学习实现基础对齐,次阶段区域对比学习强化细节感知 [16][18][19] - 创新难细粒度负样本构建方法,通过属性微调生成语义相近负样本,提升模型辨别力 [20][25] 数据工程 - 采用CogVLM2-19B重构LAION-2B数据集,描述信息量提升300%(如"一只鸟"→"红翼黑鸟栖息公园树枝") [21] - 构建1200万图像+4000万边界框标注+1000万难负样本的高质量数据集,调用160×910B NPU算力完成处理 [23][27] - 负样本质量评估显示98.9%符合标准,噪声率仅1.1% [25] 性能表现 量化指标 - 细粒度识别:在FG-OVD hardest子集准确率达46.4%,较CLIP提升34个百分点 [29][30] - 区域识别:COCO零样本检测Top-1准确率68.6%,优于FineCLIP 27个百分点 [31] - 图文检索:MSCOCO T2I任务R@1达49.8%,较CLIP提升12.7个百分点 [34] 应用场景 - 电商推荐:精准匹配"浅蓝色夹克"与"草绿色夹克"等属性差异 [1][11] - 安防监控:识别画面角落的隐藏目标(如案例中藏于狗后的木凳) [12][15] - 内容生成:为Stable Diffusion/Sora等提供细粒度跨模态编码支持 [8] 行业影响 - 突破现有CLIP技术瓶颈,推动多模态大模型向细粒度化发展 [4][12] - 开源策略加速技术产业化落地,潜在市场规模达百亿级 [5][40] - 为搜索/推荐/生成式AI等领域提供新一代基础架构 [8][11][32]
“图片秒生”,腾讯混元图像2.0模型正式发布,主打速度和真实感
AI科技大本营· 2025-05-16 16:16
人像摄影风格 动物特写 AI图像生成进入"毫秒级"时代。 5月16日,腾讯发布最新混元图像2.0模型(Hunyuan Image2.0),基于模型架构创新,在行业内率先实现实时生图,在画面质感超写实的基础上, 带来全新的AI生图交互体验。模型于即日起在腾讯混元官方网站上线,并对外开放注册体验。 相比前代模型,腾讯混元图像2.0模型参数量提升了一个数量级,得益于超高压缩倍率的图像编解码器以及全新扩散架构,其生图速度显著快于行业领 先模型,在同类商业产品每张图推理速度需要5到10秒的情况下,腾讯混元可实现毫秒级响应,支持用户可以一边打字或者一边说话一边出图,改变了 传统"抽卡—等待—抽卡"的方式,带来交互体验革新。 除了速度快以外,腾讯混元图像2.0模型图像生成质量提升明显,通过强化学习等算法以及引入大量人类美学知识对齐,生成的图像可有效避免AIGC图 像中的"AI味" ,真实感强、细节丰富、可用性高。 在图像生成领域专门测试模型复杂文本指令理解与生成能力的评估基准 GenEval(Geneval Bench)上,腾讯混元图像2.0模型准确率超过95%,远超其他同类模型。 | | | | | | | 文生图客观指 ...
“烧掉94亿个OpenAI Token后,这些经验帮我们省了43%的成本!”
AI科技大本营· 2025-05-16 09:33
【CSDN 编者按】 在 AI 技术飞速发展的今天,OpenAI API 已成为众多 SaaS 开发者手中的得力工 具。但高额的 Token 消耗,也让成本控制成为开发者不得不面对的难题。本文作者以一个月消耗 94 亿 Token 的实战经历,毫无保留地分享了优化成本的关键经验。 原文链接 : https://www.reddit.com/r/LLMDevs/comments/1kigp51/spent_9400000000_openai_tokens_in_april_ here_is/ 作者 | tiln7 翻译 | 郑丽媛 出品 | CSDN(ID:CSDNnews) 大家好!刚刚 结束了 一个 对 我们 SaaS 产品 来说 强度 非常 大的 OpenAI API 调用 月, 我 想 顺 便 分享一些踩坑总结。 通过下面这几条优化策略, 我们成功将 成本 降低了 43%! 希望这能帮到 同样也在用 OpenAI API 的开发者朋友们。 选对模型是关键中的关键 用好提示词缓存(Prompt Caching) 这点完全是意外收获。OpenAI 平台会自动缓存完全一致的提示词(prompt),在重复调用相 ...
干货超标!腾讯混元3D负责人郭春超:真正的3D AIGC革命,还没开始!
AI科技大本营· 2025-05-16 09:33
分享嘉宾 | 郭春超 责编 | 梦依丹 出品丨AI 科技大本营(ID:rgznai100) 现在这个时代,我们玩的游戏、看的电影、甚至未来的虚拟世界,都离不开精细逼真的三维(3D)模型。然而,制作这些 3D 内容,过去常常意味着 耗时数周甚至数月的人工建模,成本高昂且效率低下。就像平面设计曾被 Photoshop 改变一样,人工智能正在瞄准 3D 领域,试图彻底革新数字内容 的生产方式。 在这场由 AI 驱动的 3D 生成浪潮中,腾讯混元团队推出的开源项目 Hunyuan 3D 成为了全球开发者社区的焦点。它不仅在 GitHub 上迅速积累了超过 9.6k 的 Star,跻身 3D 生成开源项目的第一梯队,更凭借其出色的模型生成效果,赢得了"几乎没有变形的 Image to 3D,恐怖如斯"这样的用户评 价。 AI 生成 3D 的能力发展到什么阶段了?它离真正改变游戏、影视、数字人等行业还有多远? 在 4 月 18-19 日举行的 2025 全球机器学习技术大会 (ML-Summit)上,腾讯混元 3D 负责人 郭春超 对此进行了详尽解读,并在会后接受了 CSDN 专访。 令人意外的是,尽管当前 3D AIG ...
Visual Studio 重磅更新!擅长处理复杂任务的 GitHub Copilot “智能体模式”预览版上线
AI科技大本营· 2025-05-15 14:14
【编者按】GitHub Copilot 智能体模式 (agent mode) 正式登录 Visual Studio! 责编 | 梦依丹 出品丨AI 科技大本营(ID:rgznai100) 微软 Visual Studio 官方 X 上正式宣布,备受期待的 GitHub Copilot 智能体模式 (agent mode) 正 式登陆 Visual Studio 17.14 预览版! 开发者通过一个提示即可让 Copilot 自主处理从计划、构 建、测试到修复的整个开发流程。 自主确定上下文与编辑文件: 无需你手动指定,Copilot 能智能判断并找到需要编辑的相 关上下文和文件; 建议终端命令供你审批执行: 它会为你生成必要的终端命令,并在你确认后执行; 持续迭代直至任务完成: 它会不断检查错误,运行构建/测试来验证结果,直到任务最终搞 定; 通过 MCP 服务器调用可信工具: 它能够调用你开发环境中的 linter(代码风格检查工 具)、test runner(测试运行器)和 static analyzer(静态分析器)等受信任的工具。 在 Copilot Chat 窗口中,切换到"Agent (智能体)" ...
破解百年数学难题,刷新算法认知!DeepMind 发布超级编码智能体 AlphaEvolve
AI科技大本营· 2025-05-15 14:14
【编者按】继 AlphaGo、AlphaFold 之后,谷歌 DeepMind 带来的全新 AI 编程智能体 AlphaEvolve 横空出世,它巧妙地结合了大型语言模型(LLM)的创 造力与自动化评估机制,不仅在矩阵乘法等经典数学问题上取得新突破,更在谷歌数据中心优化、芯片设计乃至 AI 自身训练等实际应用中展现出惊人实 力,为我们揭示了 AI 驱动算法发现的广阔前景。 整理| 梦依丹 出品丨AI 科技大本营(ID:rgznai100) 不仅是直接写代码,而是进化出的「解决方案」 与传统的代码生成工具不同,AlphaEvolve 并不追求"直接产出答案",而是像演化生物一样迭代出越来越优秀的解决策略。它的背后是 Google DeepMind 最新的大语言模型家族 Gemini——其中 Gemini 2.0 Flash 负责高效率生成大量思路,Gemini 2.0 Pro 则在关键节点提供更深层的方案优 化。 其核心能力有: 5 月 14 日,Google DeepMind 正式官宣推出 AlphaEvolve——一款由 Gemini 强力驱动、专注于算法发现的编码智能体。 这款全新的 AI 智能体, 堪称 ...
完全开源的7B模型,性能比肩主流LLM,训练成本仅16万美元,复现DeepSeek的强化学习!
AI科技大本营· 2025-05-14 17:31
责编 |梦依丹 出品丨AI 科技大本营(ID:rgznai100) 自从 GPT-3 横空出世,生成式 AI 彻底点燃了全球科技圈: 尽管 LLMs 如 GPT-4、Claude 等展现了惊人的能力,但闭源模型的闭源特性让研究者难以深入理解其运作机制,同时开源模型的开放程度有限: Moxin-7B:从预训练到强化学习,全面透明的 AI 革新 Moxin-7B 的诞生,正是为了解决这一问题! 它由来自东北大学、哈佛、康奈尔等机构的研究团队联合开发,完全遵循"开源科学"原则,公开了从数据 清洗到强化学习的全流程细节,从预训练到 DeepSeek 同款强化学习,成为目前透明度最高的开源 LLM 之一。 2. 高性能低成本:小模型的大能量 零样本任务:在 ARC-C(AI2推理挑战)上达到 58.64%,超越 LLaMA 3.1-8B(53.67%)和 Qwen2-7B(50.09%)。 数学推理:经过 RL 微调后,在 MATH-500 上准确率 68%,超越 70B 参数的Llama-3-Instruct 模型(64.6%)。 长上下文支持:通过滑动窗口注意力(SWA)和分组查询注意力(GQA),高效处理 32K ...