AI科技大本营

搜索文档
谷歌发布最强 AI“全家桶”、一句话就让AI拍大片!这一夜,谷歌Gemini贯穿始终,网友:果然Android“靠边站”了
AI科技大本营· 2025-05-21 09:06
谷歌I/O大会核心观点 - 谷歌全面转向AI战略,将AI深度整合至所有产品线,包括搜索、开发者工具、多模态创作等领域[1][2][5] - 公司发布Gemini 2.5系列模型,在性能基准和实际应用场景实现显著突破[4][13][16] - 推出高端订阅服务Google AI Ultra,定价249.99美元/月,提供最先进AI工具组合[35][36] - 搜索业务完成AI化改造,月活用户达15亿,推出全新"AI模式"交互体验[22][23][25] - 多模态生成技术取得重大进展,视频/图像/音乐创作工具全面升级[29][31][33] 产品与技术升级 Gemini模型进展 - Gemini 2.5 Pro在WebArena和LMArena榜单登顶,代码能力显著提升[4] - 新增Deep Think增强推理模式,在LiveCodeBench竞赛编程测试领先,MMMU多模态推理得分84%[16] - Gemini 2.5 Flash轻量版token消耗减少20-30%,6月正式发布[18] - 模型处理token量从9.7万亿/月增至480万亿/月,年增长50倍[5] 搜索产品革新 - AI概览功能月活用户突破15亿,覆盖200+国家地区[22] - "AI模式"支持深度搜索、实时视觉交互、智能Agent任务处理[25] - 新增智能购物功能,支持虚拟试穿和自动下单[25] - 个性化推荐将整合Gmail等个人数据[26] 多模态创作工具 - 视频模型Veo 3实现音视频同步生成,支持文本/图像提示[29] - Imagen 4图像模型分辨率达2K,文字准确性提升,快速版速度提高10倍[31] - Lyria 2音乐模型接入YouTube Shorts,支持实时交互创作[33] - 推出AI电影制作工具Flow,整合Veo/Imagen/Gemini模型[33] 商业化布局 订阅服务体系 - Google AI Ultra定价249.99美元/月,含Veo 3/Gemini 2.5 Pro Deep Think等高级功能[36] - AI Pro版定价19.99美元/月,提供基础版Gemini 2.5 Pro[38] - 订阅用户可享30TB云存储和YouTube Premium权益[36] 开发者生态 - Gemini API开发者达700万,年增长5倍[5] - Vertex AI使用量增长40倍,新增模型推理摘要功能[18] - 全面兼容MCP工具链,支持构建智能代理[11] 硬件与未来布局 - 推出Android XR操作系统,支持AR/VR/MR设备[40] - 与Warby Parker等合作开发智能眼镜,集成Gemini AI[40] - Project Moohan头显预计2025年发布,与三星联合开发[40]
对话阶跃星辰段楠:“我们可能正触及 Diffusion 能力上限”
AI科技大本营· 2025-05-20 09:02
视频生成技术现状与挑战 - 当前视频生成技术(如Diffusion模型)已能产出惊艳视觉片段,但可能触及能力天花板,真正具备深度理解能力的多模态基础模型尚在孕育中[1][5] - 阶跃星辰开源两个30B参数视频生成模型:Step-Video-T2V(文生视频)和Step-Video-TI2V(图生视频),在运动性和风格化生成方面表现突出[12][33] - 当前Diffusion视频模型Scaling Law表现不显著,30B参数模型泛化能力提升有限,15B参数可能在效率与性能间取得更好平衡[5][26] 下一代技术发展方向 - 未来1-2年内可能出现视觉领域的"GPT-3时刻",带来革命性突破[4][36] - 技术突破方向包括:自回归(AR)与Diffusion模型融合架构、从映射学习转向因果预测学习范式、增强少样本学习能力[5][21][45] - 视觉基础模型需具备深度理解能力而非仅像素生成,需借鉴NLP领域成功经验,通过生成方式获得更强理解能力[19][32] 行业实践关键因素 - 高质量自然数据是核心瓶颈,需大规模多样化真实数据而非合成数据,数据处理复杂度极高[14][16][32] - 系统支持与多团队协作至关重要,阶跃星辰项目成功得益于强大系统团队支持[17][18] - 模型需平衡上限探索与易用性,30B参数模型因体积过大影响实际应用,未来需大小模型并行发展[28][29] 多模态与AI应用前景 - 视频理解能力进步将推动具身智能、机器人等需要物理交互的AI应用发展[14][37] - 多模态模型将向物理世界感知发展,增强动作理解等能力,2025年可能出现图像与文字理解生成的重要突破[56][49] - AIGC趋势包括视频长度延长、编辑能力提升、基于参考的生成技术发展,未来将降低内容创作门槛[38][44] 技术里程碑与行业参考 - 近五年AI重大创新包括BERT、GPT-3、ChatGPT、Sora等,确立不同领域技术范式[15] - 视觉领域可能处于NLP中BERT之后、GPT-3之前的阶段,需经历类似发展过程[32] - DeepSeek系列模型因性能优异且实用性强,成为国内行业重要参考[15]
WSL、Copilot皆重磅开源,深夜炸场的微软给我们带来了哪些惊喜?
AI科技大本营· 2025-05-20 09:02
微软Build 2025大会核心观点 - AI与开源成为微软两大战略方向,贯穿全场发布内容[2][5] - 公司定位当前技术浪潮为"平台变革中局",类比1990年代Web技术或2000年代云计算移动互联网的崛起阶段[5] - 开发者生态规模显著:Visual Studio用户超1500万,GitHub开发者达1.5亿,GitHub Copilot用户突破1500万[6] - 推出多项AI代理技术升级,从编程助手演进为协作开发伙伴[11][13][15] - 操作系统层面深度整合AI能力,Windows AI Foundry开放内部工具链[39][42] - 首次将适用于Linux的Windows子系统(WSL)完全开源[44][46][48] 开发者工具升级 - Visual Studio支持.NET 10并引入实时预览功能,更新节奏调整为每月稳定版[10] - VS Code发布第100个开源版本,新增多窗口支持与暂存区管理[10] - GitHub Copilot扩展功能开源并集成至VS Code核心代码库[10] - 推出完整版Coding Agent,可接收GitHub Issue任务并自动执行代码重构[13][14] - Copilot新增版本迁移能力,支持Java 8至21或.NET Framework至9的自动化升级[15] - 发布Azure SRE Agent实现故障自动排查与修复建议生成[15] AI代理生态系统 - 推出Microsoft 365 Copilot Tuning,支持企业低代码定制专属AI助手[26] - Azure AI Foundry新增Model Router实现多模型自动选择[36] - Foundry Agent Service正式发布,支持多代理协同处理复杂流程[36] - 引入跨平台多代理编排能力,兼容AWS/Google Cloud及本地部署[36] - 新增Foundry Observability功能,提供智能体全链路监控与日志追踪[37] 操作系统与开源 - Windows AI Foundry开放内部开发工具,支持CPU/GPU/NPU异构计算[39] - 内置Phi-Silica小语言模型,可通过LoRA适配器快速微调[42] - Windows原生支持MCP协议,实现系统服务与AI应用的安全互通[43] - WSL开源代码库已在GitHub发布,获得19.5k星标关注[45] - WSL架构演进实现与Windows系统解耦,社区可直接贡献代码[48][49] 数据与基础设施 - SQL Server 2025预览版内置可扩展AI功能,与Azure/Fabric深度集成[55] - Cosmos DB与Azure Databricks直接接入Foundry智能体平台[55] - Fabric平台整合Cosmos DB,统一管理结构化与非结构化数据[56] - 推出Power BI Copilot,支持自然语言交互与跨报表分析[57] - Azure部署NVIDIA GB200芯片集群,单系统处理能力达86.5万tokens/秒[59] - 推出Foundry Local服务实现AI能力离线部署与敏感数据本地处理[63] 前沿技术探索 - 开源NLWeb项目,通过MCP标准实现网站与AI聊天机器人快速对接[52][53] - 发布Microsoft Discovery平台,运用Graph RAG引擎加速科研发现[65] - 科学智能体展示实际成效:200小时发现新型冷却剂材料[66] - 与xAI合作在Azure上线Grok 3模型,采用物理学方法论优化推理[33][34] - 黄仁勋透露Azure GB200超级计算机性能较Hopper架构提升40倍[60][61]
图文跨模态“近视”问题破局:360开源新模型 FG-CLIP,实现细粒度图文对齐突破|ICML2025
AI科技大本营· 2025-05-19 16:05
核心观点 - 360人工智能研究院发布FG-CLIP模型,突破传统CLIP模型在细粒度图文对齐上的局限性,显著提升对图像局部细节的识别能力 [1][4][10] - FG-CLIP采用显式双塔结构+双阶段训练策略,结合难细粒度负样本学习,实现全局与局部特征的双重优化 [10][16][20] - 模型在FG-OVD、COCO等基准测试中全面超越CLIP/EVA-CLIP等主流模型,细粒度理解准确率最高提升34个百分点 [29][30][31] - 技术已开源并获ICML 2025收录,潜在应用覆盖搜索推荐、电商、安防等多领域 [3][5][11] 技术架构 模型设计 - 首创显式双塔结构解耦图文特征,解决传统CLIP粗粒度对齐问题 [10] - 两阶段训练:首阶段全局对比学习实现基础对齐,次阶段区域对比学习强化细节感知 [16][18][19] - 创新难细粒度负样本构建方法,通过属性微调生成语义相近负样本,提升模型辨别力 [20][25] 数据工程 - 采用CogVLM2-19B重构LAION-2B数据集,描述信息量提升300%(如"一只鸟"→"红翼黑鸟栖息公园树枝") [21] - 构建1200万图像+4000万边界框标注+1000万难负样本的高质量数据集,调用160×910B NPU算力完成处理 [23][27] - 负样本质量评估显示98.9%符合标准,噪声率仅1.1% [25] 性能表现 量化指标 - 细粒度识别:在FG-OVD hardest子集准确率达46.4%,较CLIP提升34个百分点 [29][30] - 区域识别:COCO零样本检测Top-1准确率68.6%,优于FineCLIP 27个百分点 [31] - 图文检索:MSCOCO T2I任务R@1达49.8%,较CLIP提升12.7个百分点 [34] 应用场景 - 电商推荐:精准匹配"浅蓝色夹克"与"草绿色夹克"等属性差异 [1][11] - 安防监控:识别画面角落的隐藏目标(如案例中藏于狗后的木凳) [12][15] - 内容生成:为Stable Diffusion/Sora等提供细粒度跨模态编码支持 [8] 行业影响 - 突破现有CLIP技术瓶颈,推动多模态大模型向细粒度化发展 [4][12] - 开源策略加速技术产业化落地,潜在市场规模达百亿级 [5][40] - 为搜索/推荐/生成式AI等领域提供新一代基础架构 [8][11][32]
“图片秒生”,腾讯混元图像2.0模型正式发布,主打速度和真实感
AI科技大本营· 2025-05-16 16:16
腾讯混元图像2.0模型发布 - 公司发布混元图像2.0模型 基于架构创新实现实时生图 带来全新AI生图交互体验 模型已在官网开放注册 [1] - 模型参数量较前代提升一个数量级 采用超高压缩倍率图像编解码器和全新扩散架构 生图速度达毫秒级 显著快于行业5-10秒水平 [3] - 模型通过强化学习和人类美学知识对齐 有效减少"AI味" 生成图像真实感强 细节丰富 可用性高 [3] 技术性能优势 - 在GenEval评估基准上 模型准确率超过95% 大幅领先同类产品 [4] - 文生图客观指标全面领先 在Overall(0.9597) Single Obj(0.9968) Two Obj(0.9747) Counting(0.9343) Colors(0.9973) Position(0.885) Color Attribution(0.975)等细分维度均表现优异 [5] 应用场景展示 - 模型支持多种风格生成 包括人像摄影 动物特写 复古摄影 动漫风格等 画面达到电影级质感 [6][7][8][9][11] - 推出实时绘画板功能 支持线稿实时上色预览 突破传统线性流程 助力专业设计师创作 [13] - 支持多图融合功能 可叠加多个草图自动协调透视光影 按提示词生成融合图像 [13] 战略布局 - 公司预告将发布原生多模态图像生成大模型 在多轮生成和实时交互方面有突出表现 [15] - 持续加码多模态领域 此前已开源中文原生DiT架构文生图模型和130亿参数视频生成大模型 [15]
“烧掉94亿个OpenAI Token后,这些经验帮我们省了43%的成本!”
AI科技大本营· 2025-05-16 09:33
模型选择与成本优化 - 不同模型价格差异显著,GPT-4o-mini输入Token价格为每百万0.15美元,输出为0.60美元,而GPT-4.1输入输出价格分别为2美元和8美元[4][5] - 根据业务需求选择模型组合,简单任务使用低价模型GPT-4o-mini,复杂任务才切换至GPT-4.1,避免使用高价的GPT-4 Turbo[4] - 通过模型组合优化,整体成本降低43%[1] 提示词优化技术 - 利用OpenAI平台自动缓存机制,重复调用相同提示词可降低50%成本,长提示词延迟减少80%[6] - 提示词结构优化,将变化部分置于末尾以确保缓存命中率[6] - 减少输出Token数量,通过返回位置编号和类别替代完整文本,输出Token减少70%[7] 批处理与系统配置 - 非实时任务采用Batch API处理,费用节省50%,尽管存在24小时处理延迟[7] - 未设置账单预警导致5天内耗尽月度预算,凸显监控机制重要性[7] 行业实践争议 - 部分开发者质疑94亿Token消耗的必要性,认为优化策略应提前在系统设计阶段考虑[9] - 压缩输出Token可能影响模型推理质量,需权衡成本与效果,部分场景或适用传统逻辑替代[10] - 其他模型如Gemini因支持多模态和百万Token上下文被提议作为更廉价替代方案[9]
干货超标!腾讯混元3D负责人郭春超:真正的3D AIGC革命,还没开始!
AI科技大本营· 2025-05-16 09:33
腾讯混元大模型家族演进 - 腾讯混元大模型自2023年2月启动研发,从大语言模型向多模态模型全面演进,早期聚焦大语言模型方向并于2023年9月发布基于万亿参数级NLP稀疏大模型的生成式能力 [8] - 2024年5月开源业界首个中文DIT架构图像生成模型实现中文图像生成领域开源突破,同年11月推出3D生成1.0模型成为业内首个同时支持文生3D和图生3D的开源大模型 [8] - 2024年12月混元文生视频模型加入开源行列,经过两年多发展已成长为覆盖文本、语音、图像、3D、视频等多模态能力的全面生成式AI基座 [8] 3D生成技术现状 - 3D生成仍处发展早期阶段,工业界大规模投入仅一年出头,当前可用度约50%相比大语言模型90%的成熟度仍有显著差距 [22] - 技术路线呈现自回归模型与扩散模型结合趋势,前者可提升可控性和记忆能力,后者在推理速度上保持优势 [36][39] - 主要挑战包括数据稀缺(千万量级3D数据vs百亿级图片数据)、工业级CG管线融合度不足、3D表达方式未达最优 [32][43] 行业应用与效率提升 - 传统人工建模成本高昂:游戏角色建模达1.2万元/个需7天,广告建模最低200元/秒需0.5天,而文生3D成本仅0.5元/次耗时约1分钟 [13] - 腾讯混元构建"3D创动引擎"架构,通过草图生3D、纹理换肤生成、动作融合建模和低多边形优化四类技术矩阵实现关键环节30%-40%效率提升 [13][14] - 应用分层明显:轻量小游戏资产已"踮脚可及",腰部游戏可辅助道具生成,3A大作需多轮原型迭代中提效 [31] 开源战略与技术生态 - GitHub Star数超1.2万,Hugging Face下载量超100万,最小开源模型参数仅0.6B支持本地运行 [19][28] - 开源与商业协同发展:开源模型反馈问题促进研发,社区插件可被复用,形成"持续迭代速度"的核心护城河 [28][34] - ComfyUI官方支持实现从草图到完整3D模型的一键生成,年内计划开放更多模型与数据集降低行业门槛 [17][19] 未来发展方向 - 2025年目标实现物体级生成接近人工建模水平,场景类生成具备初步雏形,向原生多模态统一架构演进 [20] - 世界模型构建分阶段推进:先实现局部空间合理性,再扩展至具备物理规律的三维世界,当前已在腾讯地图导航车标等场景落地 [19][42] - 专业工具定位明确:AI不会替代3D设计师而是成为生产力工具,帮助将创意实现效率提升10倍 [46][47]
Visual Studio 重磅更新!擅长处理复杂任务的 GitHub Copilot “智能体模式”预览版上线
AI科技大本营· 2025-05-15 14:14
GitHub Copilot 智能体模式发布 - GitHub Copilot 智能体模式正式登陆 Visual Studio 17 14 预览版 开发者可通过提示让 Copilot 自主处理从计划 构建 测试到修复的整个开发流程 [1] - 智能体模式下的 Copilot 不仅能写代码 还能基于指令进行迭代处理 持续检查并执行任务 不断优化输出直到完成任务 [3] - 微软简化 Copilot 体验 智能体模式将成为应用代码更改的全新默认方式 是 GitHub Copilot Chat 中"Edits"功能的下一代进化版 [4] 智能体模式核心功能 - 自主确定上下文与编辑文件 无需手动指定 能智能判断相关上下文和文件 [5] - 建议终端命令供审批执行 生成必要终端命令并在确认后执行 [5] - 持续迭代直至任务完成 不断检查错误 运行构建/测试验证结果 [5] - 通过 MCP 服务器调用可信工具 如代码风格检查工具 测试运行器和静态分析器等 [5] 使用与配置方法 - 使用 Visual Studio 17 14 正式版或更高版本 智能体模式默认关闭 [4] - 在 Copilot Chat 窗口切换到"Agent"标签 给出高阶指令 通过 IDE 右上角 Copilot 徽章访问窗口 [6] - 打开功能搜索(Ctrl + Q) 搜索 copilot-chat agent 启用 Copilot Chat Agent Enabled [8] 应用场景与特性 - 编辑范围 自主搜索代码库并确定相关上下文和要编辑的文件 [9] - 任务复杂度 擅长处理超出简单代码编辑的复杂任务 适合涉及工具调用和终端命令的项目 [9] - 响应时长 处理请求可能涉及多个步骤 获得响应需要更长时间 [9] - 自我迭代 能评估生成编辑结果 多次迭代解决中间问题 [9] - 多重请求 简单提示可能导致向后端发起多次请求 [9] 示例提示与扩展能力 - 示例提示包括"为这个 API 添加错误处理" "将此项目转换为使用环境变量"等 [9] - 引入模型上下文协议(MCP)服务器支持 作为通用适配器连接外部工具 数据源和资源 [7] - 能与云环境(如 Azure 服务)交互 查询管理数据库 操作版本控制平台等 [7] 更新计划 - 微软宣布 Visual Studio 将针对 Copilot 更新转向月度发布计划 功能迭代将更频繁敏捷 [7]
破解百年数学难题,刷新算法认知!DeepMind 发布超级编码智能体 AlphaEvolve
AI科技大本营· 2025-05-15 14:14
【编者按】继 AlphaGo、AlphaFold 之后,谷歌 DeepMind 带来的全新 AI 编程智能体 AlphaEvolve 横空出世,它巧妙地结合了大型语言模型(LLM)的创 造力与自动化评估机制,不仅在矩阵乘法等经典数学问题上取得新突破,更在谷歌数据中心优化、芯片设计乃至 AI 自身训练等实际应用中展现出惊人实 力,为我们揭示了 AI 驱动算法发现的广阔前景。 整理| 梦依丹 出品丨AI 科技大本营(ID:rgznai100) 不仅是直接写代码,而是进化出的「解决方案」 与传统的代码生成工具不同,AlphaEvolve 并不追求"直接产出答案",而是像演化生物一样迭代出越来越优秀的解决策略。它的背后是 Google DeepMind 最新的大语言模型家族 Gemini——其中 Gemini 2.0 Flash 负责高效率生成大量思路,Gemini 2.0 Pro 则在关键节点提供更深层的方案优 化。 其核心能力有: 5 月 14 日,Google DeepMind 正式官宣推出 AlphaEvolve——一款由 Gemini 强力驱动、专注于算法发现的编码智能体。 这款全新的 AI 智能体, 堪称 ...
完全开源的7B模型,性能比肩主流LLM,训练成本仅16万美元,复现DeepSeek的强化学习!
AI科技大本营· 2025-05-14 17:31
生成式AI行业现状 - 全球科技圈因GPT-3等生成式AI技术爆发而加速发展,但主流闭源模型(如GPT-4、Claude 3)的运作机制不透明,商业化受限且API费用高昂[1][6] - 开源模型普遍仅公开权重,关键训练代码、数据集和配置被隐藏,阻碍学术研究与商业应用[6] Moxin-7B的核心突破 - 采用全透明开源策略,公开从数据清洗到强化学习的全流程细节,包括预训练代码、超参数配置、数据处理脚本等[2][5][7] - 数据集透明度高:预训练使用SlimPajama(627B tokens)和DCLM-BASELINE,指令微调采用Tulu 3和Infinity Instruct,强化学习数据来自OpenThoughts和OpenR1-Math-220k[7][8] - 高性能低成本:7B参数模型在零样本任务(ARC-C 58.64%)、数学推理(MATH-500 68%)超越更大规模模型(如70B参数的Llama-3-Instruct)[9][21] 技术创新与架构优化 - 基于Mistral-7B增强:36层Transformer(原版32层),4096维隐藏层,GQA+SWA支持32K长文本处理,推理速度更快且内存占用更低[14][17] - 数据策略严格:通过MinHash-LSH技术去重(相似度阈值0.8),清洗后保留627B Token(RedPajama原版的49%),代码数据来自The Stack-dedup(6TB开源代码)[15] - 训练成本仅16万美元(GPT-3训练成本460万美元),采用混合精度训练和滚动缓存机制优化效率[15][17] 评测表现对比 - Base模型:Moxin-7B-Enhanced在HellaSwag(80.03)、ARC-C(58.64%)等任务上超越LLaMA 3.1-8B、Qwen2-7B等同类模型[20] - Instruct模型:Moxin-7B-DPO在GSM8K(81.19)、MATH(36.42)等任务表现优于Qwen2.5-7B-Instruct[20] - Reasoning模型:Moxin-7B-Reasoning在MATH-500(68.6%)超越Llama-3.1-70B-Instruct(64.6%),验证小模型强化学习效果[21] 开源生态价值 - 提供完整开源资源:包括Base/Instruct/Reasoning模型权重、训练框架DeepScaleR和AReal,支持社区复现[12][23] - 为中小企业和研究团队提供可控AI解决方案,降低技术门槛[23]