Workflow
AI科技大本营
icon
搜索文档
破解百年数学难题,刷新算法认知!DeepMind 发布超级编码智能体 AlphaEvolve
AI科技大本营· 2025-05-15 14:14
核心观点 - 谷歌DeepMind推出由Gemini驱动的AI编程智能体AlphaEvolve 通过结合大型语言模型的创造力与自动化评估及进化机制 在算法设计领域实现突破 不仅提升数学问题解决能力 更在数据中心优化 芯片设计和AI训练等实际应用中取得显著成效 [1][2][4] 技术架构 - 大型语言模型驱动:利用Gemini 2.0 Flash高效生成思路 Gemini 2.0 Pro提供深层方案优化 深度理解问题并创造性提出新算法代码 [4][6] - 自动化评估系统:对LLM生成的每个算法方案进行客观量化打分 精准评估准确性与效率 [6] - 进化机制:采用进化策略迭代改进最佳算法 从不同优秀方案中重组核心思路 进化出更强大算法 [6][8] - 协同工作模式使AlphaEvolve能进化出包含数百行代码的完整程序 应对更复杂挑战 [8] 实际应用成效 - 数据中心调度:提出新启发式策略 在Google全球部署超一年 提升0.7%计算资源使用率 [11][12] - 芯片设计:成功重写Verilog硬件描述代码 删除冗余比特位 功能保持正确 已集成至下一代TPU设计 [13] - AI训练优化:优化Gemini模型关键矩阵计算 训练时间缩短1% 核心kernel速度提升23% 对FlashAttention组件优化带来32.5%加速效果 [14][15] 数学领域突破 - 矩阵乘法算法:针对4x4复数矩阵乘法找到仅需48次标量乘法的算法 超越1969年Strassen经典算法 [19] - 开放问题解决:在50多个数学开放问题中 75%情况成功重现当前最优解 20%问题提出优于现有解的新方案 [22] - 几何难题突破:在300多年历史的接吻数问题中找到包含593个外接球的新构型 在11维空间建立最新下界 [22] 行业影响 - 代表通用算法发现的关键进展 开辟大模型与自动化推理结合新路径 [24] - 被评价为AI在自主设计与优化算法领域的一大飞跃 [24]
完全开源的7B模型,性能比肩主流LLM,训练成本仅16万美元,复现DeepSeek的强化学习!
AI科技大本营· 2025-05-14 17:31
生成式AI行业现状 - 全球科技圈因GPT-3等生成式AI技术爆发而加速发展,但主流闭源模型(如GPT-4、Claude 3)的运作机制不透明,商业化受限且API费用高昂[1][6] - 开源模型普遍仅公开权重,关键训练代码、数据集和配置被隐藏,阻碍学术研究与商业应用[6] Moxin-7B的核心突破 - 采用全透明开源策略,公开从数据清洗到强化学习的全流程细节,包括预训练代码、超参数配置、数据处理脚本等[2][5][7] - 数据集透明度高:预训练使用SlimPajama(627B tokens)和DCLM-BASELINE,指令微调采用Tulu 3和Infinity Instruct,强化学习数据来自OpenThoughts和OpenR1-Math-220k[7][8] - 高性能低成本:7B参数模型在零样本任务(ARC-C 58.64%)、数学推理(MATH-500 68%)超越更大规模模型(如70B参数的Llama-3-Instruct)[9][21] 技术创新与架构优化 - 基于Mistral-7B增强:36层Transformer(原版32层),4096维隐藏层,GQA+SWA支持32K长文本处理,推理速度更快且内存占用更低[14][17] - 数据策略严格:通过MinHash-LSH技术去重(相似度阈值0.8),清洗后保留627B Token(RedPajama原版的49%),代码数据来自The Stack-dedup(6TB开源代码)[15] - 训练成本仅16万美元(GPT-3训练成本460万美元),采用混合精度训练和滚动缓存机制优化效率[15][17] 评测表现对比 - Base模型:Moxin-7B-Enhanced在HellaSwag(80.03)、ARC-C(58.64%)等任务上超越LLaMA 3.1-8B、Qwen2-7B等同类模型[20] - Instruct模型:Moxin-7B-DPO在GSM8K(81.19)、MATH(36.42)等任务表现优于Qwen2.5-7B-Instruct[20] - Reasoning模型:Moxin-7B-Reasoning在MATH-500(68.6%)超越Llama-3.1-70B-Instruct(64.6%),验证小模型强化学习效果[21] 开源生态价值 - 提供完整开源资源:包括Base/Instruct/Reasoning模型权重、训练框架DeepScaleR和AReal,支持社区复现[12][23] - 为中小企业和研究团队提供可控AI解决方案,降低技术门槛[23]
Ruby on Rails 之父 DHH 预言:未来“写代码”会变成不合时宜的念头!
AI科技大本营· 2025-05-14 17:31
氛围编程(Vibe Coding)概念 - 前OpenAI研究员Andrej Karpathy提出"氛围编程"概念,展示即使不会Swift也能靠AI在一小时内开发iOS应用[1] - AI辅助编程已成趋势,开发者工具Cursor正挑战VS Code地位[3] - 腾讯推出AI编程助手CodeBuddy,是中国首个支持MCP协议的代码助手[3] 氛围编程的商业化案例 - 开发者利用氛围编程在30天内打造AI产品,实现$7,000月收入(MRR)[5][7] - 项目开发仅用AI工具完成全流程:Cursor构建+AI冷启动邮件投放+ChatGPT/Gemini获取市场洞察[7] - 策略核心为AI全流程闭环,单人即可完成创业流程[8] 行业争议与观点 - Ruby on Rails创始人DHH认为AI应作为辅助工具而非完全外包,强调编程本身应具有乐趣[11][13][15] - 开发者反驳称AI能处理重复代码,让人专注核心逻辑;现实工作中技术债问题使AI成为必要工具[18][21] - 市场压力迫使开发者使用AI提升效率,否则可能失去竞争力[23] - AI降低编程门槛,使非程序员也能参与创作,实现"人人都是开发者"[24] 技术哲学视角 - 编程语言本质是抽象层,AI只是抽象过程的延续[22] - 资深工程师认为AI可作为合作者,但人类仍需掌握主导权[25] 行业动态 - 腾讯入局AI编程领域,CodeBuddy具备Agent智能体和MCP协议支持[3] - 开发者社区涌现AI工具组合创业案例,验证氛围编程的商业可行性[4][7]
那位曾高喊「AI能接管一切」的CEO后悔了:宣布重启人工招聘!
AI科技大本营· 2025-05-13 20:03
Klarna的AI战略与人力资源调整 - 公司CEO Sebastian Siemiatkowski曾宣称AI可取代所有人类工作,包括CEO岗位,并在2024年12月使用AI克隆体发布财报[1][2] - 2024年9月公司计划通过"自然减员"将员工数从4500人缩减至3500人,并设定了进一步缩减至2000人的目标[2] - AI客服系统上线后取代了相当于700名人类客服的工作量,完成230万次客户对话,覆盖35种语言[3] AI实施效果与财务影响 - AI战略显著改善财务状况:公司估值从2022年的67亿美元升至2024年底的146亿美元[8] - AI初期表现亮眼,接手了75%的客服量,但实际效果不佳,被批评为"智能版FAQ索引器",无法解决复杂问题[8][9] - AI节省的薪资成本部分转化为留任员工加薪,形成"AI替人,人领钱"的激励机制[5] 战略调整与重新招聘 - 公司承认AI客服导致服务质量下降,决定重启人工招聘,重点打造"高质量人类支持"[11][12] - 新招聘计划针对三类人群:在校大学生、偏远地区居民和忠实用户,全部采用远程工作模式[12] - CEO改口称过去几年专注AI的策略不正确,强调真人服务对品牌和客户体验的关键性[11][12] AI与人类协作的行业启示 - 案例揭示了AI能力的边界:虽能提升效率和降低成本,但无法完全替代人类尤其在关键业务环节[14] - 公司从"取代人类"的激进立场转向"辅助人类"的理性定位,体现技术理想与商业现实的平衡[14] - 行业趋势显示AI是发展方向,但人类仍是不可替代的关键齿轮[13][14]
“由 AI 生成的代码,从诞生那一刻起就是「遗留代码」!”
AI科技大本营· 2025-05-12 18:25
AI生成代码的特性分析 - AI生成的代码缺乏上下文记忆和维护连续性,一诞生就处于"他人旧作"的状态 [1] - AI生成的代码具有"无状态"特性,无法真正理解作者意图或拥有时间点记忆 [3] - 每次AI生成的代码都像是"由别人写的",跳过了"新代码"阶段直接进入"旧代码"模式 [5] 代码生命周期与维护行为 - 代码演进速度取决于编写时间远近和维护者是否为原作者 [1] - 人类维护者对不同时期代码的四种典型态度:近期自写代码最易改进,他人旧代码最不愿改动 [4] - 遗留代码的本质是支撑代码的"理论"随原作者离开而失传,仅保留低保真表达的代码和文档 [8] 行业解决方案与发展趋势 - 开发者尝试通过精心构造提示、设计上下文窗口和详细注释来弥补AI缺陷 [5] - Chain of Thought技术可能解决AI无状态问题,通过重新激活上下文理解代码 [10] - 未来代码可能更依赖模型推理和提示生成,而非长期维护的静态结构 [5] LLM时代的理论构建探讨 - LLM可能隐含某种尚未被理解的"程序理论",或能从代码中逐步构建理论 [12] - 技术债管理新思路:保存Prompt可帮助理解代码存在原因,优于人类记忆 [10] - 理论掌握权可能转移至写prompt的人而非写代码的人 [12] 行业观点与讨论 - 软件开发本质是开发者集体心智构建的"理论",代码只是其低保真表达 [8] - 人类开发者常通过"时代写法"解释代码,部分确实反映历史约束条件 [9] - 代码提示生成可能成为短期/中期的过渡桥梁,而非长期维护对象 [6]
图像提供身份,文本定义一切!腾讯开源多模态视频定制工具HunyuanCustom
AI科技大本营· 2025-05-09 17:35
多模态视频生成技术 - 腾讯混元团队推出并开源多模态定制化视频生成框架HunyuanCustom,支持图像、文本、音频和视频等多种输入模态,提供高度可控且高质量的视频生成能力 [1] - 传统图生视频或文生视频模型难以保持人物身份不变,HunyuanCustom通过引入基于LLaVA的图文融合模块和时间级联的图像ID增强机制解决"变脸难题" [3] - HunyuanCustom支持上传照片生成定制化视频内容,支持音频驱动让视频中人物"开口说话",支持视频输入实现个性化内容植入 [5] 系统架构与性能表现 - HunyuanCustom设计了多个关键模块,在训练与推理阶段实现图像、语音、视频等模态的解耦控制,为多模态生成提供灵活接口 [6] - 在对比测试中,HunyuanCustom在主体一致性(0.627)方面显著领先其他模型,DINO-Sim得分达0.593,整体视频质量评分(DD)为0.71 [9] - 测试对比模型包括VACE、Skyreels、Pika、Vidu、Keling和Hailuo等主流视频定制方法 [8] 技术实现与数据构建 - 团队引入Qwen、YOLO、InsightFace、GroundingSAM2等模型协同构建数据标签体系,覆盖人类、动物、植物、建筑、动画等多个主体类型 [11] - 训练采用Flow Matching框架,结合结构化标注和mask增强策略,提升模型泛化能力与编辑灵活度 [11] - 技术模块包括LLaVA图文交互模块、图像ID增强模块、AudioNet模块和视频驱动注入模块 [11] 产品发布与体验 - HunyuanCustom的单主体生成能力已在混元官网上线,用户可在"模型广场-图生视频-参考生视频"中体验,其他能力将于5月内陆续对外开源 [10] - 提供体验入口、项目官网、代码仓库和技术报告等资源链接 [12]
颠覆谷歌搜索API,成本降至88%,阿里开源RL框架ZeroSearch,重新定义AI搜索!
AI科技大本营· 2025-05-09 17:35
阿里巴巴通义团队开源ZeroSearch解决方案 - 仅需70.8美元在4块A100 GPU上运行140亿参数模型,即可获得媲美谷歌搜索的AI搜索能力 [1] - ZeroSearch是由大模型驱动的生成式搜索引擎框架,训练过程无需调用外部搜索接口,实现低成本高性能检索能力构建 [1] - 解决方案通过强化学习框架在不与真实搜索引擎交互的前提下训练出"搜索能力" [2] ZeroSearch技术原理 - 采用轻量级监督微调将大模型转化为检索模块,能根据查询生成相关与干扰文档 [2][8] - 引入基于课程学习的rollout策略,逐步降低生成文档质量,挑战模型推理和检索能力 [8] - 训练过程中由模拟引擎直接生成文档模拟搜索结果,完全无需调用真实搜索引擎 [6] 性能表现与成本优势 - 在多个实验场景中实现80%-90%训练成本降低 [10] - 使用14B参数模型训练成本仅70.8美元,相比传统方法成本降低高达88% [16] - 7B参数模型已可与谷歌搜索媲美,14B参数版本甚至超越谷歌搜索结果质量 [15] 实验结果 - 在NQ、TriviaQA等7个公开问答数据集上均超过或持平使用真实搜索引擎训练的模型 [15] - ZeroSearch-inst版本在多个任务中表现最佳,平均得分达40.54 [11] - 在TriviaQA任务中得分高达63.54,显著优于谷歌搜索的61.22 [11][15] 应用与扩展性 - 方案已开源代码、数据集和预训练模型 [15] - 可广泛兼容各类LLM,包括Qwen 2.5与LLaMA 3.2等基础版与指令微调版 [16] - 显示出极强的可泛化性和扩展能力 [16]
AI不靠“闭门造神”,海内外一线专家共探智能新纪元,GOSIM AI Paris 2025圆满收官!
AI科技大本营· 2025-05-08 08:23
开源与AI融合趋势 - 开源和开放标准正逐步成为推动人工智能发展的核心力量,企业和用户越来越需要透明、安全且可信的系统[5] - Linux基金会正在推动一项专为AI模型设计的新型许可证OpenMDW,涵盖模型架构、数据集、参数、文档与工具[7] - 开源AI的成功不仅源于代码本身,更来自于一个中立、开放且富有活力的社区[5] 大模型技术发展趋势 - 多模态统一架构成为重要方向,Meta的BLT架构展示了这一方向的可行性,2025年有望诞生具突破性的统一模型[3] - 高效注意力机制快速发展,包括线性注意力、动态稀疏注意力和混合注意力等[3] - 二阶优化正逐步应用于大规模训练场景,未来将在提升训练效率和模型泛化能力方面扮演关键角色[3] - 后训练阶段成为关键环节,在特定任务优化中发挥越来越重要的作用[6] AI基础设施演进 - Docker Model Runner可实现本地化GPU推理,加速AI应用落地[12] - Kubetorch在ML模型执行与部署流程中展现高效性与可调试性[12] - RAGFlow通过开源手段解决数据质量差、语义匹配低等难题,提升企业级RAG系统表现[13] - WGML基于Rust与WebGPU构建轻量化、高性能的GPU推理框架[13] AI应用与智能体发展 - OAKS架构以知识图谱和AI记忆系统为核心,强调开放式生态对智能体成长的意义[16] - OpenManus通过增强推理规划和跨环境运行能力,为LLM智能体应用拓展新可能性[16] - CAMEL框架深入研究智能体社群行为与协作机制[17] - Agentic Search为智能体的信息获取与决策提供新思路[17] 具身智能前沿进展 - Unitree开源G1类人机器人的运行数据集,支持多种开源解决方案[19] - 将语言模型接入机器人,通过手势、声音与表情实现人工共情[20] - 新型数据采集框架支持跨任务、跨环境的机器人泛化学习[20] - "大脑-小脑协同"框架融合高层认知推理与快速低延迟运动响应[20] 开源模型实践案例 - Qwen系列模型在多语言理解与生成任务中实现能力突破[9] - LUCIE-7B模型实现从训练代码到数据集全开放[10] - MiniCPM展示小模型在效率和性能上的平衡优势[10] - Llama 4在具身智能场景中展现自主决策与人机协作潜力[28] PyTorch生态创新 - TorchCodec优化解码流程,使视频和音频数据高效转换为PyTorch张量[27] - vLLM扩展大语言模型推理,借助多加速器部署与量化技术提升性能[27] - DeepSpeed在极大规模模型训练的计算、通信和I/O优化方面发挥作用[30] - Lightning Thunder将PyTorch代码编译为优化的分布式代码[30]
智源研究院发布中英文高质量数据集CCI4.0,推动全球人工智能开源创新
AI科技大本营· 2025-05-07 22:02
智源研究院发布CCI 4.0语料库 - 智源研究院在GOSIM论坛正式发布中文互联网语料库CCI 4.0 包含中英双语的三个子数据集CCI4 0-M2-Base V1 CCI4 0-M2-CoT V1和CCI4 0-M2-Extra V1 [1] - CCI4 0-M2-Base V1数据量达35000GB 其中中文数据5000GB 较CCI3 0规模增长5倍 [1] - CCI4 0-M2-CoT V1包含4 5亿条逆向合成思考轨迹数据 总token数量4250亿 规模超全球最大开源合成数据集Cosmopedia近20倍 [1] CCI系列数据集发展历程 - 智源研究院自2023年10月起牵头建设CCI系列数据集 已迭代至4 0版本 前三个版本总数据量达1 6TB [5] - CCI系列累计下载量突破14万次 支持500余家企事业单位的大模型研发 推动中文语料全球输出 [5] CCI4 0数据来源与处理 - 数据来源包括Nemotron-CC ChineseWebText2 0等开源数据集 并与百度 阿里 华为等17家单位合作确保数据可开源 [9] - 英文数据经过领域分类和流畅度过滤 中文数据额外进行安全敏感词过滤和全局去重 总处理量达6万亿token [10] - 合成数据集经过语义分段 思维链合成等处理 显著提升模型推理能力 [10] 行业趋势与未来计划 - 大规模高质量预训练语料库成为大模型成功关键 DeepSeek-V3等研究证实合成推理数据的重要性 [8] - 公司将持续扩展语料库语言覆盖度 提升质量以支持国内大模型产业发展 [12] 数据获取渠道 - CCI4 0数据集已在Huggingface平台开源 包含Base CoT Extra三个子集 [7]
开源AI引爆热潮!GOSIM AI Paris 2025首日直击:80+位技术大咖聊模型、拼算力、秀落地
AI科技大本营· 2025-05-07 22:02
开源AI生态发展 - 开源AI已实现爆发式增长,大模型技术从巨头垄断转向社区协作共享,覆盖基础架构、算法优化和推理部署等多个层面 [1] - GOSIM AI Paris 2025大会汇聚80余位来自阿里巴巴、Hugging Face、MetaGPT等企业的技术专家,围绕AI模型、基础设施等展开60多场技术分享 [2] - 开源模型如Qwen 3已实现对闭源旗舰模型的性能超越,开源生态呈现陡峭增长曲线 [4] 技术突破与架构演进 - AI架构正从中心化转向去中心化,OpenAI通过Responses API构建分布式智能体平台,吸引60万开发者参与 [5] - 智源研究院发布CCI 4.0语料库,其中CCI4.0-M2-CoT V1包含4250亿token的逆向合成数据,规模较Hugging Face的Cosmopedia提升20倍 [18] - MiniMax提出Lightning Attention机制,有望替代Transformer架构;智谱AI探索跳过分词的技术路径以提升模型效率 [15] 基础设施与工具创新 - 华为昇腾CANN架构支持PyTorch与vLLM生态,实现高效训练推理;北京大学SCOW和CraneSched软件已部署于数十家高校企业 [19] - Oxen.ai详解DeepSeek-R1式强化学习训练流程,包括数据集构建和本地训练代码生成 [19] - Dynamia.ai推出HAMi系统优化异构GPU资源管理,提升AI基础设施利用率 [31] 应用落地与行业实践 - 阿里巴巴通义灵码从Coding Copilot升级为Coding Agent;华为仓颉Magic框架提升HarmonyOS应用开发效率 [22] - Makepad利用氛围编码构建Rust UI新范式;博通Spring团队通过MCP实现AI与现有系统的高效集成 [23] - Cegid Pulse多智能体平台重塑商业流程,实现智能化企业决策 [23] 具身智能与前沿探索 - ZettaScale的Zenoh协议打通机器人感知、执行与认知壁垒;Dora项目实现分布式数据流 [26] - 智源研究院RoboBrain提升机器人操作智能化水平;Voyage Robotics利用开源VLA模型支持机器人应用 [27] - 中科大生成对抗性场景提升自动驾驶安全性;Menlo Research开发空间推理LLM增强机器人环境理解 [26][27] 全球协作与开源项目 - OpenWallet基金会推动《全球数字契约》项目,采用联合召集模式促进跨国界、跨行业协作 [8][9] - Bielik.ai发布1 5B至11B参数的开源语言模型及端到端工具链,降低大模型研发门槛 [29][30] - Eclipse Aidge项目支持边缘智能部署;LlamaEdge实现边缘设备轻量化GenAI推理 [29][31]