AI科技大本营

搜索文档
“烧掉94亿个OpenAI Token后,这些经验帮我们省了43%的成本!”
AI科技大本营· 2025-05-16 09:33
模型选择与成本优化 - 不同模型价格差异显著,GPT-4o-mini输入Token价格为每百万0.15美元,输出为0.60美元,而GPT-4.1输入输出价格分别为2美元和8美元[4][5] - 根据业务需求选择模型组合,简单任务使用低价模型GPT-4o-mini,复杂任务才切换至GPT-4.1,避免使用高价的GPT-4 Turbo[4] - 通过模型组合优化,整体成本降低43%[1] 提示词优化技术 - 利用OpenAI平台自动缓存机制,重复调用相同提示词可降低50%成本,长提示词延迟减少80%[6] - 提示词结构优化,将变化部分置于末尾以确保缓存命中率[6] - 减少输出Token数量,通过返回位置编号和类别替代完整文本,输出Token减少70%[7] 批处理与系统配置 - 非实时任务采用Batch API处理,费用节省50%,尽管存在24小时处理延迟[7] - 未设置账单预警导致5天内耗尽月度预算,凸显监控机制重要性[7] 行业实践争议 - 部分开发者质疑94亿Token消耗的必要性,认为优化策略应提前在系统设计阶段考虑[9] - 压缩输出Token可能影响模型推理质量,需权衡成本与效果,部分场景或适用传统逻辑替代[10] - 其他模型如Gemini因支持多模态和百万Token上下文被提议作为更廉价替代方案[9]
干货超标!腾讯混元3D负责人郭春超:真正的3D AIGC革命,还没开始!
AI科技大本营· 2025-05-16 09:33
腾讯混元大模型家族演进 - 腾讯混元大模型自2023年2月启动研发,从大语言模型向多模态模型全面演进,早期聚焦大语言模型方向并于2023年9月发布基于万亿参数级NLP稀疏大模型的生成式能力 [8] - 2024年5月开源业界首个中文DIT架构图像生成模型实现中文图像生成领域开源突破,同年11月推出3D生成1.0模型成为业内首个同时支持文生3D和图生3D的开源大模型 [8] - 2024年12月混元文生视频模型加入开源行列,经过两年多发展已成长为覆盖文本、语音、图像、3D、视频等多模态能力的全面生成式AI基座 [8] 3D生成技术现状 - 3D生成仍处发展早期阶段,工业界大规模投入仅一年出头,当前可用度约50%相比大语言模型90%的成熟度仍有显著差距 [22] - 技术路线呈现自回归模型与扩散模型结合趋势,前者可提升可控性和记忆能力,后者在推理速度上保持优势 [36][39] - 主要挑战包括数据稀缺(千万量级3D数据vs百亿级图片数据)、工业级CG管线融合度不足、3D表达方式未达最优 [32][43] 行业应用与效率提升 - 传统人工建模成本高昂:游戏角色建模达1.2万元/个需7天,广告建模最低200元/秒需0.5天,而文生3D成本仅0.5元/次耗时约1分钟 [13] - 腾讯混元构建"3D创动引擎"架构,通过草图生3D、纹理换肤生成、动作融合建模和低多边形优化四类技术矩阵实现关键环节30%-40%效率提升 [13][14] - 应用分层明显:轻量小游戏资产已"踮脚可及",腰部游戏可辅助道具生成,3A大作需多轮原型迭代中提效 [31] 开源战略与技术生态 - GitHub Star数超1.2万,Hugging Face下载量超100万,最小开源模型参数仅0.6B支持本地运行 [19][28] - 开源与商业协同发展:开源模型反馈问题促进研发,社区插件可被复用,形成"持续迭代速度"的核心护城河 [28][34] - ComfyUI官方支持实现从草图到完整3D模型的一键生成,年内计划开放更多模型与数据集降低行业门槛 [17][19] 未来发展方向 - 2025年目标实现物体级生成接近人工建模水平,场景类生成具备初步雏形,向原生多模态统一架构演进 [20] - 世界模型构建分阶段推进:先实现局部空间合理性,再扩展至具备物理规律的三维世界,当前已在腾讯地图导航车标等场景落地 [19][42] - 专业工具定位明确:AI不会替代3D设计师而是成为生产力工具,帮助将创意实现效率提升10倍 [46][47]
Visual Studio 重磅更新!擅长处理复杂任务的 GitHub Copilot “智能体模式”预览版上线
AI科技大本营· 2025-05-15 14:14
GitHub Copilot 智能体模式发布 - GitHub Copilot 智能体模式正式登陆 Visual Studio 17 14 预览版 开发者可通过提示让 Copilot 自主处理从计划 构建 测试到修复的整个开发流程 [1] - 智能体模式下的 Copilot 不仅能写代码 还能基于指令进行迭代处理 持续检查并执行任务 不断优化输出直到完成任务 [3] - 微软简化 Copilot 体验 智能体模式将成为应用代码更改的全新默认方式 是 GitHub Copilot Chat 中"Edits"功能的下一代进化版 [4] 智能体模式核心功能 - 自主确定上下文与编辑文件 无需手动指定 能智能判断相关上下文和文件 [5] - 建议终端命令供审批执行 生成必要终端命令并在确认后执行 [5] - 持续迭代直至任务完成 不断检查错误 运行构建/测试验证结果 [5] - 通过 MCP 服务器调用可信工具 如代码风格检查工具 测试运行器和静态分析器等 [5] 使用与配置方法 - 使用 Visual Studio 17 14 正式版或更高版本 智能体模式默认关闭 [4] - 在 Copilot Chat 窗口切换到"Agent"标签 给出高阶指令 通过 IDE 右上角 Copilot 徽章访问窗口 [6] - 打开功能搜索(Ctrl + Q) 搜索 copilot-chat agent 启用 Copilot Chat Agent Enabled [8] 应用场景与特性 - 编辑范围 自主搜索代码库并确定相关上下文和要编辑的文件 [9] - 任务复杂度 擅长处理超出简单代码编辑的复杂任务 适合涉及工具调用和终端命令的项目 [9] - 响应时长 处理请求可能涉及多个步骤 获得响应需要更长时间 [9] - 自我迭代 能评估生成编辑结果 多次迭代解决中间问题 [9] - 多重请求 简单提示可能导致向后端发起多次请求 [9] 示例提示与扩展能力 - 示例提示包括"为这个 API 添加错误处理" "将此项目转换为使用环境变量"等 [9] - 引入模型上下文协议(MCP)服务器支持 作为通用适配器连接外部工具 数据源和资源 [7] - 能与云环境(如 Azure 服务)交互 查询管理数据库 操作版本控制平台等 [7] 更新计划 - 微软宣布 Visual Studio 将针对 Copilot 更新转向月度发布计划 功能迭代将更频繁敏捷 [7]
破解百年数学难题,刷新算法认知!DeepMind 发布超级编码智能体 AlphaEvolve
AI科技大本营· 2025-05-15 14:14
核心观点 - 谷歌DeepMind推出由Gemini驱动的AI编程智能体AlphaEvolve 通过结合大型语言模型的创造力与自动化评估及进化机制 在算法设计领域实现突破 不仅提升数学问题解决能力 更在数据中心优化 芯片设计和AI训练等实际应用中取得显著成效 [1][2][4] 技术架构 - 大型语言模型驱动:利用Gemini 2.0 Flash高效生成思路 Gemini 2.0 Pro提供深层方案优化 深度理解问题并创造性提出新算法代码 [4][6] - 自动化评估系统:对LLM生成的每个算法方案进行客观量化打分 精准评估准确性与效率 [6] - 进化机制:采用进化策略迭代改进最佳算法 从不同优秀方案中重组核心思路 进化出更强大算法 [6][8] - 协同工作模式使AlphaEvolve能进化出包含数百行代码的完整程序 应对更复杂挑战 [8] 实际应用成效 - 数据中心调度:提出新启发式策略 在Google全球部署超一年 提升0.7%计算资源使用率 [11][12] - 芯片设计:成功重写Verilog硬件描述代码 删除冗余比特位 功能保持正确 已集成至下一代TPU设计 [13] - AI训练优化:优化Gemini模型关键矩阵计算 训练时间缩短1% 核心kernel速度提升23% 对FlashAttention组件优化带来32.5%加速效果 [14][15] 数学领域突破 - 矩阵乘法算法:针对4x4复数矩阵乘法找到仅需48次标量乘法的算法 超越1969年Strassen经典算法 [19] - 开放问题解决:在50多个数学开放问题中 75%情况成功重现当前最优解 20%问题提出优于现有解的新方案 [22] - 几何难题突破:在300多年历史的接吻数问题中找到包含593个外接球的新构型 在11维空间建立最新下界 [22] 行业影响 - 代表通用算法发现的关键进展 开辟大模型与自动化推理结合新路径 [24] - 被评价为AI在自主设计与优化算法领域的一大飞跃 [24]
完全开源的7B模型,性能比肩主流LLM,训练成本仅16万美元,复现DeepSeek的强化学习!
AI科技大本营· 2025-05-14 17:31
生成式AI行业现状 - 全球科技圈因GPT-3等生成式AI技术爆发而加速发展,但主流闭源模型(如GPT-4、Claude 3)的运作机制不透明,商业化受限且API费用高昂[1][6] - 开源模型普遍仅公开权重,关键训练代码、数据集和配置被隐藏,阻碍学术研究与商业应用[6] Moxin-7B的核心突破 - 采用全透明开源策略,公开从数据清洗到强化学习的全流程细节,包括预训练代码、超参数配置、数据处理脚本等[2][5][7] - 数据集透明度高:预训练使用SlimPajama(627B tokens)和DCLM-BASELINE,指令微调采用Tulu 3和Infinity Instruct,强化学习数据来自OpenThoughts和OpenR1-Math-220k[7][8] - 高性能低成本:7B参数模型在零样本任务(ARC-C 58.64%)、数学推理(MATH-500 68%)超越更大规模模型(如70B参数的Llama-3-Instruct)[9][21] 技术创新与架构优化 - 基于Mistral-7B增强:36层Transformer(原版32层),4096维隐藏层,GQA+SWA支持32K长文本处理,推理速度更快且内存占用更低[14][17] - 数据策略严格:通过MinHash-LSH技术去重(相似度阈值0.8),清洗后保留627B Token(RedPajama原版的49%),代码数据来自The Stack-dedup(6TB开源代码)[15] - 训练成本仅16万美元(GPT-3训练成本460万美元),采用混合精度训练和滚动缓存机制优化效率[15][17] 评测表现对比 - Base模型:Moxin-7B-Enhanced在HellaSwag(80.03)、ARC-C(58.64%)等任务上超越LLaMA 3.1-8B、Qwen2-7B等同类模型[20] - Instruct模型:Moxin-7B-DPO在GSM8K(81.19)、MATH(36.42)等任务表现优于Qwen2.5-7B-Instruct[20] - Reasoning模型:Moxin-7B-Reasoning在MATH-500(68.6%)超越Llama-3.1-70B-Instruct(64.6%),验证小模型强化学习效果[21] 开源生态价值 - 提供完整开源资源:包括Base/Instruct/Reasoning模型权重、训练框架DeepScaleR和AReal,支持社区复现[12][23] - 为中小企业和研究团队提供可控AI解决方案,降低技术门槛[23]
Ruby on Rails 之父 DHH 预言:未来“写代码”会变成不合时宜的念头!
AI科技大本营· 2025-05-14 17:31
氛围编程(Vibe Coding)概念 - 前OpenAI研究员Andrej Karpathy提出"氛围编程"概念,展示即使不会Swift也能靠AI在一小时内开发iOS应用[1] - AI辅助编程已成趋势,开发者工具Cursor正挑战VS Code地位[3] - 腾讯推出AI编程助手CodeBuddy,是中国首个支持MCP协议的代码助手[3] 氛围编程的商业化案例 - 开发者利用氛围编程在30天内打造AI产品,实现$7,000月收入(MRR)[5][7] - 项目开发仅用AI工具完成全流程:Cursor构建+AI冷启动邮件投放+ChatGPT/Gemini获取市场洞察[7] - 策略核心为AI全流程闭环,单人即可完成创业流程[8] 行业争议与观点 - Ruby on Rails创始人DHH认为AI应作为辅助工具而非完全外包,强调编程本身应具有乐趣[11][13][15] - 开发者反驳称AI能处理重复代码,让人专注核心逻辑;现实工作中技术债问题使AI成为必要工具[18][21] - 市场压力迫使开发者使用AI提升效率,否则可能失去竞争力[23] - AI降低编程门槛,使非程序员也能参与创作,实现"人人都是开发者"[24] 技术哲学视角 - 编程语言本质是抽象层,AI只是抽象过程的延续[22] - 资深工程师认为AI可作为合作者,但人类仍需掌握主导权[25] 行业动态 - 腾讯入局AI编程领域,CodeBuddy具备Agent智能体和MCP协议支持[3] - 开发者社区涌现AI工具组合创业案例,验证氛围编程的商业可行性[4][7]
那位曾高喊「AI能接管一切」的CEO后悔了:宣布重启人工招聘!
AI科技大本营· 2025-05-13 20:03
Klarna的AI战略与人力资源调整 - 公司CEO Sebastian Siemiatkowski曾宣称AI可取代所有人类工作,包括CEO岗位,并在2024年12月使用AI克隆体发布财报[1][2] - 2024年9月公司计划通过"自然减员"将员工数从4500人缩减至3500人,并设定了进一步缩减至2000人的目标[2] - AI客服系统上线后取代了相当于700名人类客服的工作量,完成230万次客户对话,覆盖35种语言[3] AI实施效果与财务影响 - AI战略显著改善财务状况:公司估值从2022年的67亿美元升至2024年底的146亿美元[8] - AI初期表现亮眼,接手了75%的客服量,但实际效果不佳,被批评为"智能版FAQ索引器",无法解决复杂问题[8][9] - AI节省的薪资成本部分转化为留任员工加薪,形成"AI替人,人领钱"的激励机制[5] 战略调整与重新招聘 - 公司承认AI客服导致服务质量下降,决定重启人工招聘,重点打造"高质量人类支持"[11][12] - 新招聘计划针对三类人群:在校大学生、偏远地区居民和忠实用户,全部采用远程工作模式[12] - CEO改口称过去几年专注AI的策略不正确,强调真人服务对品牌和客户体验的关键性[11][12] AI与人类协作的行业启示 - 案例揭示了AI能力的边界:虽能提升效率和降低成本,但无法完全替代人类尤其在关键业务环节[14] - 公司从"取代人类"的激进立场转向"辅助人类"的理性定位,体现技术理想与商业现实的平衡[14] - 行业趋势显示AI是发展方向,但人类仍是不可替代的关键齿轮[13][14]
“由 AI 生成的代码,从诞生那一刻起就是「遗留代码」!”
AI科技大本营· 2025-05-12 18:25
AI生成代码的特性分析 - AI生成的代码缺乏上下文记忆和维护连续性,一诞生就处于"他人旧作"的状态 [1] - AI生成的代码具有"无状态"特性,无法真正理解作者意图或拥有时间点记忆 [3] - 每次AI生成的代码都像是"由别人写的",跳过了"新代码"阶段直接进入"旧代码"模式 [5] 代码生命周期与维护行为 - 代码演进速度取决于编写时间远近和维护者是否为原作者 [1] - 人类维护者对不同时期代码的四种典型态度:近期自写代码最易改进,他人旧代码最不愿改动 [4] - 遗留代码的本质是支撑代码的"理论"随原作者离开而失传,仅保留低保真表达的代码和文档 [8] 行业解决方案与发展趋势 - 开发者尝试通过精心构造提示、设计上下文窗口和详细注释来弥补AI缺陷 [5] - Chain of Thought技术可能解决AI无状态问题,通过重新激活上下文理解代码 [10] - 未来代码可能更依赖模型推理和提示生成,而非长期维护的静态结构 [5] LLM时代的理论构建探讨 - LLM可能隐含某种尚未被理解的"程序理论",或能从代码中逐步构建理论 [12] - 技术债管理新思路:保存Prompt可帮助理解代码存在原因,优于人类记忆 [10] - 理论掌握权可能转移至写prompt的人而非写代码的人 [12] 行业观点与讨论 - 软件开发本质是开发者集体心智构建的"理论",代码只是其低保真表达 [8] - 人类开发者常通过"时代写法"解释代码,部分确实反映历史约束条件 [9] - 代码提示生成可能成为短期/中期的过渡桥梁,而非长期维护对象 [6]
图像提供身份,文本定义一切!腾讯开源多模态视频定制工具HunyuanCustom
AI科技大本营· 2025-05-09 17:35
多模态视频生成技术 - 腾讯混元团队推出并开源多模态定制化视频生成框架HunyuanCustom,支持图像、文本、音频和视频等多种输入模态,提供高度可控且高质量的视频生成能力 [1] - 传统图生视频或文生视频模型难以保持人物身份不变,HunyuanCustom通过引入基于LLaVA的图文融合模块和时间级联的图像ID增强机制解决"变脸难题" [3] - HunyuanCustom支持上传照片生成定制化视频内容,支持音频驱动让视频中人物"开口说话",支持视频输入实现个性化内容植入 [5] 系统架构与性能表现 - HunyuanCustom设计了多个关键模块,在训练与推理阶段实现图像、语音、视频等模态的解耦控制,为多模态生成提供灵活接口 [6] - 在对比测试中,HunyuanCustom在主体一致性(0.627)方面显著领先其他模型,DINO-Sim得分达0.593,整体视频质量评分(DD)为0.71 [9] - 测试对比模型包括VACE、Skyreels、Pika、Vidu、Keling和Hailuo等主流视频定制方法 [8] 技术实现与数据构建 - 团队引入Qwen、YOLO、InsightFace、GroundingSAM2等模型协同构建数据标签体系,覆盖人类、动物、植物、建筑、动画等多个主体类型 [11] - 训练采用Flow Matching框架,结合结构化标注和mask增强策略,提升模型泛化能力与编辑灵活度 [11] - 技术模块包括LLaVA图文交互模块、图像ID增强模块、AudioNet模块和视频驱动注入模块 [11] 产品发布与体验 - HunyuanCustom的单主体生成能力已在混元官网上线,用户可在"模型广场-图生视频-参考生视频"中体验,其他能力将于5月内陆续对外开源 [10] - 提供体验入口、项目官网、代码仓库和技术报告等资源链接 [12]
颠覆谷歌搜索API,成本降至88%,阿里开源RL框架ZeroSearch,重新定义AI搜索!
AI科技大本营· 2025-05-09 17:35
阿里巴巴通义团队开源ZeroSearch解决方案 - 仅需70.8美元在4块A100 GPU上运行140亿参数模型,即可获得媲美谷歌搜索的AI搜索能力 [1] - ZeroSearch是由大模型驱动的生成式搜索引擎框架,训练过程无需调用外部搜索接口,实现低成本高性能检索能力构建 [1] - 解决方案通过强化学习框架在不与真实搜索引擎交互的前提下训练出"搜索能力" [2] ZeroSearch技术原理 - 采用轻量级监督微调将大模型转化为检索模块,能根据查询生成相关与干扰文档 [2][8] - 引入基于课程学习的rollout策略,逐步降低生成文档质量,挑战模型推理和检索能力 [8] - 训练过程中由模拟引擎直接生成文档模拟搜索结果,完全无需调用真实搜索引擎 [6] 性能表现与成本优势 - 在多个实验场景中实现80%-90%训练成本降低 [10] - 使用14B参数模型训练成本仅70.8美元,相比传统方法成本降低高达88% [16] - 7B参数模型已可与谷歌搜索媲美,14B参数版本甚至超越谷歌搜索结果质量 [15] 实验结果 - 在NQ、TriviaQA等7个公开问答数据集上均超过或持平使用真实搜索引擎训练的模型 [15] - ZeroSearch-inst版本在多个任务中表现最佳,平均得分达40.54 [11] - 在TriviaQA任务中得分高达63.54,显著优于谷歌搜索的61.22 [11][15] 应用与扩展性 - 方案已开源代码、数据集和预训练模型 [15] - 可广泛兼容各类LLM,包括Qwen 2.5与LLaMA 3.2等基础版与指令微调版 [16] - 显示出极强的可泛化性和扩展能力 [16]