Workflow
AI科技大本营
icon
搜索文档
性能媲美GPT-4o 和 Gemini2 Flash,阶跃星辰开源通用图像编辑模型Step1X-Edit
AI科技大本营· 2025-04-27 15:12
阶跃星辰Step1X-Edit模型发布 - 阶跃星辰发布开源图像编辑大模型Step1X-Edit,性能达到开源体系SOTA水平,可与GPT-4o和Gemini 2 Flash等闭源模型媲美 [2] - Step1X-Edit由19B参数构成(7B MLLM + 12B DiT),具备语义精准解析、身份一致性保持和高精度区域级控制三项核心能力,支持11类高频图像编辑任务 [4] - 模型首次在开源体系中实现多模态语言理解与扩散图像生成的深度融合,通过自建高质量数据生成管道和GEdit-Bench基准评测,显著优于现有开源模型 [5] 技术架构与创新 - Step1X-Edit架构包含三大核心组件:多模态大型语言模型(MLLM)、连接模块以及扩散Transformer(DiT) [6] - 模型采用单次前向传递捕获文本与视觉语义关系,通过令牌精炼器重组嵌入特征,并引入全局视觉引导向量提升上下文感知能力 [10] - 训练阶段融合FLUX-Fill令牌连接机制,联合优化连接模块与DiT网络,采用Qwen与DiT预训练权重实现快速收敛 [10] 资源与赛事信息 - Step1X-Edit开源资源包括Github、HuggingFace和ModelScope平台,技术报告发布于arXiv [11][12][13] - AMD 2025 GPU挑战赛聚焦FP8 GEMM、MLA with ROPE和Fused MoE三大算子优化,总奖金10万美元,优胜者可受邀参加AMD Advancing AI Day活动 [14][15] - 赛事时间表显示注册截止为2025年4月30日,提交窗口分阶段开放,中国大陆参赛者需通过Github CLI工具提交 [17][18][19]
一文搞懂:RAG、Agent与多模态的行业实践与未来趋势
AI科技大本营· 2025-04-27 15:12
大模型技术演进 - 大模型作为产业变革核心引擎,通过RAG、Agent与多模态技术重塑AI与现实的交互边界,推动行业从效率革新迈向业务重构 [1][2] - RAG突破大模型静态知识边界,解决数据时效性、隐私安全与专业适配等关键难题 [2][12] - Agent重构人机协作范式,具备自主决策与多任务协同能力 [2][5] - 多模态大模型解锁复杂场景落地潜力,实现跨模态语义理解 [2][6] RAG技术 - RAG通过外挂实时知识库解决大模型知识固定、数据隐私、可解释性及成本优化问题 [12][14][15][16] - 相比传统生成模型,RAG支持动态知识更新、答案可追溯至检索文档,适用于需事实性支持的场景 [17][19] - RAG构建面临文本向量化、多模态文档处理及可控检索等挑战,需优化分块策略与检索架构 [20][21][23][27] - 未来方向包括多模态文档统一处理范式与记忆驱动RAG,后者利用LLM的KV缓存实现动态索引 [28][32][34] Agent技术 - Agent通过感知层、决策层、执行层形成自主性系统,结合LLM、规划与工具实现复杂任务处理 [39][42] - 分为自主智能体(任务执行)与生成智能体(内容创作),MetaGPT和AutoGen为当前主流框架 [44][49][50][52] - Multi-Agent系统通过分布式协作解决非线性动态任务,提升容错能力与资源管理效率 [53][56][58] - 行业应用需突破任务解构、动态环境适应及价值观对齐等难点,采用元学习、联邦学习等技术优化 [59][62][63] 多模态大模型 - 紫东太初项目将目标检测、分割等CV任务统一到图文大模型,增强局部感知能力,在RefCOCO等任务中精度超越专有模型 [67][69][73][74] - 360研究院开放世界目标检测技术提升图像理解与语义融合能力,应用于自动驾驶等领域 [78][79][83] - 腾讯视频号审核系统融合多模态内容理解与文本RAG,通过垂类大模型与分甬道审核提升效率 [84][85][88][92][96] 未来趋势 - 算法层面向全模态能力发展,产品层面涌现人机协同复杂系统,领域层面与垂类场景深度结合 [98][100][103] - RAG、Agent与多模态将深度融合,形成感知-认知-决策闭环,催生手术机器人等新一代产业智能体 [100]
倒计时 6 天!致全球 GPU Kernel 极客:AMD 的 10 万美金“战书”请查收!
AI科技大本营· 2025-04-24 17:09
赛事概述 - AMD发起并全程赞助2025推理优化挑战赛 面向全球GPU kernel开发者 旨在挑战AI推理性能极限 [3] - 赛事总奖金100 000美金 优胜者可受邀赴美参加AMD Advancing AI Day颁奖盛典 [3][4] - 最优方案将深度整合至AMD ROCm开源生态 提升全球影响力 [4] 参赛规则 - 参赛形式支持单人或团队(≤3人) 无国籍限制 需通过AMD官方验证并绑定GitHub ID [6] - 优化目标为三重DeepSeek算子:FP8 GEMM MLA with Rope Fused MoE [6] - 提交方案可使用Triton Composable Kernel或HIP编写 每两周开放PyTorch参考实现及理论性能数据 [6] 技术价值 - 赛事直击AMD GPU底层算力瓶颈 优化成果将定义下一代推理性能标准 [8] - 参赛者无需本地GPU 通过云端算力平台专注底层算子优化(low-level kernel) [6] 时间节点 - 报名截止2025年4月30日 代码提交截止2025年6月8日 [7] - 硅谷颁奖典礼定于2025年6月12日举行 [7] 参赛入口 - 通过CSDN赛事官网(https://t.csdnimg.cn/amd)或官方群组报名 [11]
李建忠:大模型技术创新驱动的 AI 生态和应用演进
AI科技大本营· 2025-04-24 11:39
AI发展阶段与生物智能演化对比 - AI发展分为五个阶段:1940年代符号主义起步[4]、2012-2018年感知AI(如AlexNet突破)[4]、2018-2024年生成式AI(如GPT-1.0和ChatGPT)[4]、2024-2030年AI智能体(强化学习驱动)[4]、2030年后物理AI(具身智能)[4] - 生物智能演化对应:5.5亿年前线虫大脑诞生[7]、5.4亿年前三叶虫视觉出现[8]、5000年前人类文字发明[8]、16-17世纪科学革命[9] - 两者均呈现"大脑→视觉→语言→推理"的加速发展路径,语言是智能跃迁核心[9][10] 自然语言在智能中的核心地位 - 人类文明因文字出现而腾飞,AI领域OpenAI押注自然语言路线,通过大模型实现智能突破[12] - Anthropic研究反驳统计学派:大模型内部存在规划逻辑(非简单概率输出)、跨语言泛化能力、语言映射共享概念区域(如"苹果"的抽象概念)[13][14][15] - OpenAI首席科学家Ilya Sutskever认为"语言是对人类智能的压缩",与维特根斯坦哲学观点一致[19] 大模型技术范式演进 - 三阶段划分:预训练(知识灌输)、后训练(价值观对齐)构成"快思考",推理(逻辑思维)构成"慢思考"[21] - Scaling Law持续有效:预训练受限于语料瓶颈,但强化学习(如OpenAI o1和DeepSeek-R1)通过合成数据推动新增长曲线[23] - 推理模型成为主流范式,DeepSeek-R1开源方案推动行业转向强化学习[19][21] AI应用生态与模态演进 - 生成式AI(AIGC)与AI智能体并行发展:前者提供情绪价值(toC娱乐),后者提供成就价值(toB效率)[25] - 内容模态遵循"文字→图片→音频→视频"路径,AI降低创作门槛(博客时代作者比例1%,短视频时代37.5%)[27] - 智能体五大能力:规划(推理驱动)、工具调用(MCP协议)、协作(A2A协议)、记忆、行动[28][31][33] Agent平台与协议生态 - MCP协议连接大模型与传统软件(结构化数据/中心化架构),A2A协议实现Agent间协作(自然语言/去中心化)[33][34] - Agent平台将成为大模型厂商竞争焦点,需整合MCP和A2A协议以链接传统服务与多Agent协作[35][37][38] - 传统软件需重构为"面向智能体+自然语言交互+消除割裂"的三要素,否则面临淘汰[42] AGI发展路径与组织协作 - OpenAI定义AGI五阶段:聊天机器人→推理者→智能体→创新者→组织者[45][50] - 强化学习推动AI从"人类数据时代"(知识回声)到"经验数据时代"(突破边界)[47][49] - 高阶智能体现为组织协作,未来或出现大规模Agent协作网络(如软件开发中需求分析、编码等角色Agent化)[53][55]
靠开发AI作弊神器成名,21岁小伙遭学校开除不足一月后,转身拿下530万美元融资!
AI科技大本营· 2025-04-23 13:39
核心观点 - 00后创始人Chungin Lee开发AI作弊工具Interview Coder后遭哥伦比亚大学开除,但凭借该工具逆势获得530万美元融资并创立Cluely公司 [1][5][7] - Cluely定位为"隐形AI助手",宣称可应用于面试、考试、销售通话等场景,收费20美元/月 [7][9][13] - 公司将自身类比计算器、拼写检查等曾被视为"作弊"的技术革新,提出"未来只奖励杠杆而非努力"的激进理念 [16][17][22][23] - 项目引发广泛争议,支持者认为其代表技术革命,反对者担忧破坏能力评价体系 [30][32][34] 产品技术 - 核心技术基于Interview Coder改进,原项目通过截图识别LeetCode题目并调用ChatGPT解题,代码量不足1000行 [29] - 系统具备反屏幕监控设计,可规避Zoom/Google Meet等平台的检测 [29] - 新版本扩展至音频处理能力,实现"看屏幕+听语音"的实时辅助 [2][13] - GitHub开源项目获4.2k星标,原工具年化收入达300万美元 [29] 商业模式 - 采用SaaS订阅制,定价20美元/月与Cursor等竞品持平 [9] - 融资530万美元来自Abstract Ventures和Susa Ventures [1] - 营销策略极具话题性,官网直接使用"Invisible AI to Cheat"作为Slogan [7] - 发布争议性宣传视频展示社交场景应用,强化品牌记忆点 [25] 行业影响 - 大厂态度分化:亚马逊明确禁止面试使用未授权工具,但未直接封杀相关技术 [35] - 教育机构反应迅速,多所高校已明文禁止此类"隐形外挂" [35] - 引发关于AI时代能力评价标准的讨论,部分用户担忧医疗等专业领域滥用风险 [34] - 反映技术迭代与规则制定的滞后矛盾,同类产品可能加速涌现 [35] 创始团队 - CEO Chungin Lee(21岁)和COO Neel Shanmugam(21岁)均因开发作弊工具被哥大开除 [28] - 擅长制造话题,通过YouTube实证视频等手法快速建立市场认知 [29] - 提出"人机协同"愿景,认为AI将重构世界运行方式而非简单工具替代 [20][21]
直播|Tuya AI硬件开发平台开源啦!搭载超强AI能力,助力个人开发者打破技术壁垒
AI科技大本营· 2025-04-23 13:39
核心观点 - 涂鸦智能推出深度融合AI大模型的TuyaOpen Framework升级版 以开放、灵活、安全为核心理念加速AI硬件产品创新与落地[3] - 该框架已通过全球亿级设备和百万级用户验证 集成端侧AI推理引擎与云智能体中枢 支持端云融合多模态AI能力[1][3] 技术特性 - **跨平台兼容性**:支持涂鸦T系列、野火、正点等主流开发平台 提供标准化工具链简化多平台开发流程[6][10] - **语言与生态支持**:兼容MicroPython/Lua/Node.js等技术栈 无缝对接Arduino/PlatformIO等第三方生态[6] - **协议覆盖**:内置Wi-Fi/蓝牙/Zigbee等协议栈代码 覆盖智能家居与工业物联网全场景[10] AI能力整合 - **大模型接入**:开发者可调用DeepSeek/通义千问等国内模型或ChatGPT/Gemini等海外服务[4] - **多模态功能**:通过涂鸦工具生态实现文字/语音对话、图片/视频生成等AI应用[4] - **端云协同**:结合端侧推理引擎与云智能体中枢 缩短产品开发周期50%以上[3][4] 开发者支持体系 - **开源策略**:商业级代码开源 包含RTOS/Linux/Non-OS适配方案及亿级设备验证协议栈[6][10] - **教学资源**:提供直播教学(4月24日)及开发板/示例代码 适合学生毕业设计与企业商业化项目[7][8][10] - **激励计划**:限量赠送500个T5AI开发板(价值399元)及专属授权码 包含AI能力License与1v1技术支持[16][17] 商业化路径 - **快速落地**:企业可基于框架开发AI玩具/服务机器人等产品 上市周期缩短30%[10] - **成本优化**:直接采用已验证代码降低试错成本 模组会员价格进一步控制BOM成本[10][17] - **生态扩展**:通过GitHub社区协作机制持续迭代 技术问题24小时内响应解决[19]
我悟了如何与AI说话!谷歌 69 页官方提示词秘籍全解析,中文版免费下载
AI科技大本营· 2025-04-22 18:26
核心观点 - Google发布69页Prompt Engineering白皮书,系统性梳理AI沟通方法论和最佳实践[1][6] - 提示工程是精确引导AI输出的关键技能,可解决AI输出不稳定、偏离预期等问题[3][4][9] - 白皮书提供分层方法论:从理解LLM原理到参数调节再到高级提示技巧[8][11][24] AI工作原理 - 大语言模型本质是预测引擎,通过提示词引导其预测方向[8] - 模型根据输入提示预测下一个token,循环生成输出内容[8] - 提示词质量直接影响输出效果,明确指令可提升预测准确性[9] 关键参数调节 - 温度(Temperature)控制输出随机性:0.1-0.3适合严谨任务,0.8-1.0适合创意任务[14][15][23] - Top-K限制候选词数量,Top-P动态调整候选词概率范围[23] - 推荐初始参数组合:Temp=0.2, Top-P=0.95, Top-K=30[23] 提示技巧 基础技巧 - 零样本提示:直接给出指令不含示例[25] - 少样本提示:提供3-5个高质量示例引导输出格式[26][28] 高级技巧 - 分层指令:系统提示定角色+上下文提示给背景+角色提示定风格[29] - 退步思考:先解决抽象问题再处理具体任务[29] - 思维树:生成多条推理路径投票选择最优解[33][37][40] - ReAct框架:思考-行动-观察循环,可调用外部工具[41] 最佳实践 - 保持提示简洁明确,指定输出格式要求[44] - 使用模板变量提高重复任务效率[44] - 建立实验记录文档追踪优化过程[44] - 不同模型/任务需重新调试参数和提示[41]
Agent、DeepSeek、多模态热点炸场!60+重磅嘉宾共探AI未来,2025全球机器学习技术大会完美收官!
AI科技大本营· 2025-04-21 18:24
以下文章来源于CSDN ,作者CSDN CSDN . 成就一亿技术人 作者 | 《新程序员》编辑部 出品 | CSDN(ID:CSDNnews) 在万物向 "智 " 生长的 2025 年,AI 领域的热潮持续升温,正引领着技术革新与产业探索的新浪潮。 了新的破解思路?围绕这些关键问题,欢迎回看大会首日视频,看众多技术大咖如何从理论、算法到实际应用层面进行了深度剖析 ,以此 了解 AI 技术 的更多最新进展: 大模型技术创新驱动的 AI 生态和应用演进 李建忠 CSDN 高级副总裁、 Boolan 首席技术专家 4 月 18-19 日,由 CSDN 联合高端 IT 咨询与教育平台 Boolan 举办的 2025 全球机器学习技术大会(ML-Summit 2025),在上海虹桥西郊庄园丽笙 大酒店隆重拉开帷幕。本次大会围绕 AI 最前沿的发展趋势与落地实践,聚焦大语言模型技术演进、AI 智能体、具身智能、DeepSeek 技术解析与行业 实践等 12 大专题,邀请了超 60 位来自全球顶尖科技企业与学术机构的重磅嘉宾齐聚一堂,全面呈现 AI 领域的技术风向与应用前沿。 在生成式 AI 重构技术边界的浪潮下,产业实 ...
机器人跑马拉松,到底在比什么?
AI科技大本营· 2025-04-21 18:24
赛事概况 - 全球首个"人机共跑"半程马拉松在北京亦庄举办,引发科技圈和大众关注 [1] - 赛事涵盖21.0975公里复杂地形赛道,包括6个左转道和8个右转道,转弯角度≥90° [6] - 18款国产机器人参赛,包括天工Ultra、乐聚夸父、松延N2等来自清华大学、乐聚机器人、北京人形机器人创新中心等机构的机型 [6] 冠军机器人天工Ultra - 身高1.8米,体重55公斤,采用"具身大小脑高效协同"控制架构,实现局部电机动作控制和全身动态平衡与路径规划的高效协作 [3] - 采用大功率一体化关节和低惯量腿部结构,具备爆发性速度,轻量化设计和散热技术保障持续奔跑 [5] - 完赛时间2小时40分24秒,比赛过程中更换3次电池 [6] 亚军机器人松延N2 - 身高1.2米,体重30公斤,拥有18个自由度,关节扭矩达150N·m以上 [7] - 采用强化学习与动力学模型融合的运动控制策略,核心动态平衡算法每秒计算数千次,时速10公里时重心偏移控制在3厘米内 [9] - 依赖多模态传感器融合实现复杂地形导航,即使头部感知系统失效也能自主完赛 [9] 技术挑战与行业瓶颈 - 数据瓶颈:真实数据采集线性增长无法满足模型训练指数级性能提升需求 [13] - 计算瓶颈:有限算力资源下需实现更高效智能算法 [14] - 模型架构:现有架构在效率、精度和泛化能力方面存在局限性,需探索分层决策模型等新架构 [15] 赛事意义 - 标志着具身智能迈入全新发展阶段,是对机器人运动控制、环境感知、续航能力的全面考验 [6] - 单台机器人完赛需完成约25万次关节动作,展现当前机器人技术水平的综合能力 [6][11]
中国AI模型全面爆发,AI大模型技术体系综合开源影响力榜单重磅发布!
AI科技大本营· 2025-04-18 13:53
大模型技术体系概述 - 大模型不仅是单一程序,而是由模型、数据、系统、评测平台等多要素构成的"技术共同体",需依赖大规模高质量数据、先进模型架构、训练策略及底层系统能力[1] - 开源大模型正崛起为AI普惠化的重要力量,但需解决选型难题并理解不同技术体系的优劣势[1] 榜单评估框架 - 评估覆盖模型、数据、系统、评测四大维度,设置53项核心指标,包括模型使用量、模态覆盖度、芯片适配数量、贡献者活跃度等[4] - 数据采集覆盖全球17个主流开源平台的11673个链接,统计周期为2025年1-4月,采用标准化方法确保可比性[6] - 模型指标筛选标准:仅统计月下载量>50的Transformer架构模型,排除参数量<500M的语言模型[7][8] - 系统指标侧重异构训练支持、芯片厂商接入、生命周期管理能力[11] - 评测平台指标要求公开可查且持续更新,排除临时性榜单[11] 分榜单核心发现 百亿参数大语言模型 - DeepSeek表现突出,R1模型以954万次下载量居首,前十名中独占四席[12] - 百亿级模型因性能与成本平衡成为产业焦点,国内机构加速追赶[12] 模型分榜单 - Meta连续四个月蝉联榜首,阿里巴巴稳居第二,DeepSeek凭借V3/R1等新模型跃居第四[16] - 评估维度包括下载量、开源数量、多模态覆盖(语言/视觉/语音等)及社区活跃度[15] 数据分榜单 - Ai2凭借C4数据集登顶,该数据集是多个主流语言模型的训练基础[19][20] - Google在语音数据集表现突出,Hugging Face通过FineWeb保持活跃[23] - 国内BAAI布局CCI语言数据集和Infinity多模态数据集,上海AI Lab聚焦视觉/多模态领域[24] - 多模态数据加速发展,具身感知类交互数据集受关注[25] 系统分榜单 - 智源研究院在通信库和AI编译器领域差异化领先,百度/华为跻身十强[26] - 六家机构覆盖四项关键技术:智源、百度、华为、Google、OpenAI、微软[26] - Meta和Google在算子库和并行训练框架上优势显著[26] 评测平台分榜单 - 上海AI Lab、Hugging Face、智源研究院领跑,Hugging Face评测模型达4576个[29] - BAAI的FlagEval平台评测覆盖能力紧随Hugging Face[29] 综合影响力总榜 - Meta因LLaMA系列模型和PyTorch生态位居第一,Google凭借Gemma 3和TensorFlow/JAX工具链排名第二[35][36] - 四家中国机构进入Top 10:BAAI(第三)、阿里巴巴(第四)、DeepSeek(第九)、上海AI Lab[32][36] - BAAI打造FlagOpen开源体系,目标成为大模型领域的"Linux"[36] - DeepSeek通过MoE架构创新和完整开源策略快速崛起[36] - OpenAI因"有限开源"策略排名第十,早期开放的GPT-2/Whisper仍被广泛应用[36] 行业动态与未来方向 - 多模态技术扩展推动评估体系优化,将引入动态权重调整机制适应具身智能等新趋势[37] - 《人工智能大模型技术体系开源影响力评估方法》白皮书将于2025年5月发布[37] - 评估框架已在GitHub/GitCode开源,鼓励生态共建[38]