Workflow
AI科技大本营
icon
搜索文档
大模型之后,AI 开始“自己动手”了
AI科技大本营· 2025-05-23 14:14
全球科技巨头AI Agent布局 - 微软在Build 2025大会上推出Copilot Studio解决方案,强调AI Agent将重塑未来工作方式 [8] - Google在I/O大会上宣布为Chrome浏览器、搜索及Gemini应用推出智能体模式,支持自动执行任务 [8] - OpenAI发布能自动执行复杂操作的AI Agent "Operator"并推出面向深度研究的智能体功能 [8] - Anthropic发布Agent最佳实践指南,推动工程落地 [8] 腾讯AI Agent战略与进展 - 腾讯云升级智能体开发平台TCADP,融合知识管理、工作流编排和AI能力 [5] - QQ浏览器、腾讯健康、腾讯云代码助手CodeBuddy等C端与B端应用已集成智能体能力 [5] - 腾讯云与汽车、金融、文旅等行业合作,智能体应用在生产环境中落地 [13][15] - 智能体在汽车行业用于故障自诊断,金融行业用于智能客服,文旅行业用于行程规划 [15] AI Agent技术演进 - 智能体具备自主规划能力,能根据自然语言指令调用工具或协同多Agent完成任务 [11] - 工具调用技术经历三个阶段:Function Calling、ReAct模式、Code Agent,执行效率逐级提升 [14] - 腾讯通过文档转问答对、版本比对和运营机制优化RAG效果 [15] - 视觉、多模态、文本与智能体技术协同支撑企业AI应用落地 [12] 行业趋势与驱动力 - 互联网从"信息获取"转向"任务完成",Agentic AI成为关键方向 [1] - 技术演进与业务需求双轮驱动智能体爆发 [6][9] - 客户对个性化、智能化解决方案的需求推动AI应用范式变革 [10][11] - 智能体被视为大模型落地最具系统性、可扩展性与变革性的路径之一 [18]
能空翻≠能干活!我们离通用机器人还有多远? | 万有引力
AI科技大本营· 2025-05-22 10:47
具身智能技术发展现状 - 具身智能成为AI领域热点方向,重点关注人形机器人载体上的感知、运动、决策能力[2] - 2025年可能成为具身智能"元年",行业竞争集中在多模态和具身智能领域[5] - AI发展分为四个阶段:感知AI→生成式AI→自主智能体AI→物理AI,目前处于第三阶段向第四阶段过渡期[5] - 具身智能研究从传统精密控制向更智能化、通用化方向迈进,大模型能力提升推动这一转变[7] 技术演进路径 - 计算机视觉研究者正转向具身智能领域,因大模型压缩传统CV研究空间[8] - 自动驾驶技术是通向具身智能的重要桥梁,两者在感知、规划、控制模块高度相似[17] - 具身智能可分为"思维智能"与"行动智能",前者包括认知能力,后者关注环境互动[20] - 具身智能系统需要具备世界模型和自我模型两大核心内部模型[25][28] 行业应用前景 - 家庭看护和家务服务是最基础、最现实的需求方向[48] - 检修类场景(如电力、汽车维修)是具身智能最具潜力的应用领域[49] - 工业制造场景中,人形机器人可能比传统自动化更具性价比优势[49] - 生产线机器人最容易落地,高危或高互动性工作最具挑战性[52] 关键技术挑战 - 数据瓶颈是最大痛点,真实数据采集速度跟不上模型训练需求[55] - 计算资源限制明显,高自由度系统控制困难且成本高昂[39] - 模型架构面临从分层决策到端到端再回归分层的演变[67] - 仿真环境精度不足,难以替代真实世界数据采集[60] 未来发展趋势 - 从性能优化转向适应性设计,强化环境适应与新任务应对能力[63] - 从确定性控制转向概率性思维,应对现实世界不确定性[64] - 从分析还原走向整体涌现,展现更强智能与动态逻辑性[64] - 从工具属性转向伙伴属性,实现更自然的协作交互[64] 商业化路径 - 开发者应聚焦专用型机器人而非追求通用能力[42] - 垂直场景配套大客户是具身智能落地的务实选择[44] - 工业领域因其可扩展性成为优先发展方向[45] - 技术从实验室到真实世界仍存在两个数量级的精度差距[46]
智元机器人发布并开源世界模型EVAC与评测基准EWMBench,助力具身世界模型加速进化!
AI科技大本营· 2025-05-22 10:47
核心观点 - 智元机器人发布全球首个基于机器人动作序列驱动的具身世界模型EVAC和具身世界模型评测基准EWMBench,构建"低成本模拟-标准化评测-高效迭代"的全新开发范式[1] - 两项成果全面开源,旨在解决行业面临的测试成本高、数据利用效率低等瓶颈问题,加速具身智能技术落地与产业发展[1][3] 行业瓶颈与解决方案 - 当前具身智能面临两大制约:真机验证代价高风险大,仿真系统存在虚实偏差;海量真机数据缺乏高效利用机制[3] - EVAC通过动作序列驱动实现从传统仿真到生成式模拟的跃迁,EWMBench填补行业评测标准空白,形成技术闭环[3][11] EVAC技术突破 - 实现"物理动作-视觉动态"端到端生成,创新多级动作条件注入机制[7] - 核心能力包括物理执行到像素空间的精准映射,支持动态复现机器人与环境复杂交互[5][7] EVAC双重价值 - 生成式仿真评测:与策略模型交替推理,评测结果与真机成功率高度一致,筛选效率大幅提升[9] - 数据增广引擎:基于少量专家轨迹数据实现大规模增广,策略模型任务成功率提升29%[10] EWMBench评测基准 - 全球首个具身世界模型评测标准,包含三维度评估体系:场景一致性、动作合理性、语义对齐与多样性[15] - 采用权威数据集AgiBot World,涵盖10类机器人操作任务和300+测试样本,含30%挑战性场景[20] 技术协同效应 - EnerVerse架构为EVAC提供基础框架,EVAC生成数据反哺EnerVerse优化,形成"训练-验证"闭环[18] - 组合方案入选IROS 2025官方基线系统,提供全球研究者实践验证平台[19] 开源与行业影响 - 同步开源全流程评测工具,支持一键生成标准化报告,降低评估门槛[20] - 推动具身智能进入"算法-评测"协同进化时代,引领技术向高效普适方向发展[21]
2025 全球产品经理大会正式官宣,聚焦 AI 产品实战,全景呈现未来产品图谱!
AI科技大本营· 2025-05-21 14:10
大会核心主题 - 聚焦AI时代产品设计理念,强调"用户体验至上"的乔布斯式原则,探讨如何将技术转化为可感知的用户价值[1] - 提出AI重塑的不仅是技术栈,更是产品构建方法论,需重构体验流与用户心智[36][14] 大会专题架构 - 12大专题覆盖AI产品全生命周期,包括: - **技术实现层**:生成式AI全链路构建(1-5专题)[4][6] - **行业应用层**:金融/教育/制造等垂类场景落地(4专题)[6] - **全球化维度**:中国企业出海策略与挑战(6专题)[7] - **商业闭环**:可持续商业模式设计(11专题)[10][15] 嘉宾阵容亮点 - **技术专家**: - 李建忠提出"范式转换立方体"理论,专注大语言模型软件应用[16] - 胡腾宇拥有12年全栈产品架构经验,主导AWE智能引擎获奖项目[28] - **产品实践者**: - 王保平(玉伯)曾打造语雀/Ant Design等亿级产品,现专注AI创作应用[20] - 杨一溪实现快手DAU增长117PP,美团B端半年拓客500万[21][22] - **跨界创新者**: - 芦良超整合游戏与AI产品经验,主导腾讯gameloop产品[29][30] - 隋哲深耕人机交互领域,拥有游戏/O2O电商多赛道经验[31][32] 内容价值定位 - 强调实战方法论:要求嘉宾分享从0到1及1到N的真实路径[37][40] - 覆盖关键增长环节:包括冷启动策略(9专题)、规模化运营(10专题)、用户价值发现机制(12专题)[9][15] - 突出数据驱动:如支付宝体验度量体系(31)、合成数据算法应用(34)[31][34] 行业趋势洞察 - 技术融合方向:具身智能硬件强调感知-动作闭环部署能力(5专题)[6] - 企业级需求:工具型/平台型AI构建路径受重点关注(3专题)[6] - 生态协作模式:开放品牌合作与内容共创机制[39][40]
AI若解决一切,我们为何而活?对话《未来之地》《超级智能》作者 Bostrom | AGI 技术 50 人
AI科技大本营· 2025-05-21 09:06
AGI技术发展现状 - 通用人工智能(AGI)正从科幻走向现实,DeepSeek等模型引发OpenAI、谷歌等顶级公司模型大战[1] - 2025年AI领域出现重大突破,如Manus通用Agent问世和Cursor编程工具流行[1] - 大语言模型如ChatGPT和DeepSeek虽普及,但距离真正AGI仍有差距[11] Nick Bostrom的学术贡献 - 2005年在牛津大学创办人类未来研究所,专注研究"存在性风险"[4] - 2014年出版《超级智能》,提出"智能爆炸"假说,成为AI风险研究里程碑[5] - 2024年出版《未来之地》,探讨技术成熟后的乌托邦社会[7][9] 人工智能发展路径 - AI发展既带来巨大风险也蕴含巨大机遇,需要平衡两方面考量[13] - "智能爆炸"可能导致AI能力在短期内呈指数级增长[59] - 当前AI系统表现出意外的人类化特征,为人机对齐提供新途径[56][57] 技术成熟社会构想 - "已解决的世界"指技术成熟状态,包含超级智能和纳米技术等先进科技[28] - 技术成熟将消除物质匮乏和疾病痛苦,但可能导致人类失去目标感[29] - "自我变革能力"使人类能直接修改自身精神状态,带来伦理挑战[32][35] 人机共存模式 - 理想状态是AI成为人类意志的延伸,类似父母关爱子女的关系[50] - 数字心智的道德地位将成为重要伦理议题,需扩展同理心概念[37][38] - 人类可能仅需宇宙资源的极小部分即可实现乌托邦[50] 未来社会形态 - 乌托邦居民可通过"人为目标"创造活动意义,如游戏设定规则[42][43] - 快乐、体验质感、理解和活动构成乌托邦生活基础要素[43] - 教育体系需从培养工人转向培养欣赏艺术和美的能力[53] 人工智能研究前沿 - AI对齐是关键技术挑战,需开发可扩展的监督方法[75] - 数字心智的福利研究是新兴领域,Anthropic已设立算法福利官[76] - 需考虑AI可能加入的"宇宙宿主"群体及其潜在规范[73][74] 现实与未来平衡 - 当前是充满目标的黄金时代,解决现实问题与规划未来同样重要[65] - 人类可能正处于文明转折点,当前决策影响深远[65][66] - 技术界忽视AI可能存在的宇宙级伦理关系研究[73]
谷歌发布最强 AI“全家桶”、一句话就让AI拍大片!这一夜,谷歌Gemini贯穿始终,网友:果然Android“靠边站”了
AI科技大本营· 2025-05-21 09:06
谷歌I/O大会核心观点 - 谷歌全面转向AI战略,将AI深度整合至所有产品线,包括搜索、开发者工具、多模态创作等领域[1][2][5] - 公司发布Gemini 2.5系列模型,在性能基准和实际应用场景实现显著突破[4][13][16] - 推出高端订阅服务Google AI Ultra,定价249.99美元/月,提供最先进AI工具组合[35][36] - 搜索业务完成AI化改造,月活用户达15亿,推出全新"AI模式"交互体验[22][23][25] - 多模态生成技术取得重大进展,视频/图像/音乐创作工具全面升级[29][31][33] 产品与技术升级 Gemini模型进展 - Gemini 2.5 Pro在WebArena和LMArena榜单登顶,代码能力显著提升[4] - 新增Deep Think增强推理模式,在LiveCodeBench竞赛编程测试领先,MMMU多模态推理得分84%[16] - Gemini 2.5 Flash轻量版token消耗减少20-30%,6月正式发布[18] - 模型处理token量从9.7万亿/月增至480万亿/月,年增长50倍[5] 搜索产品革新 - AI概览功能月活用户突破15亿,覆盖200+国家地区[22] - "AI模式"支持深度搜索、实时视觉交互、智能Agent任务处理[25] - 新增智能购物功能,支持虚拟试穿和自动下单[25] - 个性化推荐将整合Gmail等个人数据[26] 多模态创作工具 - 视频模型Veo 3实现音视频同步生成,支持文本/图像提示[29] - Imagen 4图像模型分辨率达2K,文字准确性提升,快速版速度提高10倍[31] - Lyria 2音乐模型接入YouTube Shorts,支持实时交互创作[33] - 推出AI电影制作工具Flow,整合Veo/Imagen/Gemini模型[33] 商业化布局 订阅服务体系 - Google AI Ultra定价249.99美元/月,含Veo 3/Gemini 2.5 Pro Deep Think等高级功能[36] - AI Pro版定价19.99美元/月,提供基础版Gemini 2.5 Pro[38] - 订阅用户可享30TB云存储和YouTube Premium权益[36] 开发者生态 - Gemini API开发者达700万,年增长5倍[5] - Vertex AI使用量增长40倍,新增模型推理摘要功能[18] - 全面兼容MCP工具链,支持构建智能代理[11] 硬件与未来布局 - 推出Android XR操作系统,支持AR/VR/MR设备[40] - 与Warby Parker等合作开发智能眼镜,集成Gemini AI[40] - Project Moohan头显预计2025年发布,与三星联合开发[40]
对话阶跃星辰段楠:“我们可能正触及 Diffusion 能力上限”
AI科技大本营· 2025-05-20 09:02
视频生成技术现状与挑战 - 当前视频生成技术(如Diffusion模型)已能产出惊艳视觉片段,但可能触及能力天花板,真正具备深度理解能力的多模态基础模型尚在孕育中[1][5] - 阶跃星辰开源两个30B参数视频生成模型:Step-Video-T2V(文生视频)和Step-Video-TI2V(图生视频),在运动性和风格化生成方面表现突出[12][33] - 当前Diffusion视频模型Scaling Law表现不显著,30B参数模型泛化能力提升有限,15B参数可能在效率与性能间取得更好平衡[5][26] 下一代技术发展方向 - 未来1-2年内可能出现视觉领域的"GPT-3时刻",带来革命性突破[4][36] - 技术突破方向包括:自回归(AR)与Diffusion模型融合架构、从映射学习转向因果预测学习范式、增强少样本学习能力[5][21][45] - 视觉基础模型需具备深度理解能力而非仅像素生成,需借鉴NLP领域成功经验,通过生成方式获得更强理解能力[19][32] 行业实践关键因素 - 高质量自然数据是核心瓶颈,需大规模多样化真实数据而非合成数据,数据处理复杂度极高[14][16][32] - 系统支持与多团队协作至关重要,阶跃星辰项目成功得益于强大系统团队支持[17][18] - 模型需平衡上限探索与易用性,30B参数模型因体积过大影响实际应用,未来需大小模型并行发展[28][29] 多模态与AI应用前景 - 视频理解能力进步将推动具身智能、机器人等需要物理交互的AI应用发展[14][37] - 多模态模型将向物理世界感知发展,增强动作理解等能力,2025年可能出现图像与文字理解生成的重要突破[56][49] - AIGC趋势包括视频长度延长、编辑能力提升、基于参考的生成技术发展,未来将降低内容创作门槛[38][44] 技术里程碑与行业参考 - 近五年AI重大创新包括BERT、GPT-3、ChatGPT、Sora等,确立不同领域技术范式[15] - 视觉领域可能处于NLP中BERT之后、GPT-3之前的阶段,需经历类似发展过程[32] - DeepSeek系列模型因性能优异且实用性强,成为国内行业重要参考[15]
WSL、Copilot皆重磅开源,深夜炸场的微软给我们带来了哪些惊喜?
AI科技大本营· 2025-05-20 09:02
微软Build 2025大会核心观点 - AI与开源成为微软两大战略方向,贯穿全场发布内容[2][5] - 公司定位当前技术浪潮为"平台变革中局",类比1990年代Web技术或2000年代云计算移动互联网的崛起阶段[5] - 开发者生态规模显著:Visual Studio用户超1500万,GitHub开发者达1.5亿,GitHub Copilot用户突破1500万[6] - 推出多项AI代理技术升级,从编程助手演进为协作开发伙伴[11][13][15] - 操作系统层面深度整合AI能力,Windows AI Foundry开放内部工具链[39][42] - 首次将适用于Linux的Windows子系统(WSL)完全开源[44][46][48] 开发者工具升级 - Visual Studio支持.NET 10并引入实时预览功能,更新节奏调整为每月稳定版[10] - VS Code发布第100个开源版本,新增多窗口支持与暂存区管理[10] - GitHub Copilot扩展功能开源并集成至VS Code核心代码库[10] - 推出完整版Coding Agent,可接收GitHub Issue任务并自动执行代码重构[13][14] - Copilot新增版本迁移能力,支持Java 8至21或.NET Framework至9的自动化升级[15] - 发布Azure SRE Agent实现故障自动排查与修复建议生成[15] AI代理生态系统 - 推出Microsoft 365 Copilot Tuning,支持企业低代码定制专属AI助手[26] - Azure AI Foundry新增Model Router实现多模型自动选择[36] - Foundry Agent Service正式发布,支持多代理协同处理复杂流程[36] - 引入跨平台多代理编排能力,兼容AWS/Google Cloud及本地部署[36] - 新增Foundry Observability功能,提供智能体全链路监控与日志追踪[37] 操作系统与开源 - Windows AI Foundry开放内部开发工具,支持CPU/GPU/NPU异构计算[39] - 内置Phi-Silica小语言模型,可通过LoRA适配器快速微调[42] - Windows原生支持MCP协议,实现系统服务与AI应用的安全互通[43] - WSL开源代码库已在GitHub发布,获得19.5k星标关注[45] - WSL架构演进实现与Windows系统解耦,社区可直接贡献代码[48][49] 数据与基础设施 - SQL Server 2025预览版内置可扩展AI功能,与Azure/Fabric深度集成[55] - Cosmos DB与Azure Databricks直接接入Foundry智能体平台[55] - Fabric平台整合Cosmos DB,统一管理结构化与非结构化数据[56] - 推出Power BI Copilot,支持自然语言交互与跨报表分析[57] - Azure部署NVIDIA GB200芯片集群,单系统处理能力达86.5万tokens/秒[59] - 推出Foundry Local服务实现AI能力离线部署与敏感数据本地处理[63] 前沿技术探索 - 开源NLWeb项目,通过MCP标准实现网站与AI聊天机器人快速对接[52][53] - 发布Microsoft Discovery平台,运用Graph RAG引擎加速科研发现[65] - 科学智能体展示实际成效:200小时发现新型冷却剂材料[66] - 与xAI合作在Azure上线Grok 3模型,采用物理学方法论优化推理[33][34] - 黄仁勋透露Azure GB200超级计算机性能较Hopper架构提升40倍[60][61]
图文跨模态“近视”问题破局:360开源新模型 FG-CLIP,实现细粒度图文对齐突破|ICML2025
AI科技大本营· 2025-05-19 16:05
核心观点 - 360人工智能研究院发布FG-CLIP模型,突破传统CLIP模型在细粒度图文对齐上的局限性,显著提升对图像局部细节的识别能力 [1][4][10] - FG-CLIP采用显式双塔结构+双阶段训练策略,结合难细粒度负样本学习,实现全局与局部特征的双重优化 [10][16][20] - 模型在FG-OVD、COCO等基准测试中全面超越CLIP/EVA-CLIP等主流模型,细粒度理解准确率最高提升34个百分点 [29][30][31] - 技术已开源并获ICML 2025收录,潜在应用覆盖搜索推荐、电商、安防等多领域 [3][5][11] 技术架构 模型设计 - 首创显式双塔结构解耦图文特征,解决传统CLIP粗粒度对齐问题 [10] - 两阶段训练:首阶段全局对比学习实现基础对齐,次阶段区域对比学习强化细节感知 [16][18][19] - 创新难细粒度负样本构建方法,通过属性微调生成语义相近负样本,提升模型辨别力 [20][25] 数据工程 - 采用CogVLM2-19B重构LAION-2B数据集,描述信息量提升300%(如"一只鸟"→"红翼黑鸟栖息公园树枝") [21] - 构建1200万图像+4000万边界框标注+1000万难负样本的高质量数据集,调用160×910B NPU算力完成处理 [23][27] - 负样本质量评估显示98.9%符合标准,噪声率仅1.1% [25] 性能表现 量化指标 - 细粒度识别:在FG-OVD hardest子集准确率达46.4%,较CLIP提升34个百分点 [29][30] - 区域识别:COCO零样本检测Top-1准确率68.6%,优于FineCLIP 27个百分点 [31] - 图文检索:MSCOCO T2I任务R@1达49.8%,较CLIP提升12.7个百分点 [34] 应用场景 - 电商推荐:精准匹配"浅蓝色夹克"与"草绿色夹克"等属性差异 [1][11] - 安防监控:识别画面角落的隐藏目标(如案例中藏于狗后的木凳) [12][15] - 内容生成:为Stable Diffusion/Sora等提供细粒度跨模态编码支持 [8] 行业影响 - 突破现有CLIP技术瓶颈,推动多模态大模型向细粒度化发展 [4][12] - 开源策略加速技术产业化落地,潜在市场规模达百亿级 [5][40] - 为搜索/推荐/生成式AI等领域提供新一代基础架构 [8][11][32]
“图片秒生”,腾讯混元图像2.0模型正式发布,主打速度和真实感
AI科技大本营· 2025-05-16 16:16
腾讯混元图像2.0模型发布 - 公司发布混元图像2.0模型 基于架构创新实现实时生图 带来全新AI生图交互体验 模型已在官网开放注册 [1] - 模型参数量较前代提升一个数量级 采用超高压缩倍率图像编解码器和全新扩散架构 生图速度达毫秒级 显著快于行业5-10秒水平 [3] - 模型通过强化学习和人类美学知识对齐 有效减少"AI味" 生成图像真实感强 细节丰富 可用性高 [3] 技术性能优势 - 在GenEval评估基准上 模型准确率超过95% 大幅领先同类产品 [4] - 文生图客观指标全面领先 在Overall(0.9597) Single Obj(0.9968) Two Obj(0.9747) Counting(0.9343) Colors(0.9973) Position(0.885) Color Attribution(0.975)等细分维度均表现优异 [5] 应用场景展示 - 模型支持多种风格生成 包括人像摄影 动物特写 复古摄影 动漫风格等 画面达到电影级质感 [6][7][8][9][11] - 推出实时绘画板功能 支持线稿实时上色预览 突破传统线性流程 助力专业设计师创作 [13] - 支持多图融合功能 可叠加多个草图自动协调透视光影 按提示词生成融合图像 [13] 战略布局 - 公司预告将发布原生多模态图像生成大模型 在多轮生成和实时交互方面有突出表现 [15] - 持续加码多模态领域 此前已开源中文原生DiT架构文生图模型和130亿参数视频生成大模型 [15]