Workflow
AI科技大本营
icon
搜索文档
2025 全球产品经理大会正式官宣,聚焦 AI 产品实战,全景呈现未来产品图谱!
AI科技大本营· 2025-05-21 14:10
大会核心主题 - 聚焦AI时代产品设计理念,强调"用户体验至上"的乔布斯式原则,探讨如何将技术转化为可感知的用户价值[1] - 提出AI重塑的不仅是技术栈,更是产品构建方法论,需重构体验流与用户心智[36][14] 大会专题架构 - 12大专题覆盖AI产品全生命周期,包括: - **技术实现层**:生成式AI全链路构建(1-5专题)[4][6] - **行业应用层**:金融/教育/制造等垂类场景落地(4专题)[6] - **全球化维度**:中国企业出海策略与挑战(6专题)[7] - **商业闭环**:可持续商业模式设计(11专题)[10][15] 嘉宾阵容亮点 - **技术专家**: - 李建忠提出"范式转换立方体"理论,专注大语言模型软件应用[16] - 胡腾宇拥有12年全栈产品架构经验,主导AWE智能引擎获奖项目[28] - **产品实践者**: - 王保平(玉伯)曾打造语雀/Ant Design等亿级产品,现专注AI创作应用[20] - 杨一溪实现快手DAU增长117PP,美团B端半年拓客500万[21][22] - **跨界创新者**: - 芦良超整合游戏与AI产品经验,主导腾讯gameloop产品[29][30] - 隋哲深耕人机交互领域,拥有游戏/O2O电商多赛道经验[31][32] 内容价值定位 - 强调实战方法论:要求嘉宾分享从0到1及1到N的真实路径[37][40] - 覆盖关键增长环节:包括冷启动策略(9专题)、规模化运营(10专题)、用户价值发现机制(12专题)[9][15] - 突出数据驱动:如支付宝体验度量体系(31)、合成数据算法应用(34)[31][34] 行业趋势洞察 - 技术融合方向:具身智能硬件强调感知-动作闭环部署能力(5专题)[6] - 企业级需求:工具型/平台型AI构建路径受重点关注(3专题)[6] - 生态协作模式:开放品牌合作与内容共创机制[39][40]
AI若解决一切,我们为何而活?对话《未来之地》《超级智能》作者 Bostrom | AGI 技术 50 人
AI科技大本营· 2025-05-21 09:06
AGI技术发展现状 - 通用人工智能(AGI)正从科幻走向现实,DeepSeek等模型引发OpenAI、谷歌等顶级公司模型大战[1] - 2025年AI领域出现重大突破,如Manus通用Agent问世和Cursor编程工具流行[1] - 大语言模型如ChatGPT和DeepSeek虽普及,但距离真正AGI仍有差距[11] Nick Bostrom的学术贡献 - 2005年在牛津大学创办人类未来研究所,专注研究"存在性风险"[4] - 2014年出版《超级智能》,提出"智能爆炸"假说,成为AI风险研究里程碑[5] - 2024年出版《未来之地》,探讨技术成熟后的乌托邦社会[7][9] 人工智能发展路径 - AI发展既带来巨大风险也蕴含巨大机遇,需要平衡两方面考量[13] - "智能爆炸"可能导致AI能力在短期内呈指数级增长[59] - 当前AI系统表现出意外的人类化特征,为人机对齐提供新途径[56][57] 技术成熟社会构想 - "已解决的世界"指技术成熟状态,包含超级智能和纳米技术等先进科技[28] - 技术成熟将消除物质匮乏和疾病痛苦,但可能导致人类失去目标感[29] - "自我变革能力"使人类能直接修改自身精神状态,带来伦理挑战[32][35] 人机共存模式 - 理想状态是AI成为人类意志的延伸,类似父母关爱子女的关系[50] - 数字心智的道德地位将成为重要伦理议题,需扩展同理心概念[37][38] - 人类可能仅需宇宙资源的极小部分即可实现乌托邦[50] 未来社会形态 - 乌托邦居民可通过"人为目标"创造活动意义,如游戏设定规则[42][43] - 快乐、体验质感、理解和活动构成乌托邦生活基础要素[43] - 教育体系需从培养工人转向培养欣赏艺术和美的能力[53] 人工智能研究前沿 - AI对齐是关键技术挑战,需开发可扩展的监督方法[75] - 数字心智的福利研究是新兴领域,Anthropic已设立算法福利官[76] - 需考虑AI可能加入的"宇宙宿主"群体及其潜在规范[73][74] 现实与未来平衡 - 当前是充满目标的黄金时代,解决现实问题与规划未来同样重要[65] - 人类可能正处于文明转折点,当前决策影响深远[65][66] - 技术界忽视AI可能存在的宇宙级伦理关系研究[73]
谷歌发布最强 AI“全家桶”、一句话就让AI拍大片!这一夜,谷歌Gemini贯穿始终,网友:果然Android“靠边站”了
AI科技大本营· 2025-05-21 09:06
谷歌I/O大会核心观点 - 谷歌全面转向AI战略,将AI深度整合至所有产品线,包括搜索、开发者工具、多模态创作等领域[1][2][5] - 公司发布Gemini 2.5系列模型,在性能基准和实际应用场景实现显著突破[4][13][16] - 推出高端订阅服务Google AI Ultra,定价249.99美元/月,提供最先进AI工具组合[35][36] - 搜索业务完成AI化改造,月活用户达15亿,推出全新"AI模式"交互体验[22][23][25] - 多模态生成技术取得重大进展,视频/图像/音乐创作工具全面升级[29][31][33] 产品与技术升级 Gemini模型进展 - Gemini 2.5 Pro在WebArena和LMArena榜单登顶,代码能力显著提升[4] - 新增Deep Think增强推理模式,在LiveCodeBench竞赛编程测试领先,MMMU多模态推理得分84%[16] - Gemini 2.5 Flash轻量版token消耗减少20-30%,6月正式发布[18] - 模型处理token量从9.7万亿/月增至480万亿/月,年增长50倍[5] 搜索产品革新 - AI概览功能月活用户突破15亿,覆盖200+国家地区[22] - "AI模式"支持深度搜索、实时视觉交互、智能Agent任务处理[25] - 新增智能购物功能,支持虚拟试穿和自动下单[25] - 个性化推荐将整合Gmail等个人数据[26] 多模态创作工具 - 视频模型Veo 3实现音视频同步生成,支持文本/图像提示[29] - Imagen 4图像模型分辨率达2K,文字准确性提升,快速版速度提高10倍[31] - Lyria 2音乐模型接入YouTube Shorts,支持实时交互创作[33] - 推出AI电影制作工具Flow,整合Veo/Imagen/Gemini模型[33] 商业化布局 订阅服务体系 - Google AI Ultra定价249.99美元/月,含Veo 3/Gemini 2.5 Pro Deep Think等高级功能[36] - AI Pro版定价19.99美元/月,提供基础版Gemini 2.5 Pro[38] - 订阅用户可享30TB云存储和YouTube Premium权益[36] 开发者生态 - Gemini API开发者达700万,年增长5倍[5] - Vertex AI使用量增长40倍,新增模型推理摘要功能[18] - 全面兼容MCP工具链,支持构建智能代理[11] 硬件与未来布局 - 推出Android XR操作系统,支持AR/VR/MR设备[40] - 与Warby Parker等合作开发智能眼镜,集成Gemini AI[40] - Project Moohan头显预计2025年发布,与三星联合开发[40]
对话阶跃星辰段楠:“我们可能正触及 Diffusion 能力上限”
AI科技大本营· 2025-05-20 09:02
视频生成技术现状与挑战 - 当前视频生成技术(如Diffusion模型)已能产出惊艳视觉片段,但可能触及能力天花板,真正具备深度理解能力的多模态基础模型尚在孕育中[1][5] - 阶跃星辰开源两个30B参数视频生成模型:Step-Video-T2V(文生视频)和Step-Video-TI2V(图生视频),在运动性和风格化生成方面表现突出[12][33] - 当前Diffusion视频模型Scaling Law表现不显著,30B参数模型泛化能力提升有限,15B参数可能在效率与性能间取得更好平衡[5][26] 下一代技术发展方向 - 未来1-2年内可能出现视觉领域的"GPT-3时刻",带来革命性突破[4][36] - 技术突破方向包括:自回归(AR)与Diffusion模型融合架构、从映射学习转向因果预测学习范式、增强少样本学习能力[5][21][45] - 视觉基础模型需具备深度理解能力而非仅像素生成,需借鉴NLP领域成功经验,通过生成方式获得更强理解能力[19][32] 行业实践关键因素 - 高质量自然数据是核心瓶颈,需大规模多样化真实数据而非合成数据,数据处理复杂度极高[14][16][32] - 系统支持与多团队协作至关重要,阶跃星辰项目成功得益于强大系统团队支持[17][18] - 模型需平衡上限探索与易用性,30B参数模型因体积过大影响实际应用,未来需大小模型并行发展[28][29] 多模态与AI应用前景 - 视频理解能力进步将推动具身智能、机器人等需要物理交互的AI应用发展[14][37] - 多模态模型将向物理世界感知发展,增强动作理解等能力,2025年可能出现图像与文字理解生成的重要突破[56][49] - AIGC趋势包括视频长度延长、编辑能力提升、基于参考的生成技术发展,未来将降低内容创作门槛[38][44] 技术里程碑与行业参考 - 近五年AI重大创新包括BERT、GPT-3、ChatGPT、Sora等,确立不同领域技术范式[15] - 视觉领域可能处于NLP中BERT之后、GPT-3之前的阶段,需经历类似发展过程[32] - DeepSeek系列模型因性能优异且实用性强,成为国内行业重要参考[15]
WSL、Copilot皆重磅开源,深夜炸场的微软给我们带来了哪些惊喜?
AI科技大本营· 2025-05-20 09:02
微软Build 2025大会核心观点 - AI与开源成为微软两大战略方向,贯穿全场发布内容[2][5] - 公司定位当前技术浪潮为"平台变革中局",类比1990年代Web技术或2000年代云计算移动互联网的崛起阶段[5] - 开发者生态规模显著:Visual Studio用户超1500万,GitHub开发者达1.5亿,GitHub Copilot用户突破1500万[6] - 推出多项AI代理技术升级,从编程助手演进为协作开发伙伴[11][13][15] - 操作系统层面深度整合AI能力,Windows AI Foundry开放内部工具链[39][42] - 首次将适用于Linux的Windows子系统(WSL)完全开源[44][46][48] 开发者工具升级 - Visual Studio支持.NET 10并引入实时预览功能,更新节奏调整为每月稳定版[10] - VS Code发布第100个开源版本,新增多窗口支持与暂存区管理[10] - GitHub Copilot扩展功能开源并集成至VS Code核心代码库[10] - 推出完整版Coding Agent,可接收GitHub Issue任务并自动执行代码重构[13][14] - Copilot新增版本迁移能力,支持Java 8至21或.NET Framework至9的自动化升级[15] - 发布Azure SRE Agent实现故障自动排查与修复建议生成[15] AI代理生态系统 - 推出Microsoft 365 Copilot Tuning,支持企业低代码定制专属AI助手[26] - Azure AI Foundry新增Model Router实现多模型自动选择[36] - Foundry Agent Service正式发布,支持多代理协同处理复杂流程[36] - 引入跨平台多代理编排能力,兼容AWS/Google Cloud及本地部署[36] - 新增Foundry Observability功能,提供智能体全链路监控与日志追踪[37] 操作系统与开源 - Windows AI Foundry开放内部开发工具,支持CPU/GPU/NPU异构计算[39] - 内置Phi-Silica小语言模型,可通过LoRA适配器快速微调[42] - Windows原生支持MCP协议,实现系统服务与AI应用的安全互通[43] - WSL开源代码库已在GitHub发布,获得19.5k星标关注[45] - WSL架构演进实现与Windows系统解耦,社区可直接贡献代码[48][49] 数据与基础设施 - SQL Server 2025预览版内置可扩展AI功能,与Azure/Fabric深度集成[55] - Cosmos DB与Azure Databricks直接接入Foundry智能体平台[55] - Fabric平台整合Cosmos DB,统一管理结构化与非结构化数据[56] - 推出Power BI Copilot,支持自然语言交互与跨报表分析[57] - Azure部署NVIDIA GB200芯片集群,单系统处理能力达86.5万tokens/秒[59] - 推出Foundry Local服务实现AI能力离线部署与敏感数据本地处理[63] 前沿技术探索 - 开源NLWeb项目,通过MCP标准实现网站与AI聊天机器人快速对接[52][53] - 发布Microsoft Discovery平台,运用Graph RAG引擎加速科研发现[65] - 科学智能体展示实际成效:200小时发现新型冷却剂材料[66] - 与xAI合作在Azure上线Grok 3模型,采用物理学方法论优化推理[33][34] - 黄仁勋透露Azure GB200超级计算机性能较Hopper架构提升40倍[60][61]
图文跨模态“近视”问题破局:360开源新模型 FG-CLIP,实现细粒度图文对齐突破|ICML2025
AI科技大本营· 2025-05-19 16:05
核心观点 - 360人工智能研究院发布FG-CLIP模型,突破传统CLIP模型在细粒度图文对齐上的局限性,显著提升对图像局部细节的识别能力 [1][4][10] - FG-CLIP采用显式双塔结构+双阶段训练策略,结合难细粒度负样本学习,实现全局与局部特征的双重优化 [10][16][20] - 模型在FG-OVD、COCO等基准测试中全面超越CLIP/EVA-CLIP等主流模型,细粒度理解准确率最高提升34个百分点 [29][30][31] - 技术已开源并获ICML 2025收录,潜在应用覆盖搜索推荐、电商、安防等多领域 [3][5][11] 技术架构 模型设计 - 首创显式双塔结构解耦图文特征,解决传统CLIP粗粒度对齐问题 [10] - 两阶段训练:首阶段全局对比学习实现基础对齐,次阶段区域对比学习强化细节感知 [16][18][19] - 创新难细粒度负样本构建方法,通过属性微调生成语义相近负样本,提升模型辨别力 [20][25] 数据工程 - 采用CogVLM2-19B重构LAION-2B数据集,描述信息量提升300%(如"一只鸟"→"红翼黑鸟栖息公园树枝") [21] - 构建1200万图像+4000万边界框标注+1000万难负样本的高质量数据集,调用160×910B NPU算力完成处理 [23][27] - 负样本质量评估显示98.9%符合标准,噪声率仅1.1% [25] 性能表现 量化指标 - 细粒度识别:在FG-OVD hardest子集准确率达46.4%,较CLIP提升34个百分点 [29][30] - 区域识别:COCO零样本检测Top-1准确率68.6%,优于FineCLIP 27个百分点 [31] - 图文检索:MSCOCO T2I任务R@1达49.8%,较CLIP提升12.7个百分点 [34] 应用场景 - 电商推荐:精准匹配"浅蓝色夹克"与"草绿色夹克"等属性差异 [1][11] - 安防监控:识别画面角落的隐藏目标(如案例中藏于狗后的木凳) [12][15] - 内容生成:为Stable Diffusion/Sora等提供细粒度跨模态编码支持 [8] 行业影响 - 突破现有CLIP技术瓶颈,推动多模态大模型向细粒度化发展 [4][12] - 开源策略加速技术产业化落地,潜在市场规模达百亿级 [5][40] - 为搜索/推荐/生成式AI等领域提供新一代基础架构 [8][11][32]
“图片秒生”,腾讯混元图像2.0模型正式发布,主打速度和真实感
AI科技大本营· 2025-05-16 16:16
腾讯混元图像2.0模型发布 - 公司发布混元图像2.0模型 基于架构创新实现实时生图 带来全新AI生图交互体验 模型已在官网开放注册 [1] - 模型参数量较前代提升一个数量级 采用超高压缩倍率图像编解码器和全新扩散架构 生图速度达毫秒级 显著快于行业5-10秒水平 [3] - 模型通过强化学习和人类美学知识对齐 有效减少"AI味" 生成图像真实感强 细节丰富 可用性高 [3] 技术性能优势 - 在GenEval评估基准上 模型准确率超过95% 大幅领先同类产品 [4] - 文生图客观指标全面领先 在Overall(0.9597) Single Obj(0.9968) Two Obj(0.9747) Counting(0.9343) Colors(0.9973) Position(0.885) Color Attribution(0.975)等细分维度均表现优异 [5] 应用场景展示 - 模型支持多种风格生成 包括人像摄影 动物特写 复古摄影 动漫风格等 画面达到电影级质感 [6][7][8][9][11] - 推出实时绘画板功能 支持线稿实时上色预览 突破传统线性流程 助力专业设计师创作 [13] - 支持多图融合功能 可叠加多个草图自动协调透视光影 按提示词生成融合图像 [13] 战略布局 - 公司预告将发布原生多模态图像生成大模型 在多轮生成和实时交互方面有突出表现 [15] - 持续加码多模态领域 此前已开源中文原生DiT架构文生图模型和130亿参数视频生成大模型 [15]
“烧掉94亿个OpenAI Token后,这些经验帮我们省了43%的成本!”
AI科技大本营· 2025-05-16 09:33
模型选择与成本优化 - 不同模型价格差异显著,GPT-4o-mini输入Token价格为每百万0.15美元,输出为0.60美元,而GPT-4.1输入输出价格分别为2美元和8美元[4][5] - 根据业务需求选择模型组合,简单任务使用低价模型GPT-4o-mini,复杂任务才切换至GPT-4.1,避免使用高价的GPT-4 Turbo[4] - 通过模型组合优化,整体成本降低43%[1] 提示词优化技术 - 利用OpenAI平台自动缓存机制,重复调用相同提示词可降低50%成本,长提示词延迟减少80%[6] - 提示词结构优化,将变化部分置于末尾以确保缓存命中率[6] - 减少输出Token数量,通过返回位置编号和类别替代完整文本,输出Token减少70%[7] 批处理与系统配置 - 非实时任务采用Batch API处理,费用节省50%,尽管存在24小时处理延迟[7] - 未设置账单预警导致5天内耗尽月度预算,凸显监控机制重要性[7] 行业实践争议 - 部分开发者质疑94亿Token消耗的必要性,认为优化策略应提前在系统设计阶段考虑[9] - 压缩输出Token可能影响模型推理质量,需权衡成本与效果,部分场景或适用传统逻辑替代[10] - 其他模型如Gemini因支持多模态和百万Token上下文被提议作为更廉价替代方案[9]
干货超标!腾讯混元3D负责人郭春超:真正的3D AIGC革命,还没开始!
AI科技大本营· 2025-05-16 09:33
腾讯混元大模型家族演进 - 腾讯混元大模型自2023年2月启动研发,从大语言模型向多模态模型全面演进,早期聚焦大语言模型方向并于2023年9月发布基于万亿参数级NLP稀疏大模型的生成式能力 [8] - 2024年5月开源业界首个中文DIT架构图像生成模型实现中文图像生成领域开源突破,同年11月推出3D生成1.0模型成为业内首个同时支持文生3D和图生3D的开源大模型 [8] - 2024年12月混元文生视频模型加入开源行列,经过两年多发展已成长为覆盖文本、语音、图像、3D、视频等多模态能力的全面生成式AI基座 [8] 3D生成技术现状 - 3D生成仍处发展早期阶段,工业界大规模投入仅一年出头,当前可用度约50%相比大语言模型90%的成熟度仍有显著差距 [22] - 技术路线呈现自回归模型与扩散模型结合趋势,前者可提升可控性和记忆能力,后者在推理速度上保持优势 [36][39] - 主要挑战包括数据稀缺(千万量级3D数据vs百亿级图片数据)、工业级CG管线融合度不足、3D表达方式未达最优 [32][43] 行业应用与效率提升 - 传统人工建模成本高昂:游戏角色建模达1.2万元/个需7天,广告建模最低200元/秒需0.5天,而文生3D成本仅0.5元/次耗时约1分钟 [13] - 腾讯混元构建"3D创动引擎"架构,通过草图生3D、纹理换肤生成、动作融合建模和低多边形优化四类技术矩阵实现关键环节30%-40%效率提升 [13][14] - 应用分层明显:轻量小游戏资产已"踮脚可及",腰部游戏可辅助道具生成,3A大作需多轮原型迭代中提效 [31] 开源战略与技术生态 - GitHub Star数超1.2万,Hugging Face下载量超100万,最小开源模型参数仅0.6B支持本地运行 [19][28] - 开源与商业协同发展:开源模型反馈问题促进研发,社区插件可被复用,形成"持续迭代速度"的核心护城河 [28][34] - ComfyUI官方支持实现从草图到完整3D模型的一键生成,年内计划开放更多模型与数据集降低行业门槛 [17][19] 未来发展方向 - 2025年目标实现物体级生成接近人工建模水平,场景类生成具备初步雏形,向原生多模态统一架构演进 [20] - 世界模型构建分阶段推进:先实现局部空间合理性,再扩展至具备物理规律的三维世界,当前已在腾讯地图导航车标等场景落地 [19][42] - 专业工具定位明确:AI不会替代3D设计师而是成为生产力工具,帮助将创意实现效率提升10倍 [46][47]
Visual Studio 重磅更新!擅长处理复杂任务的 GitHub Copilot “智能体模式”预览版上线
AI科技大本营· 2025-05-15 14:14
GitHub Copilot 智能体模式发布 - GitHub Copilot 智能体模式正式登陆 Visual Studio 17 14 预览版 开发者可通过提示让 Copilot 自主处理从计划 构建 测试到修复的整个开发流程 [1] - 智能体模式下的 Copilot 不仅能写代码 还能基于指令进行迭代处理 持续检查并执行任务 不断优化输出直到完成任务 [3] - 微软简化 Copilot 体验 智能体模式将成为应用代码更改的全新默认方式 是 GitHub Copilot Chat 中"Edits"功能的下一代进化版 [4] 智能体模式核心功能 - 自主确定上下文与编辑文件 无需手动指定 能智能判断相关上下文和文件 [5] - 建议终端命令供审批执行 生成必要终端命令并在确认后执行 [5] - 持续迭代直至任务完成 不断检查错误 运行构建/测试验证结果 [5] - 通过 MCP 服务器调用可信工具 如代码风格检查工具 测试运行器和静态分析器等 [5] 使用与配置方法 - 使用 Visual Studio 17 14 正式版或更高版本 智能体模式默认关闭 [4] - 在 Copilot Chat 窗口切换到"Agent"标签 给出高阶指令 通过 IDE 右上角 Copilot 徽章访问窗口 [6] - 打开功能搜索(Ctrl + Q) 搜索 copilot-chat agent 启用 Copilot Chat Agent Enabled [8] 应用场景与特性 - 编辑范围 自主搜索代码库并确定相关上下文和要编辑的文件 [9] - 任务复杂度 擅长处理超出简单代码编辑的复杂任务 适合涉及工具调用和终端命令的项目 [9] - 响应时长 处理请求可能涉及多个步骤 获得响应需要更长时间 [9] - 自我迭代 能评估生成编辑结果 多次迭代解决中间问题 [9] - 多重请求 简单提示可能导致向后端发起多次请求 [9] 示例提示与扩展能力 - 示例提示包括"为这个 API 添加错误处理" "将此项目转换为使用环境变量"等 [9] - 引入模型上下文协议(MCP)服务器支持 作为通用适配器连接外部工具 数据源和资源 [7] - 能与云环境(如 Azure 服务)交互 查询管理数据库 操作版本控制平台等 [7] 更新计划 - 微软宣布 Visual Studio 将针对 Copilot 更新转向月度发布计划 功能迭代将更频繁敏捷 [7]