Workflow
Project Astra
icon
搜索文档
“AI,你帮我挑个木瓜?”实测豆包视频通话功能 一场AI“视觉交互”争夺战已打响
每日经济新闻· 2025-05-28 07:49
字节跳动AI视频交互功能升级 - 字节跳动旗下AI智能助手"豆包"App上线视频通话功能,基于视觉推理模型支持联网搜索[2] - 新功能展示出持续记忆和逻辑推理能力,在识别水果成熟度等日常场景表现突出[2] - 大模型算法工程师评价豆包视频理解与语音交互能力在中文语境处于第一梯队[2] 豆包视觉理解模型技术细节 - 火山引擎总裁谭待去年12月发布豆包视觉理解模型,具备内容识别、理解、推理等能力[3] - 新模型经过5个月开发实现实时视频通话功能[3] - 功能支持四大生活场景:花草识别、博物馆讲解、书籍推荐、食材搭配[5] 功能实测表现 - 在水果挑选测试中能通过表皮颜色、饱满程度等指标给出建议[5] - 展现出色记忆能力,能记住镜头一闪而过的书籍并准确回忆[6] - 结合实时搜索功能可对书籍内容、作者生平进行自然延伸讨论[6] 行业竞争格局 - 国内"智谱清言"App于2024年8月率先推出C端视频通话功能[7] - OpenAI的GPT-4o和谷歌Project Astra均具备实时语音视频交互能力[7] - Web端AI智能助手总访问量4月份首次出现下降,显示行业进入新阶段[9] 商业化前景 - 豆包通过抖音生态快速触达用户,3月接入抖音后关注度提升[9] - 可与抖音内容审核AI结合识别违规短视频内容[9] - AI视频交互在虚拟人直播、视频归纳总结等场景应用前景广阔[9] - AI眼镜等新硬件可能成为未来重要应用载体[9]
微软和Google都找到了自己的AI重心
36氪· 2025-05-27 07:39
微软Build 2025大会 - 核心战略聚焦开放代理网络(Open Agentic Web),构建AI智能体在个人、组织及业务流程中的协同体系[1][3] - 推出四类关键工具:开发环境(Windows/Azure AI Foundry)、效率提升(GitHub Copilot支持1500万开发者)、载体(Teams升级)、网络连接(MCP协议与NLWeb概念)[4][5][6][7] - 类比AI发展阶段为1991年Win32级别,强调B端布局而非C端爆发[3] Google I/O开发者大会 - 以Gemini为核心打造AI操作系统雏形,CEO提出"Gemini时代"概念[1][8] - 模型能力显著升级:Gemini 2.5 Pro、视频模型Veo 3、生图模型Imagen 4获正面评价[8] - C端产品深度整合:AI搜索覆盖全美用户,Gemini App月活超4亿,扩展至Android XR/手表/汽车等硬件[9][10] 中美科技公司AI战略对比 - 国内巨头(阿里/腾讯/字节)尚未形成统一战略旗帜,布局分散[2][12] - 阿里侧重to B生态构建(大模型+云服务),但C端依赖夸克转型[12] - 腾讯模仿Google路径改造C端产品(如QQ浏览器),但模型能力弱于Gemini[13] - 字节积极布局多模态与硬件,缺乏to B生态基础[13] 行业趋势 - AI进入应用落地阶段:微软通过基础设施赋能开发者,Google通过系统化改造直接服务C端[12] - 协议标准化成为关键:微软MCP协议定位为"AI时代的HTTP",NLWeb类比HTML[6][7] - 开发者生态竞争加剧:GitHub Copilot用户达1500万(占GitHub总用户10%)[5]
谷歌I/O的AI新叙事:从大模型到一站式服务,AI与XR会师
36氪· 2025-05-22 08:15
AI大模型与产品发布 - Gemini 2.5 Pro确认6月上线,号称世界最智能AI模型,ELO基准测试1448分,在USAMO 2025、LiveCodeBench、MMMU等测试中领先Gemini 2.5 Pro [2] - Gemini 2.5 Flash为轻量级模型,效率提升22%,Token使用减少20%-30% [2] - 新增文本转语音能力,支持丰富细节如窃窃私语,适合影视配音 [4] - 推出文本扩散模型Gemini Diffusion,在编程和数学领域表现更优 [4] - Project Mariner(原Jarvis)为可操作浏览器/软件的AI智能体,能监督10个同时任务并通过用户操作学习 [4] AI应用与商业化 - AI搜索新增图表生成、票务查找、视频/地图展示等功能,月活用户达15亿 [1][4] - 智能购物功能支持衣物虚拟试穿,提升购物体验 [6] - 发布文生图模型Imagen 4,生成速度提升3-10倍,分辨率2K,支持复杂物体细节 [6] - 视频生成模型Veo 3首次支持带音频视频,物理模拟和口型同步效果突出 [7] - 内容创作应用Flow整合Veo、Imagen、Gemini,支持文字/素材生成视频,B端定价AI Pro 19.99美元/月,AI Ultra 249.99美元/月 [8][10] XR平台与设备 - 安卓XR平台获数百家软件商支持,首款设备三星Project Moohan搭载骁龙XR2 Plus Gen 2,独立运行,2025年发售 [11] - 第二款设备Xreal Project Aura为首款安卓XR AR眼镜,支持OST/VST透视 [11] - 平台集成Gemini,支持自然语言交互如信息查询、实时导航 [12] - 统一生态降低开发者适配成本,Gemini优化交互逻辑实现"全场景可见即可说" [20] 安卓系统更新 - Wear OS 6引入Material 3设计语言,适配圆形屏幕,新增动态色彩主题和表盘API [21] - 安卓16主打Live Updates功能,显示导航/外卖/网约车状态进度条 [21][23] - 支持桌面模式,升级安全性/UI/相机/大屏适配等 [24] - 全能AI助手Project Astra可主动制定解决方案,基于Gemini Nano视觉识别跨应用操作 [24] 行业趋势与挑战 - AI行业进入能力变现期,谷歌侧重应用场景落地以增强营收 [10] - AI/XR头部企业短期难盈利,数据中心建设投入将持续高于营收 [27] - XR生态建设需数年,性能/续航依赖芯片和电池技术突破 [27] - 更多眼镜品牌如Gentle Monster、Warby Parker加入安卓XR生态,有望降低设备成本 [27]
2025谷歌开发者大会有哪些值得关注的内容?
金十数据· 2025-05-21 12:06
Gemini系列产品更新 - Gemini Ultra订阅服务在美国推出 月费249 99美元 包含Veo 3视频生成器 Flow视频剪辑工具及Gemini 2 5 Pro的Deep Think模式等高级AI功能 [1][2] - Gemini 2 5 Pro新增Deep Think模式 通过综合多个答案提升推理能力 目前仅向受信测试者开放API [3] - Gemini应用月活跃用户突破4亿 Gemini Live新增摄像头与屏幕共享功能 支持近实时语音互动及手机画面共享 [6][7] - Gemini将整合进Chrome浏览器 作为AI浏览助手 Gemma 3n模型支持多模态处理 周二起开启预览 [14] AI视频与图像生成技术 - Veo 3视频生成AI可生成音效 背景噪音及配音对白 画质优于前代 仅限Gemini Ultra用户使用 [4] - Imagen 4图像生成AI速度提升 支持2K分辨率及精细细节渲染 未来版本速度将比Imagen 3快十倍 [5] - Veo 3与Imagen 4共同支撑视频创作工具Flow的核心功能 [5] 开发者工具与平台 - Stitch AI工具可通过自然语言或图片生成UI元素及前端代码 提供较高自定义空间 [8] - Project Mariner AI代理支持同时处理近十项任务 可代用户完成在线购物等操作 [9] - 安卓Studio集成Gemini 2 5 Pro 新增Journeys开发流程与Agent Mode自动化功能 [17] 硬件与操作系统 - Wear OS 6引入统一字体设计 Pixel Watch支持主题色同步 提供开发者设计指南与Figma模板 [15] - Beam 3D视频会议系统实现毫米级头部追踪与60帧/秒传输 结合Google Meet支持AI实时语音翻译 [12] 搜索与办公应用 - AI Mode实验性搜索功能支持复杂多段式提问 提供服饰试穿功能 夏季将推出基于视觉的Search Live [11] - Gmail Docs和Vids获AI办公更新 Gmail新增智能回复与收件箱清理 NotebookLM新增视频概览功能 [14] 谷歌生态整合 - Project Astra多模态AI项目将支持搜索 Gemini应用及第三方产品 正与三星等合作开发智能眼镜 [10] - Google Play为开发者新增订阅管理 内容预览等工具 美国用户可访问影视主题应用浏览页面 [16]
Alphabet (GOOG) 2025 Update / Briefing Transcript
2025-05-21 02:00
纪要涉及的公司和行业 - **公司**:Alphabet(旗下Google)、HP、Automation Anywhere、UiPath、Zillow、Aira、Gentle Monster、Warby Parker、Walmart、Red Cross、Waymo - **行业**:人工智能、视频通信、搜索、软件开发、机器人、科学研究、影视制作、时尚购物、卫星监测、无人机配送、自动驾驶 纪要提到的核心观点和论据 人工智能模型进展 - **模型性能提升**:自第一代Gemini Pro以来,Elo分数提升超300点,Gemini 2.5 Pro在多个基准测试中表现出色,在WebDevArena上超越前版本42 Elo点,在LM Arena排行榜上占据前三 [3]。 - **应用广泛且受欢迎**:在顶级编码平台受青睐,在Cursor上是年度增长最快的模型,每分钟生成数十万行被接受的代码;Gemini应用月活用户超4亿,2.5 Pro版本使用量增长45% [4][8]。 - **基础设施强大**:第七代TPU Ironwood性能是上一代的10倍,每个端口计算能力达42.5 hexaflops,将为Google Cloud客户提供服务,助力模型输出更快且价格下降 [5][6]。 - **处理能力飞跃**:过去一年,每月处理的令牌数量从9.7万亿增长到480万亿,增长约50倍 [7]。 - **开发者采用率高**:超700万开发者使用Gemini API进行开发,自上次IO以来增长超5倍,Vertex AI上的Gemini使用量增长超40倍 [8]。 产品创新与应用 - **视频通信平台Google Beam**:基于Project Starline技术,将二维视频流转化为逼真的三维体验,与HP合作,今年晚些时候为早期客户提供设备 [12][13]。 - **实时语音翻译**:在Google Meet中引入,英语和西班牙语翻译已面向订阅用户开放,未来几周将推出更多语言,企业版将于今年晚些时候推出 [20]。 - **Project Astra融入产品**:Gemini Live具备其相机和屏幕共享功能,可用于多种场景,如工作面试练习、马拉松训练等,今日起在Android和iOS上向所有人推出 [21][31]。 - **Project Mariner进展**:引入多任务处理,可同时处理10个任务,具备“教与重复”功能,其计算机使用能力将通过Gemini API提供给开发者,今年夏天更广泛可用 [33]。 - **Gemini应用新功能**:推出实验性的代理模式,可帮助用户查找公寓、安排参观等;个性化智能回复功能将在今年夏天在Gmail中面向订阅用户推出 [35][41]。 模型更新与优化 - **Gemini 2.5 Flash更新**:在推理、代码和长上下文等关键基准测试中表现更好,仅次于2.5 Pro,6月初全面可用,专业版随后推出,可在AI Studio、Vertex AI和Gemini应用中试用预览版 [46]。 - **文本转语音改进**:引入新的预览版,支持多语音,可在24种以上语言间切换,今日起可在Gemini API中使用 [50][53]。 - **安全与透明度增强**:加强对间接提示注入等安全威胁的防护,通过Gemini API和Vertex AI提供思想摘要,提高模型透明度 [57]。 - **效率提升**:2.5 Flash效率提高22%,并将思维预算功能引入2.5 Pro,用户可控制成本、延迟和质量 [58][59]。 前沿研究与探索 - **DeepThink模式**:为2.5 Pro引入新的DeepThink模式,在数学和编码基准测试中表现出色,目前正在进行前沿安全评估,将先提供给可信测试人员 [72][73]。 - **世界模型探索**:努力将Gemini扩展为世界模型,使其能够模拟世界、制定计划和想象新体验,相关能力已在一些方面显现,如Genie 2模型可生成三维模拟环境 [76]。 - **机器人应用**:微调专门的Gemini Robotics模型,教机器人执行有用任务,可在AI沙箱中体验 [78]。 搜索产品升级 - **AI概述成功**:自去年IO推出以来,每月用户规模扩大到超15亿,在200多个国家和地区使用,推动视觉搜索增长65%,在主要市场推动相关查询增长超10% [103][104]。 - **AI模式推出**:全新的AI搜索体验,具备更高级的推理能力,可处理更长、更复杂的查询,今日起在美国面向所有人推出,本周将引入Gemini 2.5模型 [105][107]。 - **个性化与深度研究**:今年夏天将引入个人上下文功能,提供个性化建议;还将引入深度搜索功能,可生成专家级、全面引用的报告 [115][118]。 - **复杂分析与可视化**:今年夏天将为体育和金融问题提供复杂分析和数据可视化功能 [123]。 - **代理能力集成**:将Project Mariner的代理能力集成到AI模式中,可帮助用户完成任务,如查找活动门票、预订餐厅等 [124]。 - **多模态搜索升级**:将Project Astra的实时功能引入AI模式,实现搜索实时功能,用户可通过相机与搜索进行实时交互 [129][130]。 - **购物体验创新**:提供视觉购物灵感,推荐个性化产品;引入虚拟试穿功能和代理结账功能,提升购物体验 [146][156]。 创意工具与媒体生成 - **Gemini应用新特性**:推出五项新功能,包括免费的Gemini Live,具备相机和屏幕共享功能;深度研究可上传文件;Canvas可进行协同创作;Gemini in Chrome可在浏览网页时提供帮助;引入Imagine 4图像生成模型和VO 3视频生成模型 [167][187]。 - **音乐创作工具**:与音乐家合作开发Music AI Sandbox,推出Lyria 2音乐生成模型,可生成高保真音乐和专业级音频 [188][191]。 - **合成内容检测**:继续创新合成内容检测技术,扩展Synth ID水印嵌入和检测功能,新的Synth ID检测器开始向早期测试人员推出 [192][193]。 - **影视制作工具**:与导演合作探索VIO作为影视制作工具,推出新的AI影视制作工具Flow,结合Vio、Imagine和Gemini的优势 [194][211]。 订阅计划升级 - **Google AI Pro**:全球可用,提供全套AI产品,具有更高的速率限制和特殊功能 [221]。 - **Google AI Ultra**:面向开拓者和先锋用户,提供最高速率限制、最早访问新功能和产品,今日在美国推出,即将全球推广 [222]。 Android平台与AI融合 - **Android更新**:上周在Android展上推出Android 16和Wear OS 6的全新设计和重大更新 [224]。 - **Gemini集成**:Gemini将很快集成到Android设备中,包括手表、汽车仪表盘和电视,还将通过Android XR平台支持多种新兴设备 [225][226]。 - **Android XR体验**:与三星合作开发,支持头戴式设备和眼镜,Gemini可在这些设备上提供更丰富的上下文理解和帮助,三星的Project Moohan头戴式设备今年晚些时候上市,眼镜原型已供可信测试人员使用,今年晚些时候可开始开发 [228][230][265]。 其他重要但是可能被忽略的内容 - **AI助力社会公益**:与合作伙伴构建Firesat卫星星座,利用多光谱卫星图像和AI提供近实时火灾洞察,首颗卫星已在轨;在飓风Helene期间,Wing与Walmart和Red Cross合作,通过无人机提供救灾物资 [269][270]。 - **用户体验与反馈**:分享了盲人用户对Project Astra的期待和使用体验,展示了AI在无障碍领域的潜力 [93][100]。 - **AI排行榜**:Gemini在AI计数器排行榜上领先,得分95 [267]。