Stitch

搜索文档
小众AI宝藏清单,谁会是下一个爆款?
AI研究所· 2025-07-10 17:53
核心观点 - 一批创新型AI应用通过跨界融合和功能创新,在细分领域展现出独特潜力,包括艺术音乐生成、UI设计、职场指导、虚拟旅游、动画创作和语音复刻等方向 [1][23] National Gallery Mixtape - 通过谷歌Gemini多模态模型解析世界名画(如梵高《向日葵》),将画作色彩、光影转化为对应情绪的大提琴曲或钢琴旋律 [2][3][5] - 采用MusicFX DJ实时作曲技术,支持用户调整音量/顺序/叠加效果,并显示"轻盈""钢琴"等音乐特征标签 [3][5] Stitch - 由Google Labs推出的UI设计工具,前身为Galileo AI,可将文字描述直接转化为完整UI设计稿 [6][7] - 支持导出Figma文件或前端代码,比Vercel v0更贴近设计师工作流,适用于快速验证产品创意 [9] Portraits - 以Google/苹果前高管Kim Scot为原型的AI虚拟人,提供职场指导与场景模拟训练 [10][11] - 支持语音/文字交互,可进行角色扮演演练并生成事后总结报告,模拟20年大厂高管的经验指导 [13] Talking Tours - 通过互动地图实现全球地标"云游览",AI导游提供建筑历史、文化背景的实时讲解 [14][17] - 支持街景浏览和即时问答,用户拍摄快照可触发AI重新生成讲解内容 [17] Whisk - 采用Gemini 2.5 Pro模型解析用户上传的参考图片(如猫+皇冠),生成Imagen 3图像 [18] - 集成Veo 2功能可将静态图转为短视频,降低动画创作门槛 [19] 声塔 - 基于科大讯飞"三阶段层次化语音建模框架",仅需用户朗读一句话即可克隆声线 [21][22] - 支持将文本转为带个人语音特征的播客音频,复现说话停顿、口音等细节 [21][22]
隐藏在Google Labs里的5个神级AI应用。
数字生命卡兹克· 2025-06-24 22:33
Google Labs概述 - Google Labs是Google官方的AI创新项目合集,包含30多个已开放或即将开放的AI产品 [3][5] - 项目调性聚焦于趣味学习、简化交互提升生产力、AI与日常生活结合 [5] - 曾孵化Notebooklm(开创性AI播客工具)和Whisk(简化生图交互工具)等创新产品 [4] 重点产品解析 1 National Gallery Mixtape - 艺术与AI融合工具:输入画作自动生成配乐,并标注乐器种类和风格 [10][11] - 支持音乐DIY:用户可在生成基础上二次创作 [15] - 案例展示:梵高向日葵生成忧伤大提琴曲,圣经题材画作生成紧张错拍音乐 [18][22][23] - 当前局限:仅支持内置画作库,不支持自定义上传 [28] 2 Learn About - 结构化学习工具:通过知识框架→卡片笔记→知识沉淀→互动测试四步法教学 [32][34][38][47] - 特色功能: - "The Big Picture"模块可视化知识结构 [35] - 提供简化版/深度版/图像化三种知识总结方式 [40] - 互动式停顿思考设计增强学习效果 [44][45] - 开放式答题评估系统附带详细改进建议 [48][50] 3 Little Language Lessons - 实用性语言学习工具,聚焦高频场景需求 [54][59] - 核心功能: - 特定场景词汇短语速成(如粤语打车场景) [61][63] - 本地化俚语对话学习 [64] - 拍照识物翻译功能 [65] 4 Stitch - AI驱动的UI设计工具,前身为Galileo AI [69][72] - 双模式生成: - 自然语言描述生成完整APP界面(如外卖APP) [72] - 手绘草图转UI设计 [74] - 支持Figma画布无缝编辑 [75] 5 Portraits - 虚拟职场导师系统,基于真人专家数据训练 [80][81] - 原型人物为Google/苹果前高管Kim Scott,整合其著作与演讲数据 [82] - 功能特点: - 覆盖甩锅应对、绩效谈判等典型职场问题 [85] - 理论讲解+角色扮演+流程复盘三段式教学 [86] - 严格聚焦专业领域,拒绝闲聊 [86] Google Labs战略价值 - 历史沿革:2002年创立,曾孵化Gmail、Google Maps等核心产品,2011年关闭后于AI时代重启 [93][94][99] - 创新方法论: - 小目标启动:以1万周活用户为初期目标 [101][102] - 快速迭代:50-100天完成创意落地 [104][105] - 前瞻视角:规划5-10年后AI融合场景 [106][107] - 战略定位:在超级大厂中保持创新活力的实验田 [108][110]
谷歌悄咪咪上线了 10 款 AI 应用,下一个 NotebookLM 可能在里面
Founder Park· 2025-06-09 21:37
Google Labs AI应用平台 - Google Labs是谷歌官方的AI实验平台,聚焦生成式AI项目,定位为AI创意孵化器,用于测试基于最新AI模型的新奇产品 [6][7] - 平台已上线10+款高完成度AI应用,涵盖创意设计、内容生成、教育娱乐等领域,包括Whisk、Gen Type、Mixtape等工具 [3][5] - 历史成功案例显示,Gmail等成熟产品早期均通过该平台验证,当前重点转向生成式AI方向 [7] 核心AI产品功能解析 创意生成工具 - Whisk实现低门槛AI生图,支持图片上传作为风格参考,结合Imagen 3模型生成融合图像,集成Veo 2技术可添加动态效果 [10][13][18] - Gen Chess提供象棋生成器,支持经典/创意双模式,输入IP名或食物等关键词即可生成主题棋子,含AI对战功能 [54][55][67] - Gen Type通过材质描述生成A-Z全套字体,如"吐司葡萄果酱"风格字母,输出PNG素材 [72][73] 垂直场景应用 - Food Mood实现跨国菜系融合,选择国家组合+食材可生成完整食谱,支持素食/无麸质等需求 [41][42][43] - Talking Tours提供AI导游服务,覆盖全球地标VR实景,支持实时画面生成新解说词 [77][79][83] - Career Dreamer基于现有职业生成技能图谱,推荐AI内容策略师等关联岗位 [85][86][90] 内容生产工具 - National Gallery Mixtape将名画转为AI音乐,支持6幅画作混音,显示"钢琴""弦乐"等特征标签 [37][38] - Illuminate播客工具可设定访谈风格,支持学术论文等文本转对话音频,区分随性/专业模式 [102][103][104] - Stitch通过文本生成UI草图,如披萨课程落地页、植物养护仪表盘等界面原型 [107][108][112] 技术实现与交互特性 - Whisk采用图片解析+提示词优化技术,准确还原橘猫毛发细节等特征,动画效果精准控制局部元素 [22][24][28] - Learn About构建结构化知识框架,提供简化/深入/可视化三种内容呈现方式 [94][96][99] - 产品普遍强调低交互门槛,如Food Mood随机生成功能、Gen Chess预设提示词模板等 [42][55][72]
电子行业周观点:AI模型显著升级,AI与XR深度融合
国盛证券· 2025-05-25 14:23
报告行业投资评级 - 行业评级为增持(维持) [6] 报告的核心观点 - AI处于景气周期,随着基础模型不断优化、端侧以及AI应用与模型互相正向推动,整个AI产业链将受益 [1] 根据相关目录分别进行总结 1. AI融入业务生态系统,谷歌重回AR眼镜市场 1.1 各大模型全面爆发,Gemini系列模型成为核心焦点 - 2025年5月21日Google I/O 2025开发者大会,谷歌发布或升级系列AI相关工具和服务,基础模型是亮点,Gemini系列为核心焦点 [11] - 谷歌对Gemini全面升级,2.5 Pro版本性能卓越,在学术基准测试及全球排行榜领先,DeepMind为2.5 Pro和2.5 Flash新增三大功能,Deep Think提升2.5 Pro能力 [11] - 最高效主力模型Gemini 2.5 Flash多维度提升,效率进一步提升,使用token减少20 - 30%,2.5 Flash已面向所有用户开放,6月初将正式发布更新版本,2.5 Pro也将很快发布 [12] - 谷歌在Gemini API和Vertex AI引入思维摘要功能,扩展思维预算到2.5 Pro,增加对MCP工具支持 [14] - 谷歌宣布新模型Gemini Diffusion,用「扩散」技术探索新语言模型方向,生成速度是谷歌最快模型五倍,编程性能相当 [15] - 谷歌将Gemini扩展为世界模型,愿景是打造成通用AI助手,过去一年集成功能到Gemini Live,还进行了语音输出、记忆功能和计算机控制功能的创新 [16] - 编程工具领域,谷歌宣布编程智能体Jules,可与用户代码库集成,异步运行,默认为私有,不使用用户私有代码训练,隔离用户数据 [17] - 谷歌宣布Gemini Code Assist新升级,个人版和GitHub版正式发布,Gemini 2.5支持免费版和付费版,提供更多自定义选项,标准版和企业版开发者可用200万token上下文窗口,可提高开发者完成常见开发任务成功率2.5倍 [19][20] - 谷歌推出全新AI驱动式UI工具Stitch,能基于自然语言描述或图像提示词生成UI设计及前端代码,可对话迭代设计,导出为CSS/HTML或Figma [20] - 谷歌宣布Colab和Firebase Studio功能升级,Colab将有全新智能体体验 [21] - 视频和图像生成领域,谷歌最新模型Veo 3和Imagen 4打破媒体生成界限,全新AI电影制作工具Flow用上最先进模型 [21] - Veo 3提高质量且可生成带音频视频,为Ultra在美国用户和Vertex AI企业用户服务;Veo 2更新添加新功能 [23][26] - Flow整合先进模型,让用户无缝创作电影级片段、场景和故事;Imagen 4细节清晰,表现出色,可创建多种宽高比图像,拼写和排版提升,将推出比Imagen 3快10倍的变体 [30] - 视频通信领域,谷歌Starline项目演变为3D视频通信平台Google Beam,借助AI将2D视频流转化为3D体验,还探索语音翻译功能,今日在Google Meet上线,最初支持英语和西班牙语,未来几周支持更多语言 [31][34] - 搜索领域,谷歌搜索AI概览功能升级,覆盖200多个国家和地区,支持40多种语言,新增多种语言支持,速度快,本周将在美国引入Gemini 2.5定制版本 [35] - 谷歌在美国正式推出AI模式,无需注册Labs,推理和多模态分析能力先进,采用查询扇出技术,将引入深度搜索功能,还为搜索引入实时功能、Project Mariner智能体功能、个人上下文与定制图表等能力 [38][41] - 谷歌推出全新AI购物体验,将Gemini功能与Shopping Graph结合,Shopping Graph有超500亿条商品信息,每小时超20亿条信息更新,用户可虚拟试穿服装 [44] - 谷歌推出Gemma 3n预览版本,是可在多设备流畅运行的开放式多模态模型,还推出新订阅套餐Google AI Ultra,每月249.99美元 [49] 1.2 联手XREAL打造Project Aura眼镜,面对竞争激励的AR眼镜市场 - 2025年谷歌I/O开发者大会,谷歌和XREAL共同开发Project Aura全新Android XR设备,基于OST技术路线,搭载高通骁龙XR芯片,有摄像头、视觉传感器模组、扬声器和麦克风阵列 [53] - 该设备外观与普通眼镜相近,佩戴舒适度初步接近普通Ray - Ban眼镜,单镜设计未影响使用体验,反而可能成亮点 [55] - 设备集成Gemini多模态助手,按住右侧镜腿触控区域可激活,能实时分析周围环境,Project Astra可用于视障人士辅助 [56] - 谷歌与XREAL合作类似安卓开放生态扩张经验,还预告与时尚眼镜品牌合作,Project Aura发布标志谷歌加入消费级AR硬件竞赛 [60] 2、相关标的 - 谷歌产业链相关标的有胜宏科技、天弘科技、lumentum、FINISAR [61] - 海外AI相关标的有胜宏科技、工业富联、沪电股份、麦格米特 [61] - 国产算力相关标的有中芯国际、寒武纪、海光信息等多家公司 [61] - 存储相关标的分企业级存储(香农芯创、澜起科技等)和AI端侧存储(兆易创新、东芯股份等) [61] - 消费电子相关标的涵盖代工厂&终端、电池、结构件&功能件等多个类别,涉及华勤技术、珠海冠宇等多家公司 [61] - 智能驾驶相关标的涉及智驾芯片、智驾域控、车载CIS等多个领域,包括地平线、比亚迪电子等多家公司 [61][63]
2025谷歌开发者大会有哪些值得关注的内容?
金十数据· 2025-05-21 12:06
Gemini系列产品更新 - Gemini Ultra订阅服务在美国推出 月费249 99美元 包含Veo 3视频生成器 Flow视频剪辑工具及Gemini 2 5 Pro的Deep Think模式等高级AI功能 [1][2] - Gemini 2 5 Pro新增Deep Think模式 通过综合多个答案提升推理能力 目前仅向受信测试者开放API [3] - Gemini应用月活跃用户突破4亿 Gemini Live新增摄像头与屏幕共享功能 支持近实时语音互动及手机画面共享 [6][7] - Gemini将整合进Chrome浏览器 作为AI浏览助手 Gemma 3n模型支持多模态处理 周二起开启预览 [14] AI视频与图像生成技术 - Veo 3视频生成AI可生成音效 背景噪音及配音对白 画质优于前代 仅限Gemini Ultra用户使用 [4] - Imagen 4图像生成AI速度提升 支持2K分辨率及精细细节渲染 未来版本速度将比Imagen 3快十倍 [5] - Veo 3与Imagen 4共同支撑视频创作工具Flow的核心功能 [5] 开发者工具与平台 - Stitch AI工具可通过自然语言或图片生成UI元素及前端代码 提供较高自定义空间 [8] - Project Mariner AI代理支持同时处理近十项任务 可代用户完成在线购物等操作 [9] - 安卓Studio集成Gemini 2 5 Pro 新增Journeys开发流程与Agent Mode自动化功能 [17] 硬件与操作系统 - Wear OS 6引入统一字体设计 Pixel Watch支持主题色同步 提供开发者设计指南与Figma模板 [15] - Beam 3D视频会议系统实现毫米级头部追踪与60帧/秒传输 结合Google Meet支持AI实时语音翻译 [12] 搜索与办公应用 - AI Mode实验性搜索功能支持复杂多段式提问 提供服饰试穿功能 夏季将推出基于视觉的Search Live [11] - Gmail Docs和Vids获AI办公更新 Gmail新增智能回复与收件箱清理 NotebookLM新增视频概览功能 [14] 谷歌生态整合 - Project Astra多模态AI项目将支持搜索 Gemini应用及第三方产品 正与三星等合作开发智能眼镜 [10] - Google Play为开发者新增订阅管理 内容预览等工具 美国用户可访问影视主题应用浏览页面 [16]
大模型全面爆发,所有榜一都是Gemini!谷歌一夜站到了台前
机器之心· 2025-05-21 08:33
核心观点 - 谷歌在Google I/O 2025开发者大会上展示了多项AI技术的重大突破,包括Gemini系列模型的升级、编程工具的创新、视频/图像生成模型的优化以及搜索和购物体验的革新 [1][2][3][61] Gemini模型升级 - Gemini 2.5 Pro在学术基准测试中表现优异,成为WebDev Arena和LMArena排行榜领先模型 [7][8] - DeepMind为2.5 Pro和2.5 Flash新增原生音频输出、安全保障和Project Mariner计算机使用功能 [9] - Deep Think实验性推理模式可提升2.5 Pro处理复杂数学和编码的能力 [10] - Gemini 2.5 Flash在推理、多模态、代码和长上下文等基准上均有提升,token使用减少20-30% [12] - Gemini Diffusion新模型采用扩散技术,生成速度达12秒10095 token,是现有最快模型的5倍 [16][18] 编程工具创新 - 编程智能体Jules可异步运行,支持代码库克隆、测试编写、功能构建等任务 [21] - Gemini Code Assist个人版和GitHub版正式发布,支持200万token上下文窗口 [22][23] - 数据显示Gemini Code Assist可将开发任务成功率提高2.5倍 [24] - AI驱动UI工具Stitch可根据自然语言生成高质量UI设计和前端代码 [24] - Colab将推出全新智能体体验,支持目标导向的代码修复和转换 [26] 视频/图像生成模型 - Veo 3视频生成模型新增音频功能,质量优于Veo 2 [28][29] - Imagen 4图像模型在细节清晰度、拼写排版等方面显著提升,支持2k分辨率 [35] - AI电影制作工具Flow整合Veo、Imagen和Gemini模型,支持精细控制角色和场景 [33] - Imagen 4变体即将推出,速度比Imagen 3快10倍 [38] 搜索与购物体验 - AI概览功能覆盖200+国家和地区,支持40+语言,响应速度为业内最快 [47] - AI模式采用查询扇出技术,可分解问题并同时发出多个查询 [50] - 实时搜索功能整合Project Astra技术,支持摄像头交互 [51] - AI购物模式结合Gemini与Shopping Graph,包含500亿+商品信息 [56] - 虚拟试穿功能支持上传照片试穿数十亿种服装 [57][59] 其他创新 - Starline项目进化为3D视频通信平台Google Beam,支持逼真3D体验 [41][42] - Google Meet语音翻译功能初期支持英语和西班牙语 [43][44] - Gemma 3n预览版发布,支持多模态处理且可在移动设备运行 [60]