Fellou 2.0

搜索文档
腾讯研究院AI速递 20250604
腾讯研究院· 2025-06-03 22:49
微软Bing Video Creator - 微软发布由OpenAI Sora技术支持的Bing Video Creator,可通过自然语言生成多种类型视频 [1] - 该服务免费提供快速和标准两种生成模式,初始有10次快速生成机会,生成视频长度为5秒 [1] - 系统内置安全保障措施并为视频添加内容凭证和溯源信息,目前国区未开放 [1] Manus幻灯片功能 - Manus新幻灯片功能可在10分钟内生成8页专业PPT,支持导出为Google Slides [2] - 实测显示功能支持自动搜索资料、规划结构、生成内容,但存在页面显示不完全问题 [2] - 与Genspark对比速度更快(10分钟vs20分钟),被网友评为当前PPT制作最佳工具 [2] Character.ai AvatarFX - Character.ai推出AvatarFX功能,使静态图片人物能说话唱歌并支持多轮对话 [3] - 基于DiT架构实现高保真度和强时间一致性,复杂场景中表现稳定 [3] - 同步推出沉浸式叙事体验Scenes、动画聊天Imagine Animated Chat等新功能 [3] Fellou 2.0智能体 - Fellou 2.0作为Agentic Browser实现AI任务7x24小时批量化生产 [4] - 新版本速度提升1.2-1.5倍,成功率从31%升至80%,支持多任务并行处理 [5] - 基于Eko 2.0架构,未来将推出Windows版本并取消邀请码 [5] YouWare氛围编程平台 - YouWare让非程序员通过AI将创意转化为网页并一键上线分享 [6] - 平台实现"所想即所见"体验,由自研AI Agent和Sandbox技术支撑 [6] - 建立类似Instagram的创作社区,设计"Knot"奖励机制鼓励优质内容 [6] 智源Video-XL-2模型 - 智源开源轻量级Video-XL-2模型,单卡可处理长达万帧视频 [7] - 模型采用四阶段渐进式训练方法,编码2048帧视频仅需12秒 [7] - 在主流评测中超越所有轻量级开源模型,适用于影视分析和异常监测 [7] Salesforce收购Moonhub - Salesforce收购AI Agent平台Moonhub,团队将开发Agentforce平台 [8] - 目标2025年底通过Agentforce开发十亿个智能体,现有3000家企业客户 [8] - Moonhub招聘智能体功能将与Salesforce HR智能体形成互补 [8] 李飞飞Forge渲染器 - World Labs开源Forge渲染器,可在普通设备流畅渲染AI生成3D世界 [10] - 作为Web端3D高斯泼溅渲染器,支持多摄像头及实时动画编辑 [10] - 关键技术包括高效画家算法和可编程数据流水线 [10] ChatGPT模型选择 - 卡帕西建议简单问题用GPT-4o,复杂任务用o3,代码完善用GPT-4.1 [11] - 使用场景分配:40%日常问题用4o,40%重要问题用o3 [11] - 选择原则基于任务重要性和响应速度需求 [11] ChatGPT记忆机制 - 记忆系统由保存记忆和聊天历史(含会话历史/对话历史/用户洞察)构成 [12] - 技术实现涉及向量空间索引和聚类优化算法,用户洞察贡献占比或超80% [12] - 机制使模型从被动应答转向主动理解,显著提升智能感 [12]
Fellou 浏览器 2.0 发布:速度提升、支持多任务并行、任务成功率提升至 80%
Founder Park· 2025-06-03 15:30
核心观点 - Fellou 2.0版本在任务执行速度、任务多样性和成功率上实现显著提升,任务成功率从31%提升至80%[3][14][31] - 公司以打造类Jarvis的通用智能体为目标,通过Agentic Browser架构实现自动化任务处理,覆盖跨应用生产力、创意设计、监控等多样化场景[8][23][28] - 开源基础设施Eko 2.0是关键突破,支持多Agent协作和DOM状态监听,推动任务成功率提升至行业领先水平[34][35] 产品升级 Agentic Browser架构 - 首创Browser + Workflow + Agent架构,支持自动拆解复杂任务,如市场调研、3D设计、跨平台营销等[8] - 实现多任务并行处理能力(Alpha阶段),例如同时生成网站和账单分析,速度较竞品快1.2-1.5倍[13][20][21] 性能提升 - 任务执行速度优化:生成3D场景耗时1分20秒(竞品4分30秒),摩斯密码转换耗时1分30秒(竞品2分30秒)[15][16] - 成功率提升至80%(原31%),覆盖生产级场景如跨境电商谈价、社媒运营闭环[14][29][31] 多样化交付 - 支持文本、音频、视频、PPT等12类交付物,例如智能家居音效设计(含16种波形音频文件)和城市Logo生成[24][26] - 超长上下文管理支持无限步长监听任务,如Gmail自动回复、Slack消息监控[27][28] 技术突破 - Eko 2.0开源框架提供Multi Agent协作和Workflow规划能力,在Online-Mind2web基准测试中达到SOTA表现[34][35] - 新增DOM状态变化监听和Loop Tasks管理功能,强化GUI Agent的稳定性[35] 未来规划 - 即将推出Windows版本并取消邀请码机制,加速用户覆盖[36] - 优化交互体验:增强多轮对话记忆、浏览器性能及迁移工具等配套功能[36] - 模型智能持续升级,扩展交付物类型和任务覆盖范围[36]