Workflow
Founder Park
icon
搜索文档
跟着Google出海:教你怎么落地Gemini
Founder Park· 2025-07-01 23:07
活动核心内容 - AI模型能力已非瓶颈,关键在于如何将模型落地转化为商业价值 [1] - 联合Google推出「从模型到行动」系列AI工作坊,覆盖深圳、上海、北京三地线下专场 [1] - 目标行业包括泛娱乐、游戏、电商、智能制造等领域的开发者与创业者 [1] 活动提供内容 - 呈现Gemini模型系列及其先进推理能力,分享Google开放模型Gemma最新动态 [3] - 沉浸式动手实操环节:调用Gemini多模态能力处理图像、视频、音频及跨语言场景 [4] - 提供分层挑战项目、Google工程师设计的实操模板与代码资源,经验可复用至业务场景 [4] 活动日程安排 - 线下工作坊为期半天(约3小时),后续推出线上延展活动 [5] - 深圳站:7月12日 Google深圳办公室 [11] - 上海站:7月20日 Google上海办公室 [11] - 北京站:7月26日 Google北京办公室 [11] 目标参与人群 - 已有出海计划或服务海外市场的技术团队与创业者 [12] - 开发AI产品、Bot工具、AI视频/内容应用的开发者 [12] - 泛娱乐、电商、游戏等领域的技术决策者与工程师 [12] - 需快速理解Gemini多模态融合技术的工程师 [12] 活动附加价值 - 与其他优秀出海团队建立联系的机会 [10] - 获得Google团队一手技术反馈通道 [10] - 在工作坊中构建商业原型雏形 [10]
AGI落地观察:这款工具产品,如何进化为10亿人的AI学习助手?
Founder Park· 2025-07-01 16:27
AI浪潮下的学习工具变革 - AI技术正通过日常工具如词典类App悄然改变用户学习方式[1] - 网易有道词典入选「中国最具价值AGI创新机构TOP50」 与DeepSeek 腾讯元宝 字节扣子等共同代表AGI场景化落地可能性[2] 有道词典技术升级 - 2025年3月公司基于自研「子曰」翻译大模型2 0实现翻译精准度 专业性 表达自然度三重升级 稳居行业领先[4] - 通过垂直领域训练 算法创新及海量数据资源库 显著降低翻译幻觉率 解决通用大模型信息偏差问题[4] - 翻译功能支持PDF EPUB Excel等复杂格式处理 提升多场景适用性[6] 产品功能突破 - 学术论文 行业术语等专业领域翻译准确率显著提升 术语匹配与上下文理解能力增强[5] - 实现20余项AI功能集成 包括AI同传 拍照翻译 文档翻译解读等 覆盖学习 职场 留学高频场景[6] - 翻译结果符合母语者习惯 减少翻译腔 支持多语种环境[6] 市场表现与行业地位 - 连续六年(2019-2025)蝉联QuestMobile「中国互联网APP TOP50赛道用户规模NO 1」[6] - 从查词工具转型为10亿用户规模的AI学习助手 重塑语言学习方式[6]
Meta 宣布正式成立「超级智能实验室」,11人豪华团队中华人占大半
Founder Park· 2025-07-01 10:44
Meta成立超级智能实验室(MSL) - Meta宣布正式成立超级智能实验室(Meta Superintelligence Labs, MSL),整合公司现有的基础AI研究(FAIR)、大语言模型开发及AI产品团队,并组建专门研发下一代AI模型的新实验室 [1] - 该实验室将成为Meta人工智能战略的核心 [2] - Meta计划在未来几年投入数千亿美元于AI基础设施、模型训练、可穿戴终端与人才储备 [8] 重量级人物加盟 - Scale AI前CEO Alexandr Wang出任Meta首席AI官(Chief AI Officer),全面领导MSL [3] - 前GitHub CEO Nat Friedman加入,负责Meta在AI产品和应用研究领域的推进 [5] - Alexandr Wang是Scale AI联合创始人兼CEO,曾参与业内几乎所有领先模型的开发工作 [10] - Nat Friedman曾在微软领导GitHub,最近负责一家领先的AI投资公司,并担任Meta顾问委员会成员 [11][12] 人才招募情况 - Meta从OpenAI、Anthropic和Google等竞争对手处招募了11位AI顶尖人才 [5] - 包括多位GPT-4o和GPT-4.1核心成员、Anthropic高级工程师、DeepMind的Gemini模型负责人等 [5] - 部分顶尖研究人员获得价值数千万美元的股票激励,传闻签约奖金高达1亿美元 [8] - AI人才市场价格达到惊人水平,是20年科技职业生涯中前所未见的 [8] 下一代AI模型研发 - 新团队将启动Llama系列之后的下一代模型研发,目标是在一年内实现行业领先 [8] - 对Llama 4.1和4.2模型的规划进展感到兴奋,这些模型支持Meta AI核心功能,拥有超过10亿月活用户 [16] - 将同时继续深入开发现有模型,并着手下一代模型研究 [17] 公司优势与愿景 - Meta具备独特优势:强大业务基础、覆盖数十亿用户的产品经验、引领AI眼镜与可穿戴设备市场 [17] - 公司结构赋予更大决心和行动力,有望实现"人人拥有个人超级智能"的承诺 [17] - 目标是实现为每个人打造"个人超级智能"的愿景 [10]
2025 ToC AI产品:仅有3%用户愿意付费,29%的父母每天使用
Founder Park· 2025-06-30 19:47
消费级AI市场现状 - 消费级AI已融入大众日常生活 61%美国成年人在过去半年使用过AI 其中19%为每日用户 全球用户规模达17-18亿人[5][6] - 市场规模快速扩张 两年半内形成120亿美元产业 但付费转化率仅3% 与4320亿美元潜在市场规模存在巨大鸿沟[10][13] - 通用AI工具占据主导地位 91%用户默认使用通用助手 81%行业收入集中于通用平台 ChatGPT在付费用户中占比达70%[33][41] 用户画像与行为特征 - 千禧一代(29-44岁)成为重度用户 使用频率超过Z世代 婴儿潮一代(61-79岁)中45%尝试过AI 11%为每日用户[16][19] - 父母群体使用率显著更高 79%父母使用AI 是非父母群体(54%)的1.5倍 29%父母每日使用 频率达非父母1.9倍[26][29] - 使用强度与生活复杂度正相关 子女年龄越大 父母AI使用率越高 13岁以上子女父母使用率达45%[30][32] 核心应用场景分析 - 常规任务渗透率最高 19%用户用AI写邮件 18%用于待办事项管理 但整体采用深度不足20%[50][51] - 创意表达领域付费意愿最强 51%创作者使用AI辅助写作 专业工具收入占比达45% Midjourney等工具快速崛起[59][63] - 健康管理存在巨大空白 71%人群查询健康问题但仅20%使用AI 心理健康领域AI渗透率仅9%[71][72] 市场机遇与发展趋势 - 高频率高摩擦场景蕴含机会 82%人群管理财务但仅16%用AI 家庭维修需求中AI使用率仅13%[80][82] - 专业工具将迎爆发期 60%用户已组合使用通用与专业工具 医疗健康等信任敏感领域潜力显著[81][86] - 交互方式持续进化 语音AI与实体机器人将成新增长点 收入模式从订阅制向多元化发展[86]
Gemini 2.5 Pro 负责人:最强百万上下文,做好了能解锁很多应用场景
Founder Park· 2025-06-30 19:47
长上下文技术优势 - Gemini系列在百万级长上下文处理上具有显著领先优势,尤其是Gemini 2 5 Pro能直接遍历整个项目代码,带来差异化体验[1] - 长上下文将引发产品交互革新并创造全新应用场景[2] 当前技术瓶颈与发展方向 - 百万级token上下文质量未达完美前,盲目扩大规模意义有限[3][5] - 成本下降后千万级token上下文将成为标准配置,对编码等场景产生革命性影响[3][35] - 当前主要瓶颈在于短上下文模型中信息源间存在注意力竞争[8] 记忆机制差异 - 权重内记忆(in-weights memory)存储预训练知识但难以更新,上下文内记忆(in-context memory)更易修改[6] - 三类需上下文补充的知识:时效信息/私人信息/罕见事实(互联网出现少于2次的内容)[7] RAG协同效应 - RAG通过向量检索实现海量信息粗筛,与长上下文精细处理形成互补而非替代关系[10][11] - 企业级数十亿token知识库场景仍需RAG,两者协同可提高信息召回率[11] 推理能力关联 - 长上下文能力与推理表现存在深层联系,输出反馈输入可突破网络深度限制[14] - Agent既消耗长上下文记录状态,又能主动提供上下文获取服务[15][16] 开发者实践建议 - 问题应置于上下文末尾以利用缓存机制,前置会导致每次请求重新处理[22] - 避免将长上下文作为"数据垃圾桶",无关信息会降低多关键信息检索性能[23] - 上下文缓存可使后续请求成本降低75%,特别适合固定文档/代码库场景[20][21] 评估体系演进 - "大海捞针"式单信息检索测试已过时,强干扰环境/多关键信息检索成为新重点[27] - 检索与合成评估(如文本总结)更能体现真实能力,但自动化评估仍具挑战性[28] 成本与规模限制 - 千万级token推理测试已获良好质量数据,但单次服务器启动成本过高制约商业化[30] - 百万级上下文质量优化优先于规模扩张,完美质量将开启未知应用场景[34] 未来三年展望 - 千万级token上下文将使AI编码助手完整处理大型项目,超越人类程序员工作模式[35] - 算法创新与推理工程并重,需专业团队解决百万级token服务化难题[36]
百度开源文心4.5系列10款模型,多项评测结果超DeepSeek-V3
Founder Park· 2025-06-30 14:22
百度文心大模型4.5系列开源 核心观点 - 百度正式开源文心大模型4.5系列,包含10款模型,涵盖47B和3B混合专家(MoE)模型及0.3B稠密参数模型,最大模型总参数量达424B,预训练权重和推理代码完全开源 [1] - 模型在多项评测中超越Qwen3和DeepSeek-V3,尤其在多模态理解、生成真实性方面表现突出 [5][8] - 开源模型已上线飞桨星河社区、Hugging Face等平台,并支持百度智能云千帆大模型平台API服务 [3][4] 模型能力与技术细节 模型架构与性能 - 包含原生多模态基础大模型,支持图片、音视频等多模态数据理解,生成效果更真实 [5] - 模型基准测试对比: - ERNIE-4.5-300B-A47B-Base在C-Eval、CMMLU、MMCU等评测中分别达91.5、91.2、95.9,均高于Qwen3和DeepSeek-V3 [8] - 数学能力(GSM8K、MATH)表现优异,ERNIE-4.5-300B-A47B-Base分别达91.8和69.1 [8] - 采用飞桨框架训练,FLOPs利用率达47%,支持Apache 2.0协议开源 [9] 关键技术突破 1. **多模态异构MoE预训练**:通过模态隔离路由、路由器正交损失等技术实现文本与视觉模态联合训练,提升跨模态推理性能 [9][10] 2. **高效基础设施**: - 训练端采用异构混合并行、FP8混合精度,推理端引入4位/2位无损量化和PD分解,提升吞吐量与性能 [12] 3. **特定模态后训练**: - 通过SFT、DPO/UPO强化学习方法优化视觉-语言模型,结合RLVR提升对齐能力 [12][13] 开发者反馈与行业影响 - 开发者认为300B参数版本可与DeepSeek V3 671B竞争,21B版本对标阿里Qwen 30B [14] - 28B模型因增加视觉功能受到关注 [15] - 行业期待文心大模型4.5 Turbo后续开源 [17]
火山引擎加速器「开放麦」路演项目一览,2025最值得做的AI创业在这里
Founder Park· 2025-06-27 18:32
行业趋势与活动概况 - 2025火山引擎春季FORCE原动力大会汇聚近30家创业企业,展示AI、具身智能、企业服务、教育、VR/AR等领域的创新成果 [1][3] - AI创业进入"技术-场景-成本"三角验证阶段,企业通过产品原型拆解、技术链路演示等方式将前沿技术转化为可交互体验 [3] - 火山引擎V-START加速器联合NVIDIA初创加速计划,推动创业项目与行业头部企业的技术研发和场景落地交流 [7] 创业公司及产品亮点 AI应用与工具 - 句子互动:基于豆包大模型打造企业级Agentic AI员工平台,覆盖在线教育、政务金融和消费零售品牌 [11] - ChatExcel:北大AI实验室开发的AI Excel工具,通过聊天命令处理表格和数据分析,累计服务千万用户 [15] - 像素绽放:旗下AiPPT.cn/AiPPT.com国内AI PPT赛道排名第1,全球排名第2 [56] - Fellou:Agentic Browser可自动化完成表单填写、报告生成等多步骤任务,支持跨平台并行搜索 [67] 具身智能与机器人 - 众擎机器人:专注通用智能机器人研发,产品面向科研教育、工业制造、商业服务等场景 [27] - 灵心巧手:占全球高自由度灵巧手80%以上市场份额,产品被斯坦福、剑桥等顶尖实验室采用 [29] - 灵初智能:推出分层端到端强化学习具身模型Psi R系列,实现长程任务并具备泛化性 [33] 内容生成与创意 - 瀚皓科技:提供一站式AI电影创作平台,推动文化内容创新 [50] - 捏Ta:AI驱动的虚拟角色共创社区,与火山引擎合作催生近亿次曝光的AI动漫内容 [61] - 海艺互娱:海艺AI在图片生成榜排名第1,出海总榜排名第1 [65] 行业解决方案 - 爱动超越:大模型技术应用于工业车辆领域,智管数字化平台接入20万台工业车辆 [48] - 智筑未来:为建筑结构工程师打造生成式AI设计助手,提升设计效率 [39] - 重庆白牛:集成豆包大模型能力,通过自然语言输入实现企业信息智能查询 [70] 生态支持与平台服务 - 火山引擎V-START加速器已孵化50+家高潜力企业,提供算力补贴、产品共创、投融资引荐等支持 [7] - 打造8000人"AI产品市集"社群,连接从业者、开发人员和创业者 [4] - 开放麦活动重构创业表达范式,促进Founder和投资人对AI创业的交流 [5]
下一站AI创业主线:别卷模型了,把这件事干成才重要
Founder Park· 2025-06-27 18:32
Agent成为创新中心 - Agent成为新一轮创新叙事的核心坐标[1] - AI创业从"拼技术"进入"拼交付"时代[2] - 通用Agent由巨头主导,垂直Agent满足千行百业具体需求[3] - AI"劳动力化"催生全新基础设施需求[3] 多模态技术发展 - 多模态技术进展显著但尚未完全成熟[11] - 当前面临多模态理解与生成一体化、各模态统一融合两大挑战[11] - 可控性要求不高的场景已实现商业化落地[12] - 行业高估多模态短期影响,低估长期潜力[18] - 多模态将逐步发展而非一步到位[17] Agent投资逻辑 - 通用Agent需具备流量、模型能力、硬件、生态四大要素[34] - 垂直Agent是创业公司重要机会,已出现千万级ARR案例[35] - 未来可能由成百上千个小而美的Agent公司组成[8] - 投资聚焦生成式AI驱动的五大领域:内容生成、生产力工具、数据洞察、各类Agent、AI与物理世界交互[23][24][25][26][27] - 投资节奏加快,从年均5-6个项目增至每月1个[28] Agent基础设施 - Agent发展将带来记忆模块、执行环境等新基础设施需求[43] - Agent核心三要素:感知&记忆、决策、行动[45] - 记忆相关infra和执行环境是重要机会点[45] - 决策能力提升依赖模型进步[45] - 行动方面需关注工具调用能力[46] 商业模式演变 - 从SaaS"按用户月付费"转向"按调用量付费"甚至"按结果付费"[4] - 未来可能直接按交付结果收费[49] - 按结果付费是理想商业模式[54][55] - 广告行业从CPM到CPS的演变可作为参考[57] 全球化视角 - 中国创业者应从一开始就布局全球化[68] - 已有许多中国创业公司从创立第一天就是全球化[69] - 非主流市场创业者更具韧性[67] - AI使ToB公司更具可扩展性[66] 行业现状 - 投资市场存在泡沫但也找到坚实逻辑[61] - 优质创业公司供给不足导致估值过高[64] - 能穿越周期的公司需长期创造价值[62] - 现在是创业者下场的良好时机[64]
李志飞:1 个人、2 天做出 AI 时代的「飞书」,真正的 Founder Mode
Founder Park· 2025-06-26 19:03
产品发布与CEO实践 - 出门问问发布了一款Agentic AI软硬件结合产品「TicNote」,CEO李志飞通过「一人公司」实验展示AI开发能力[1] - 李志飞在2天内独立开发出AI协作平台原型,具备登录、私聊、群聊、文件上传等核心功能,包含4万多行代码[17][18][22] - 使用AI工具5分钟内完成官网搭建和营销位配置,传统方式需多人团队一周工作量[19][20] AI开发新范式 - 提出「用AI的AI做AI」开发口诀:大模型→Coding Agent→目标应用,形成新型软件开发范式[7][8] - AI编程效率显著提升,3小时产出相当于传统10个工作日的工作量,代码质量更高[22][23] - 验证了CEO通过AI工具可将个人产出放大100倍的可能性[27] AI Agent技术架构 - AI Agent由规划器(Planner)和执行器(Executor)组成,规划器依托大模型制定计划,执行器负责实施[35][38] - 智能的本质是进化和递归:通过环境反馈持续优化,并能将复杂任务分解为可执行的原子任务[40][41] - 递归架构关键是实现自我修改源代码能力,最终可能反向修改大模型本身[43][44][45] 行业竞争与公司战略 - 出门问问自2012年起持续探索AI前沿,从语音助手、智能硬件到AIGC软件,经历多次战略调整[52][53] - 在激烈市场竞争中,公司像不断自我修正的Agent持续进化,源代码已与初创时完全不同[53] - 发现即使非行业巨头,通过创新智慧也能参与AGI进程,所需资金不一定庞大[52] AI开发实践挑战 - AI编程存在偷工减料问题,常跳过必要步骤如数据库操作,需人工监督纠正[31] - 当前AGI难以处理超长任务(超过半小时),但展示出处理复杂算法的潜力[32] - 个性化环境和上下文对AI发展至关重要,不同反馈会塑造完全不同的发展路径[47][49][50]
一文读懂 Deep Research:竞争核心、技术难题与演进方向
Founder Park· 2025-06-26 19:03
深度研究系统生态现状 - 2025年AI Agent探索浪潮中,"深度研究"类产品成为最早成功落地的领域之一,谷歌、OpenAI、Anthropic等巨头已推出商业竞品,开源社区涌现80+团队参与[1] - 当前生态呈现显著差异化,竞争焦点转向系统架构、工程优化与应用场景适配度的综合比拼[1] - 评估体系从通用基准转向高度专业化测评,"适合与否"取代"好坏"判断[2] 技术实现与核心能力 核心技术差异 - 基础模型与推理效率:OpenAI/DeepResearch等商业系统依托专有大模型在上下文长度和复杂推理占优,Perplexity/DeepResearch通过优化开源模型实现竞争力[4] - 工具集成适应性:AutoGLM等构建全能平台,Nanobrowser专注网页交互,n8n擅长API集成与工作流自动化[5] - 任务规划稳定性:OpenAI/AgentsSDK长于层级化任务分解,Agent-RL/ReSearch利用强化学习提升鲁棒性,smolagents通过多智能体协作提升并行效率[5] 架构选型趋势 - 单体式架构(如OpenAI/DeepResearch)保证推理连贯性但扩展性受限[12] - 多智能体架构(如smolagents)实现功能专业化与并行处理,需解决协调一致性挑战[13] - 混合架构(如Perplexity/DeepResearch)结合多智能体并行搜集与中央推理核心,灵活性最高但实现复杂[13] 应用场景适配 - 学术研究:OpenAI/DeepResearch和Perplexity/DeepResearch在引用严谨性、方法论分析上表现突出[8] - 企业决策:Gemini/DeepResearch和Manus凭借数据整合与分析框架优势明显[8] - 个人知识管理:Open-Manus等开源方案在隐私保护、本地部署方面占优[8] 评估体系演进 - 专业化基准涌现:AAAR-1.0(150项多领域任务)、DSBench(20项数据科学任务)、TPBench(理论物理推理)等[9][11] - 多模态评估兴起:MMSci(研究生级多模态科学问答)、GMAI-MMBench(医学多模态)[10] - 功能评估三维度:任务完成能力(WebArena基准)、信息检索质量(F1分数)、知识综合准确性(TruthfulQA基准)[17][18] 未来技术方向 推理架构突破 - 上下文窗口限制:通过信息压缩(OpenAI分层处理)和外部记忆架构(Camel-AI的OWL系统)解决[23][24] - 混合推理模式:神经网络-符号集成架构实现创造性联想与形式化验证切换[25] - 动态知识图谱:HKUDS/Auto-Deep-Research系统实现知识双向演化[26] 因果与不确定性 - 因果推理三层能力:因果图构建、效应量化、结构化分析框架[28] - 干预建模技术:Agent-RL/ReSearch展示反事实推理潜力[28][29] - 多维不确定性建模:Perplexity/DeepResearch区分源不确定性与集成不确定性[30]