Founder Park
搜索文档
OpenAI大动静:放弃盈利性转型,30亿美元收购Windsurf
Founder Park· 2025-05-06 14:36
本篇文章部分内容转 载自公众号 「腾讯科技」 Founder Park 正在搭建「 AI 产品市集」社群,邀请从业者、开发人员和创业者,扫码加群: 进群后,你有机会得到: 最新、最值得关注的 AI 新品资讯; 不定期赠送热门新品的邀请码、会员码; 最精准的AI产品曝光渠道 当地时间5月5日, OpenAI发布声明宣布对公司架构进行调整,放弃将公司转向营利性组织的计 划,将继续由非盈利组织控制。现有的营利性组织(LLC)将调整为 公益责任公司(PBC)。 于此同时,彭博社今日发文称,据 知情人士消息,OpenAI已同意以约30亿美元的价格收购AI编 程公司Windsurf。若最终收购达成,这将是 OpenAI迄今为止最大的一笔收购。 01 如果你想提交自己的产品,点击文末的 「阅读原文」 即可。 放弃盈利转型, 非盈利组织将持有多数股份 当地时间5月5日, OpenAI发布声明宣布对公司架构进行调整, 山姆・奥特曼也发布全员信, 谈及OpenAI的愿景、使命、资本架构等外界关心的问题。 OpenAI董事会主席布雷特・泰勒在与记者的视频通话中表示," 在我们正在筹划的架构下,非 营利实体将继续掌控OpenAI。 ...
沉浸式翻译团队新品:BabelDOC PDF,无损翻译 PDF,免费用户可用
Founder Park· 2025-04-30 20:31
产品发布与市场表现 - BabelDOC PDF工具开源后冲进Github全站全开发语言Trending榜前三[2] - 新增多语种支持功能 支持拉丁字母语言与简繁中文/日文/韩文互译[2] - 免费用户每月1000页解析额度 Pro用户可达10000页 分别使用GLM-4-FLASH和DeepSeek翻译模型[3] 技术实现原理 - 采用AI布局识别技术 完整解析PDF结构包括图表/脚注/公式等非文本元素[7] - 翻译流程分为四步:布局识别→文本提取→样式匹配→智能渲染[7][8][9][11] - 特殊处理机制:富文本部分翻译 数学公式保留原字符形式[10] - 最终实现像素级版式对齐 保持学术论文/招股书等专业文档的原始布局[7] PDF格式特性分析 - PDF由Adobe联合创始人John Warnock发明 核心解决跨设备显示一致性问题[13] - 2008年成为ISO国际标准(ISO 32000-1:2008) 相比DOCX具有固定格式/强兼容性/高安全性等优势[13][14] - 文件结构呈树形分布:文件头尾(二进制标识)→交叉引用表(资源定位)→页面树(元素引用)→内容流(绘制指令)[16][18][19] 行业生态建设 - Founder Park搭建AI产品市集社群 提供新品资讯/邀请码/曝光渠道等资源[4]
o3解读:OpenAI发力tool use,Manus们会被模型取代吗?
Founder Park· 2025-04-30 20:31
模型发布与能力升级 - OpenAI发布o3和o4-mini模型,o3具备最全面的推理能力、丰富的tool use方式和全新的多模态CoT能力 [8] - o4-mini专为高效推理优化,部分benchmark表现优于o3,但实际使用中思考时间更短 [8] - 模型首次实现将图像直接融入CoT中,能"看懂"图像并用图像思考,在多模态理解benchmarks中领先 [45] - o3在外部专家评估中比o1少犯20%重大错误,能意识到自身能力边界并拒绝无法解决的问题 [61] 技术路线与产品策略 - Agent产品分化出两类路线:OpenAI黑盒化端到端训练路线和Manus白盒化虚拟机模仿人类工作方式路线 [15] - OpenAI将Agent产品作为未来商业化收入占比的大头 [4] - OpenAI开源Codex CLI,具备多模态推理能力和本地代码环境集成特性,旨在普及竞争对手产品 [64][68] - OpenAI采用先训练mini reasoning版本再scale到full model的发布策略,与GPT系列先大后小的策略不同 [9] 能力测试与表现 - o3在YC官网信息收集任务中经过两次prompt后完成90+家公司信息整理,而Manus能一次性完成但速度较慢 [16][17] - 在Amazon销售数据分析任务中,o3比Manus给出更简洁专业的策略建议和可视化效果 [19][27][28] - o3能通过模糊图片识别出《绝命毒师》角色"炸鸡叔"Gus Fring [46][52] - 模型在数手指个数和判断时钟时间等视觉推理任务上仍存在系统性错误 [69][70][72] 定价与市场竞争 - o3定价为$10/Mtok输入和$40/Mtok输出,是旗舰模型中最贵的 [77][80] - o4-mini定价为o3的1/10,比Claude 3.7更便宜 [78][80] - Gemini 2.5 Pro和DeepSeek-V3等模型在性价比上更具优势 [80] - 行业认为所有一线模型定价可视为在同一水平竞争,Gemini和OpenAI相对便宜 [77][79] 技术发展与未来方向 - OpenAI发现RL Scaling呈现"more compute = better performance"规律,o3投入算力比o1高一个数量级 [81][82] - 强化学习教父提出Era of Experience概念,认为agent需从experience中学习达到superhuman水平 [85][86] - 未来agent可能发展出非人类思维方式的推理,如符号化、分布式或可微分计算 [89] - 构建"world model"预测动作对环境的影响将成为重要发展方向 [89]
Meta推出独立AI应用,指向AI社交方向
Founder Park· 2025-04-30 17:50
Meta AI独立应用发布 - Meta在LlamaCon开发者大会上正式发布独立AI助手应用Meta AI 区别于此前嵌入在Instagram Facebook等应用中的AI功能[1] - 公司CEO马克·扎克伯格预计2025年Meta AI将覆盖超10亿人 目标成为领先AI助手 直接对标ChatGPT 谷歌Gemini和xAI的Grok[1] 产品核心差异化 - 创新性引入Discover feed社交功能 用户可浏览好友与AI互动生成的内容流 并进行点赞 评论 分享或二次创作[6] - 该功能基于Meta社交应用帝国基因 旨在直观展示AI应用价值 是首个将社交元素引入AI助手的科技公司[2][9] - 语音交互采用full-duplex模型技术 实现自然对话体验 支持快速轮换对话和语音重叠 已在美加澳新上线[10] 技术整合与战略布局 - 应用基于自主优化的Llama 4模型运行 整合Facebook Instagram用户数据提供个性化回应[13] - 替代原有Ray-Ban智能眼镜配套应用View 实现AI技术与硬件产品协同 新版本保留眼镜照片视频库功能[14][16] - 高端智能眼镜将配备小型显示屏 新增实时物体识别和语言翻译功能 计划2024年晚些时候推出[16] 行业趋势观察 - AI聊天机器人与社交媒体融合成新趋势 X平台已整合Grok OpenAI正筹划为ChatGPT添加社交feed功能[9] - 当前Meta AI通过嵌入式入口触达近十亿用户 但独立应用被视为更直观的交互方式[13]
来自flomo、沉浸式翻译、Cubox、Podwise、Fellou、Manus的劳动节礼物
Founder Park· 2025-04-30 17:14
AI产品市集计划概述 - 公司推出「AI产品市集」计划,首期推荐10款创新AI产品 [2] - 计划发布24小时内飞书群突破1000人,持续增长中 [3] - 社群每日推荐AI产品并分享真实使用反馈 [3] 社群福利活动 - 五一期间推出6天进群福利,包括51个flomo会员、41个沉浸式翻译会员等 [5] 计划背景与目标 - 观察到DeepSeek崛起、Manus爆火等信号,预示AI产品春天来临 [7] - 计划旨在记录开发者成果,帮助创新AI产品获得行业关注 [7] 计划服务内容 - 提供早期市场验证服务,通过社区反馈优化产品 [8] - 为优秀产品提供展示推广服务,利用公众号及社群扩大声量 [9] 参与产品标准 - 涵盖早期产品(用户量未达10万)及多样化形态(移动端、Web端等) [10][11] - 无严格限制,鼓励提交产品demo申请助推 [12] 相关行业动态 - 提及Qwen 3发布、Perplexity浏览器竞争等AI行业热点 [13]
AI 活动公告板:5 月假期,来充电!
Founder Park· 2025-04-29 20:33
AI行业活动概览 - 阿里开源Qwen3系列模型并推出Fellou、扣子空间、心响等AI Agent产品,行业创新速度加快 [2] - 参与高质量行业活动是快速跟进AI趋势的重要途径 [2] 重点活动详情 湾区闭门深度交流局 - 主办方为极客公园Global ready,5月17日-19日在湾区举办,与Figma大会、SaaStr 2025、Google I/O同期 [4][5] - 目标人群为企业家、AI创业者及关键业务负责人,需通过微信联系报名 [4][6] 亚马逊云科技AI开发大赛 - 线上活动,4月10日-6月19日举行,提供10万启动金、拉斯维加斯技术之旅及禅意机械键盘等奖励 [6] - 面向AI创业者及开发者,强调代码全民化与创新边界突破 [6] NVIDIA创业企业展示-上海站 - 5月15日线下举办,聚焦AI智能体、合成数据、物理仿真,提供技术指导、资金支持及产业对接 [6] - 目标人群为AI创业者、开发者及技术专家 [6] Hugging Face AI Agents课程 - 长期线上课程,教授Agents底层原理及smolagents、LlamaIndex等工具库的应用 [7] - 适合AI工程师、创业者及产品经理 [7] 复星杯AI+创业创新大赛 - 6月1日截止报名,依托复星200+产业场景,提供千万级投资、出海资源及亚马逊补贴 [7][8] - 面向AI创业者及开发者,优胜者可获现金奖及复星直通录用机会 [7][8] 延伸阅读 - 文章推荐Perplexity浏览器战略、Arc创始人访谈及OpenAI Agent产品化分析等话题 [9]
Qwen 3 发布,开源正成为中国大模型公司破局的「最优解」
Founder Park· 2025-04-29 20:33
阿里Qwen 3大模型发布 - Qwen3-235B-A22B评测成绩与DeepSeek R1、Grok-3、Gemini-2.5-Pro相当,支持混合推理和增强Agent能力 [1] - 全系列模型实现全参数(0.6B-235B)和全模态覆盖,成为HuggingFace最受欢迎开源模型,衍生模型数量突破10万超越Llama系列 [16][17][23] - 采用"思考模式/非思考模式"无缝切换技术,优化MCP工具调用成功率,官方明确从"训练模型"转向"训练Agent"的战略方向 [5][6][7] 中国开源模型全球竞争格局 - DeepSeek+Qwen形成开源"双子星"格局,取代Llama+Mistral成为全球主流开源生态 [1][13] - 开源策略突破地缘政治壁垒:模型权重和训练细节全公开,开发者可自托管定制,建立全球开发者社区信任 [10][12][15] - 两种差异化商业模式:DeepSeek通过技术突破提供低价API服务(成本降低80%),Qwen通过开源带动阿里云商业闭环 [19][20][21] MaaS模式创新 - 阿里云构建"模型-云-行业应用"飞轮:Qwen开源降低AI创业门槛,百炼平台提供MCP服务接入 [2][24] - 实际案例显示Claude+Qwen2.5组合成为创业公司主流方案,混合使用闭源与开源模型平衡成本能力 [25][27][30] - 行业专用模型在医疗、金融等高壁垒领域仍具优势,但需结合本地化服务和数据闭环 [14] AI创业者实践洞察 - 模型选择策略:ToB企业倾向Qwen32B微调(单卡可部署),ToC企业采用API组合(Gemini+DeepSeek) [27][45] - 四大核心挑战:长文本处理衰减(播客场景)、多模态情感理解(心理场景)、国产芯片适配(机器人场景)、并发稳定性(服务场景) [36][40][41] - 创业方法论验证:70%成功案例遵循"X+AI"而非"AI+X"模式,留存率取决于真实需求解决而非技术指标 [48][50] 开源模型技术趋势 - 能力差距持续存在但应用门槛降低:2025年开源模型已满足PMF验证需求,微调价值向窄领域迁移 [25][43] - 三大技术方向:混合推理架构(成本控制)、Agent工具调用(实用化)、多模态融合(场景适配) [5][7][23] - 社区驱动创新:Qwen生态含完整工具链(vLLM/SGLang),DeepSeek聚焦前沿技术(MoE/多模态) [32][49]
阿里Qwen3系列开源:混合推理模式、性能超越DeepSeek R1
Founder Park· 2025-04-29 11:16
模型发布与核心特性 - 通义千问最新一代大模型Qwen3系列于今日凌晨发布,共开源8款模型,包括2款MoE模型和6款Dense模型 [2] - 该系列模型在代码、数学、通用能力等方面表现优异,其中旗舰MoE模型Qwen3-235B-A22B在基准测试上的水平超过了671B的DeepSeek R1 [2][4] - 模型引入了“思考模式/非思考模式”无缝切换功能,思考模式下逐步推理,非思考模式下快速响应,以平衡算力与输出效果 [2][8] - 模型提高了Agent能力,并加强了对MCP(Model Context Protocol)的支持,配套Qwen-Agent项目便于工具调用和扩展 [2][16][17] 模型架构与性能对比 - 发布的模型包括MoE架构:Qwen3-235B-A22B(总参数量235B,激活22B)和Qwen3-30B-A3B(总参数量30B,激活3B);Dense架构:0.6B、1.7B、4B、8B、14B、32B六款 [3][6] - 上下文长度方面,小模型支持32K,大模型支持128K [3] - 性能数据显示,Qwen3-235B-A22B在多项基准测试中表现突出,例如ArenaHard得分为95.6,AIME'24得分为85.7,LiveCodeBench v5得分为70.7 [7] - 较小的MoE模型Qwen3-30B-A3B仅用10%的激活参数,其表现超过DeepSeek V3和GPT-4o [3][7] - 小尺寸Dense模型Qwen3-4B的性能可匹敌上一代的Qwen2.5-72B-Instruct模型 [3][7] 多语言与训练细节 - Qwen3支持119种语言和方言,覆盖印欧语系、汉藏语系等9大语系,相比仅支持29种语言的Qwen2有大幅提升 [3][13][14] - 模型预训练使用了约36万亿个tokens的数据,是Qwen2.5(18万亿tokens)的两倍 [3][31] - 预训练分为三阶段:第一阶段使用30万亿tokens、4K上下文建立基础;第二阶段增加5万亿tokens强化STEM与编程;第三阶段扩展上下文至32K加入长文本数据 [28][29][30] - 后训练通过四个阶段优化,包括长链推理冷启动、强化学习提升推理、思考/非思考模式融合以及通用任务强化学习,使模型掌握灵活推理与工具调用能力 [33][34][35][37] 技术规格与部署 - 模型采用Apache 2.0许可开源,可通过HuggingFace、ModelScope、Kaggle等平台下载 [3] - 支持多种本地部署与运行方式,包括SGLang、vLLM(提供OpenAI兼容API)、Ollama、LMStudio等 [3] - 用户可通过`enable_thinking`参数或使用`/think`和`/no_think`指令在对话中动态切换思考模式 [3][19] 发展历程与定位 - 通义千问大模型最早于2023年4月由阿里云推出,初期为闭源模型 [38] - 2023年8月,阿里开源Qwen-7B和Qwen-7B-Chat模型,首次使用“Qwen”名称并采用Apache 2.0协议,面向开源社区 [39][41] - 随后陆续发布了Qwen-14B、Qwen-72B等版本,打通了从1B到72B的参数区间 [42][44][47][50] - 2024年发布了Qwen1.5、Qwen2及Qwen2.5系列,在架构、数据量和多模态能力上持续迭代,Qwen2.5曾连续多周在Hugging Face开源榜单霸榜 [51][53][56][59] - 本次Qwen3的发布,在模型规模、长文本处理、混合推理模式及Agent能力上进行了系统级优化,标志着该系列进入新的发展阶段 [60][62][63][64][65]
4 月,1000 个通用 Agent 爆发
Founder Park· 2025-04-28 19:00
Agent产品趋势 - 通用Agent技术迁移催生新形态产品如Manus、Deep Research 中国开发者迎来应用层机会[1] - 行业共识转向Agent产品化 代表性案例Genspark Super Agent发布9天ARR达1000万美元 付费用户超1万(按20美元/月计)[6][7] - 垂直领域Agent突破明显 飞猪旅行助手整合机票酒店真实数据 行程规划可达参考级精度[10][13][14] 头部Agent产品分析 - **Genspark** - 核心功能:行程规划+电话预订餐厅 新增AI幻灯片切入PPT赛道[8][9] - 商业化:付费模式验证成功 ARR达千万美元级[7] - **Fellou** - 差异化:本地化处理账号登录任务 支持小红书/抖音等平台深度搜索[17][18] - 交互设计:浏览器形态 左侧实时界面+右侧交互窗口[19] - **扣子空间** - 字节系产品 集成飞书全家桶工具 支持报告自动生成多维表格[21][22][23] - 增长策略:邀请裂变+免费策略快速获客[21] 垂直领域创新案例 - **atypica.AI** - 商业研究智能体 采用多智能体协作模式生成行业报告 参考斯坦福小镇论文[20] - **纳米AI** - 降低MCP使用门槛 预置100+免配置Server 覆盖图像生成/网页开发等场景[24][26][27] - **Trae** - 编程Agent支持MCP协议 实现Figma设计稿转HTML 可自定义专家Agent[30][31] 新兴应用方向 - **语鲸** - AI阅读助手 支持中英文RSS订阅 覆盖论文/研报等专业内容[33][35] - **动御Action&Link** - 体感游戏硬件 通过USB设备将3A游戏转化为健身场景 预售定价328元[37][39][40] - **Dia浏览器** - AI Native设计 支持多页面全局理解 上下文处理能力显著提升[43][44][46]
做浏览器、买Chrome、争AI OS,Perplexity也想「上牌桌」
Founder Park· 2025-04-28 19:00
核心观点 - Perplexity CEO Aravind Srinivas 提出公司的终极目标是构建类似 Windows、Mac、Android 或 iOS 的操作系统,认为操作系统是 AI 时代的终极战场 [2][14] - 公司计划通过推出自有浏览器「Comet」获取用户跨平台上下文数据(如交易、浏览历史),以实现深度个性化和构建 Agent 能力 [2][11][13] - 浏览器被视为构建 Agent 的最佳途径,因其具备容器化操作系统特性,可代表用户执行跨应用操作 [11][13] - 公司正通过预装合作(如 Motorola)和浏览器开发挑战 Google 在 Android 生态的主导地位 [5][6][9] 战略布局 浏览器战略 - 计划下月推出「Comet」浏览器,未来将开发 Mac 和 Windows 版本 [5][11] - 浏览器可解决移动操作系统权限限制问题,实现跨应用数据抓取与操作(如比较 Uber/Lyft 价格) [11] - 通过浏览器获取用户交易记录、购物历史等跨平台数据,建立比 ChatGPT 更深入的个性化能力 [13] 合作与分销 - 与 Motorola 达成预装合作,新款 Razr 手机将预装 Perplexity 应用,潜在覆盖数百万用户 [5] - Google 通过 Play Store 权限施压 OEM 厂商(如要求默认 Gemini),但反垄断审查为公司创造合作机会 [6][7] - 正与电信运营商、OEM 厂商洽谈合作,计划复制 Google/Microsoft 的预装模式 [9] 技术架构 - 在 iOS 端使用 Apple EventKit SDK 集成提醒、播客、地图等功能,但无系统级控制权限 [10] - 当前 Agent 能力聚焦于信息检索(如歌曲、视频推荐),而非基础功能(如设置闹钟) [10] - 需利用前沿推理模型快速积累用户数据,通过数据压缩降低未来运营成本 [16] 行业竞争 - OpenAI 被曝研发自有浏览器,Google 可能被迫出售 Chrome(Yahoo/OpenAI/Perplexity 均有意收购) [3][5] - ChatGPT 通过「登录集成」策略获取用户数据,但缺乏跨平台上下文信息(如 Amazon 购物记录) [12][13] - Microsoft Copilot 凭借 Windows 预装优势占据市场,尽管技术评价不及 Perplexity [9] 其他动态 - 正以 180 亿美元估值融资,资金将用于加速 Agent 技术研发 [16] - 参与 TikTok 竞购但成功率低,主要障碍是字节跳动不愿放弃算法控制权 [17] - 已改善与出版商关系,抓取数据时严格遵守 robots.txt 协议 [15]