Workflow
AI Agent
icon
搜索文档
Agent 专属浏览器 Bb 再拿 4000 万美金,Meta 投资 Scale 让AI 招聘平台疯涨
投资实习所· 2025-06-18 16:54
Browserbase融资与产品发展 - 公司以3亿美金估值完成B轮4000万美金融资 Notable Capital领投 [1][3] - 定位为AI Agent最后一公里 连接AI与网页世界的Headless浏览器 [1] - 过去一年完成3轮融资 最新一轮使估值达3亿美金 [1] Browserbase商业模式与市场表现 - 创立16个月拥有超1000客户 实现300万美金ARR [4] - 客户包括Commure 11x Perplexity等新兴AI企业 [4] - 2024年已运行5000万次浏览器会话 是2024年2500万次的2倍 [4] Director AI新产品发布 - 推出自然语言Web自动化产品Director AI 无需编码即可生成浏览器脚本 [3] - 产品转型意义重大 从开发者基础设施扩展到大众市场 [3] - 实现类似通用AI Agent的自动化流程 数据准确性高 [3] 行业人才竞争动态 - Meta以1亿美金薪酬挖角OpenAI人才 引发行业连锁反应 [5] - OpenAI Anthropic等可能减少与Scale AI合作 [5] - AI招聘平台需求激增 有公司两周新增5000万美金潜在合同 [5] 相关企业融资动态 - 传统招聘平台因AI实现年增1亿美金ARR Glean估值达72亿美金 [6] - AI招聘平台Mercor实现从100万到1亿美金收入仅用11个月 [6]
这些关于研发提效的深度实践分享,值得每一位开发者关注 | AICon
AI前线· 2025-06-18 14:06
AI赋能研发提效的技术演进与落地实践 核心观点 - AI编程正经历从Copilot辅助模式向具备自主推理能力的Agent模式跃迁,重构开发方式与人机协作[2] - 头部互联网公司在万人研发团队中已实现代码补全、技术对话、代码评审等多维度智能化落地[3][9] - Coding Agent的应用已从编码辅助扩展到研发流程优化,形成可持续的智能化体系[4] - 大模型与数字员工的深度融合正在文档设计、智能编码等场景实现可感知的效率提升[5] - 游戏开发等高复杂度场景通过知识图谱、多Agent协作等方案解决上下文限制与任务碎片化问题[6][10] 技术范式革新 - AI编程范式正从"提示-响应"的Copilot模式升级为具备自主推理、工具调用能力的Agent模式,实现从辅助执行到主动思考的转变[2] - 自然语言驱动开发将成为新趋势,Agent能感知任务上下文并重构传统开发流程[2] 规模化落地实践 - 腾讯在万人研发团队中验证了代码补全、技术对话、单元测试等场景的智能化路径,形成可复用的技术架构[3][9] - 同程旅行构建了包含代码补全、对话式编程的演进体系,通过MCP平台实现AI驱动的流程持续迭代[4] - 百度通过"大模型+数字员工"模式整合权限与工具链,在文档设计、测试生成等场景提升人机协同效率[5] 高复杂度场景突破 - 网易游戏开发出结合代码知识图谱与多Agent协作的解决方案,有效解决游戏开发中的上下文限制与知识碎片问题[6][10] - 通过自研工具链实现代码搜索、功能开发等场景的应用落地,提升团队协作效率与代码资产利用率[6] 行业应用趋势 - 头部企业已形成从单点工具到系统化流程的智能化升级路径,技术架构演进聚焦可持续迭代能力[3][4][5] - 游戏等垂直领域验证了复杂工程场景下大模型落地的可行性,为行业提供可借鉴的技术方案[6][10]
资金流入游戏板块,游戏ETF(516010)近10日净流入近4亿元,AI技术赋能商业化进程受关注
每日经济新闻· 2025-06-18 10:22
游戏行业AI应用 - 看好AI产品在游戏行业的应用落地加速及商业化进度 重点关注方向包括AI Agent AI陪伴 AI多模态 [1] - AI Agent作为生产力工具 通过自主决策和动态交互提升效率 全年有望持续优化体验 [1] - AI陪伴满足个性化交互需求 属于泛娱乐领域 涵盖软件内容 平台及硬件玩具 [1] - AI多模态中音视频 3D等底层模型持续迭代 驱动产业应用加速落地 [1] - AI技术正深度赋能传媒与游戏行业 商业化进程不断提速 [1] 动漫游戏指数及ETF产品 - 游戏ETF(516010)跟踪动漫游戏指数(930901) 由中证指数有限公司编制 [1] - 指数从沪深市场选取涉及动漫制作 游戏开发及相关服务的上市公司证券 反映中国动漫游戏产业整体表现 [1] - 指数成分股主要分布于文化传媒 软件开发等领域 兼具行业集中度和创新成长特性 [1] - 无股票账户投资者可关注国泰中证动漫游戏ETF联接C(012729)和联接A(012728) [1]
海外科技厂商AI布局与To B Agent进展
2025-06-18 08:54
纪要涉及的行业和公司 - **行业**:AI行业、金融行业、编码领域 - **公司**:微软、亚马逊、Meta、谷歌、Snowflake、MongoDB、Cloudflare、Cursor、Segment Tree、Cloud Function、Glomac、Peplaxy、Manz、Fellow、Melexis、Coze、N8N、Salesforce、Oracle 纪要提到的核心观点和论据 1. **海外科技大厂AI布局与战略** - **谷歌**:推出新版模型Gemini 2.5 Pro获业界认可,平台产品AI Studio市场反响一般,正通过增长策略提高活跃度[2] - **微软**:专注AI基础设施建设,Azure云服务提供强大GPU算力,AI Foundry平台支持多种开源模型,在边缘计算和ToB场景表现突出;Copilot系列产品在M365办公场景广泛应用,但发展低于预期[1][2] - **亚马逊**:通过AWS云服务推动AI发展,侧重算力支持和图像模型服务,面向中小企业提供模型部署方案,并通过API销售云模型[1][2] - **Meta**:推出LLAMA4并收购Scale AI,旨在优化数据层提升模型能力,早期在开源领域贡献为后续发展奠定基础,但目前效果未显著[1][2] 2. **B端SaaS AI应用落地挑战与机遇** - **挑战**:面临幻觉、安全、数据隔离和成本等多重挑战,模型调用成本高昂是主要瓶颈[3] - **机遇**:若AI功能使用成本接近零,渗透率和使用量将显著提升;2025年是AI应用开发大年,数据库和数据分析公司如Snowflake、MongoDB等受益[24][28] 3. **AI agent开发相关要点** - **核心壁垒**:垂直领域专家知识和私有数据,工程化解决方案如Workflow管理是关键技术[1][11][12] - **与LM区别**:需使用LM、各种工具和处理多步任务,开发流程关键技术包括传统NLP搜索、workflow管理等[11] 4. **微软产品表现与发展情况** - **Copilot系列**:在M365办公场景广泛应用,Word和Excel表现较好,PowerPoint因视觉元素处理能力不足评价较低,整体发展低于预期[1][15][16] - **云平台及SaaS应用**:Azure服务和Office 365全家桶有优势,但M365 Copilot系列发展需优化提升[17] 5. **AI应用市场趋势** - **通用与垂直代理**:通用代理在专业化领域表现不佳,未来垂直代理将迎来爆发式增长,多个擅长特定领域的代理将存活[26][27] - **大厂与中小厂商**:大厂完善底层技术后将发力应用层面,带动中小厂商与数据库及SaaS公司合作[29] 其他重要但可能被忽略的内容 - **微软Azure Foundry优势**:提供开发AI agent所需模型和丰富工具,与Azure原有存储账户和虚拟机打通,架构更便捷高效[10] - **多模态能力进展缓慢原因**:发展速度慢,微软去年精力投入安全领域影响AI产品发展,今年领导层开始重视AI功能开发[18][19] - **重要技术进展**:Sapec的MCP技术、谷歌的a2a技术标志agent落地进展,关注RAG技术和Fine - tuning技术,更多是优化模型架构降低成本[34]
红杉中国正式开源AI基准测试xbench评测集
快讯· 2025-06-18 08:37
红杉中国开源AI基准测试工具xbench - 红杉中国于6月18日正式开源其AI基准测试工具xbench的两个评测集xbench-ScienceQA和xbench-DeepSearch [1] - 公司表示未来将基于大模型和AI Agent的发展情况动态更新评测集 [1] - 采用"黑白盒"机制以服务更多大模型和Agent开发者并避免静态评测集的过拟合问题 [1] - 目标是通过动态更新确保xbench工具的长期有效性 [1]
腾讯研究院AI速递 20250618
腾讯研究院· 2025-06-17 23:40
一、DeepSeek-R1在编程领域表现优异 - DeepSeek-R1在LMArena榜单中整体排名第6,是开源模型中的第一名,编程测试排名第2 [1] - 在WebDev Arena网页编程竞赛中,DeepSeek-R1与Claude Opus 4并列第一,分数超过Claude Opus 4 [1] - 该模型在MIT开源协议下提供领先性能,标志着开源AI在编程领域达到与顶级闭源模型相当水平 [1] 二、MiniMax开源高效推理模型MiniMax-M1 - MiniMax-M1仅用380万元、3周时间训练完成,支持100万token输入和8万token输出,生成效率是DeepSeek-R1的4倍 [2] - 采用Lightning Attention混合架构和CISPO强化学习算法,训练效率提升2倍 [2] - 在多项基准测试中表现可比或超越DeepSeek-R1、Qwen3等开源模型,在工具使用和软件工程任务上甚至超越OpenAI o3和Claude 4 Opus [2] 三、Kimi发布开源代码模型Kimi-Dev - Kimi-Dev仅72B参数,在SWE-bench Verified中取得60.4%成绩,成为开源SOTA [3] - 核心设计融合BugFixer和TestWriter双角色,通过自我博弈协调bug修复与测试编写能力 [3] - 以Qwen2.5-72B为基础模型,利用GitHub数据中期训练和强化学习优化,采用MIT协议完全开源 [3] 四、阿里开源Qwen3全系列MLX量化模型 - 阿里开源32款Qwen3全系列MLX量化模型,每款提供4bit、6bit、8bit和BF16四种精度版本 [4] - MLX框架使Mac、iPad及iPhone均可部署Qwen模型,已在魔搭社区和Hugging Face开源 [5] 五、腾讯元宝上线AI编程模式 - 腾讯元宝电脑版使用DeepSeek V3模型,通过@AI编程指令实现一句话写代码功能 [6] - 支持双栏展示界面,左侧提需求右侧实时显示代码,支持HTML即时预览和多种语言在线运行 [6] - 适用于教学辅助、亲子编程、开发辅助等场景,可生成网页、图表、游戏等多种应用 [6] 六、松下发布多模态大模型OmniFlow - OmniFlow支持文本到图像、文本到音频、音频到图像等多种模态间任意转换生成任务 [7] - 采用模块化设计理念,各组件可独立预训练后灵活合并微调,提高训练效率和模型扩展性 [7] - 在MSCOCO-30K等基准测试中表现优异,文本到图像任务FID值显著降低 [7] 七、13岁少年创立AI智能体公司FloweAI - FloweAI开发通用AI智能体,可完成PPT制作、文档撰写、航班预订等任务 [8] - 支持网页端使用,免费用户每月10次任务,付费105元可无限使用并解锁高级功能 [8] - 已吸纳大学生加入团队,创始人设定月入1万美元目标并寻找联合创始人 [8] 八、中科院研制超高并行光计算芯片"流星一号" - "流星一号"首次实现超100并行度光子计算,50GHz主频下理论峰值算力达2560TOPS [10] - 通过波分复用技术和孤子微梳源提供超百波长信道,算力提升2个数量级 [10] - 未来单芯片算力有望突破5000POPS [10] 九、Django创始人警告AI Agent三大致命威胁 - AI Agent存在"致命三重威胁":访问私人数据、暴露于不可信内容、具备外部通信能力 [11] - 攻击者可诱导其窃取用户数据并外泄,LLM会遵循任何输入内容中的指令而无法判断来源可信度 [11] - 目前缺乏100%可靠的防范措施,用户需主动避免"致命三重威胁"组合以确保安全 [11] 十、Anthropic公开Claude深度研究功能构建细节 - Claude采用"指挥家-演奏家"多智能体架构,性能比单智能体高出90.2%但token消耗达15倍 [12] - 系统包含主智能体负责规划分解任务、子智能体并行执行、外部记忆存储和引用智能体验证 [12] - 总结提示工程八大原则和评估三大原则,需解决状态累积、调试困难、部署协调等可靠性挑战 [12]
憋大招,MiniMax发布全球首个混合架构开源模型M1 能后来者居上吗?
每日经济新闻· 2025-06-17 23:01
模型技术突破 - 公司发布全球首个开源大规模混合架构推理模型MiniMax-M1,具备百万Token级长文本处理能力,上下文窗口达100万Token,与谷歌Gemini 2.5 Pro持平,是DeepSeek-R1的8倍 [1][4] - 模型采用独创"Lightning Attention"混合架构,显著优化长文本计算效率,传统Transformer模型计算量随序列长度呈平方级增长的问题得到解决 [6] - 强化训练成本下降一个量级至53万美元,推理效率数倍于竞争对手 [1] 定价策略 - 采用分档定价策略:0-3.2万Token档输入0.8元/百万Token、输出8元/百万Token;3.2万-12.8万Token档输入1.2元/百万Token、输出16元/百万Token;12.8万-100万Token档输入2.4元/百万Token、输出24元/百万Token [4] - 前两档定价低于DeepSeek-R1,第三档为独家覆盖领域,自有平台App和Web端保持不限量免费使用 [4] 算法创新 - 提出CISPO算法(Clipped IS-weight Policy Optimization),通过裁剪重要性采样权重优化强化学习效率和稳定性,替代传统PPO/GRPO裁剪方式 [6] - 该算法未采用调整Token更新方式,而是另辟蹊径提升训练和推理成本效益 [6] 行业竞争格局 - 行业呈现技术快速迭代态势:阿里开源Qwen3参数量仅为DeepSeek-R1的1/3,百度文心大模型4.5 API价格仅为GPT-4.5的1% [7] - 专家认为基础模型仍有较大优化空间,算法突破方向将决定下一代科技巨头归属 [10] 公司战略方向 - 明确"加速技术迭代"为现阶段核心目标,结束半年战略摇摆期,将增长和收入目标置于技术突破之后 [8] - 2023年完成品牌整合(海螺AI更名MiniMax),2024年连续发布文本/视觉/语音多模态模型(01系列/VL-01/Speech-02) [8][9] - 布局AI Agent赛道,认为2025年将是关键发展节点,开源策略旨在促进长上下文研究和应用创新 [9] 商业化布局 - 采取B端+C端双线布局,覆盖国内外市场,在保持技术攻坚的同时推进商业化 [9] - 计划开展"开源周"活动,连续4个工作日发布新技术或产品更新 [10]
xbench评测集正式开源
红杉汇· 2025-06-17 21:27
开源AI基准测试xbench - 红杉中国正式开源xbench的两个评测集xbench-ScienceQA和xbench-DeepSearch,旨在量化AI系统在真实场景的效用价值并采用长青评估机制[1] - xbench-ScienceQA聚焦STEM学科,包含数学、物理、化学等8个主流学科,题目平均正确率仅32%,其中34%题目正确率低于20%[2][5][12] - xbench-DeepSearch专注评估AI Agent的深度搜索能力,要求综合运用规划+搜索+推理+总结的端到端能力,弥补中文语境搜索题库不足的弱点[3] 评测集特点 xbench-ScienceQA - 题目来源:邀请顶级院校博士和行业专家出题,确保来源可靠、多学科、搜索引擎未收录且答案明确[2] - 题型分布:包含77道问答题、14道多选题和9道单选题,降低模型"蒙对"概率[8] - 难度控制:采用LLM难度检验、同行检验等方式,实测不同模型得分差距超30%[2][10] xbench-DeepSearch - 题目设计:要求搜索空间大或推理步骤多,淘汰正确率>80%的题目[13][14] - 主题覆盖:参考OpenAI BrowseComp分类,确保多样性,涵盖历史、科技等方向[15] - 更新机制:每月汇报模型表现,每季度更新评估集,内部维护黑盒版本防止刷榜[3] 例题分析 ScienceQA示例 - 计算机题示例:考察图论单源最短路算法,正确答案为O(m√(log n·log log n)),被测模型平均正确率<5%[21][22] - 化学多选题:涉及物质结构最新研究成果,采用"全对才得分"评分方式,平均正确率<20%[24][26] DeepSearch示例 - 广度搜索题:计算东北三省接壤外国的地市数量,需跨省份数据整合,平均正确率47%[28][29] - 深度推理题:统计尼米兹级航母建造期间总统海军服役年限,侧重分步推理,正确率33%[29][30] 行业影响 - 填补高质量Agent评测集空白,动态更新机制适应AI技术快速迭代[3][31] - 开源模式吸引全球开发者参与,推动AI评估标准进化[1][33]
如何破解AI落地难题?与16位实战派对谈,把“别人的作业”变成你的路线图!
虎嗅APP· 2025-06-17 21:12
核心观点 - AI在零售消费行业已实现显著业务重构,如交个朋友通过AI智能选品实现GMV翻倍,叮咚买菜利用AI算法将损耗率控制在1.5%,物美AI样板间销售额增长5倍[4] - 多数企业仍处于AI落地观望期,面临"怕被割韭菜"与"怕落后"的矛盾心理,需通过一线实战案例破解落地难题[5] - AI落地研学营聚焦实战方法论,覆盖零售消费全链条场景,包括选品、供应链、营销服等,提供可复制的技术方案与ROI验证[6][7][12] 行业应用案例 - **直播电商**:交个朋友通过AI中控台实时优化流量分配,单场GMV突破千万[6] - **生鲜电商**:叮咚买菜前置仓采用AI算法管理400万品类组合,端到端损耗率压至1.5%[4][6] - **新质零售**:物美AI样板间实现选品、补货、出清全生命周期智能管控,销售额增长5倍[4][6] 技术落地方向 - **AI Agent应用**:智谱AI解析大模型技术底座到场景闭环构建,飞书AI提供协同零售的Agent趋势洞察[6] - **营销服一体化**:网易云商展示Agent实践,解决"AI如何帮企业赚钱"问题[6] - **供应链柔性化**:智能蜀海供应链构建消费者导向的全链路数字化方案,柠季分享AI全球化供应链实践[7] 研学营价值 - **实战内容**:1.5天高强度参访+案例推演,覆盖12家标杆企业如爱慕、特赞科技等,拆解智能客服、爆品预测等20+场景[7][9][12] - **资源网络**:提供30位CEO/CTO同行机会、头部甲方对接、50+AI案例报告及峰会门票[12] - **区域主题**:北京聚焦AI Agent颠覆效应(6月),杭州探讨营销服一体化(7月),上海主攻智能供应链(9月),北京研究AI组织文化(11月)[13] 目标受众 - **零售企业决策者**:解决库存压力、人力成本失控问题,明确AI落地切入点[9] - **数字化服务商**:破解技术能力与商业需求错位困局,直击甲方真实需求[9] - **产业观察者与投资人**:捕捉AI改造传统行业的早期信号与价值洼地[9]
第四范式(06682):2025Q1业绩超预期,Agent业务高歌猛进带动公司进入高速增长轨道
海通国际证券· 2025-06-17 19:33
报告公司投资评级 - 维持“优于大市”评级,给予公司2025年6倍PS估值,对应目标价为90.84港元 [4] 报告的核心观点 - 宏观承压下公司25Q1营收增速逆势高速增长,Agent加持下业务凸显,全年转盈趋势确定,2B+2C双轮驱动下长期增长可期 [1] - 预测公司2025 - 2027年营收为68.84/88.63/112.76亿元;EPS为0.11/0.56/1.19元 [4] 根据相关目录分别进行总结 财务摘要 |项目|2022A|2023A|2024A|2025E|2026E|2027E| |----|----|----|----|----|----|----| |营业收入(百万元)|3,087.63|4,206.95|5,260.65|6,883.82|8,862.78|11,275.54| |(+/-)%|52.73%|36.38%|25.13%|30.85%|28.75%|27.22%| |毛利润(百万元)|1,486.65|1,979.55|2,244.83|2,925.62|3,811.00|4,904.86| |净利润(百万元)|-1,644.90|-908.72|-268.79|51.96|277.74|589.43| |(+/-)%|7.88%|44.76%|70.42%|119.33%|434.56%|112.22%| |PE|-|-17.93|-87.84|435.26|81.43|38.37| |PB|-|4.37|4.69|4.42|4.18|3.77|[3] 业绩表现 - 2025Q1营收10.77亿元,同比+30.1%;毛利润4.44亿元,同比+30.1%;毛利率41.2%;标杆用户数达59个,标杆用户平均营收1167万元,同比+31.3% [4] - 2025Q1先知AI平台营收8.05亿元,同比+60.5%;SHIFT智能解决方案业务营收2.12亿元,同比 - 14.9%;式说AIGS服务业务营收为0.6亿元,同比 - 22.0% [4] 业务发展 - 2025Q1先知AI平台推出AI Agent全流程开发平台,企业级Agent已在超14个行业落地 [4] - 公司升级为范式集团,成立消费电子板块Phancy,实现2B+2C双轮驱动 [4] 可比公司估值 |股票代码|股票简称|收盘价(元)|市值(亿元)|营业收入(亿元)|PS(倍)| |----|----|----|----|----|----| | | | | |2024A|2025E|2026E|2025E|2026E| |688207|格灵深瞳|13.61|35|1.17|-|-|-|-| |688088|虹软科技|43.70|175|8.15|10.02|12.51|17|14| |0268.HK|金蝶国际|12.46|406|62.56|71.88|82.81|6|5| |CRM.N|Salesforce|283.42|2725|378.95|413.20|453.26|7|6| | | |平均值| | | | |10|8|[6]