Workflow
大模型
icon
搜索文档
离开百川去创业,8个人用2个多月肝出一款热门Agent产品,创始人:Agent技术有些玄学
36氪· 2025-06-26 19:09
公司背景与创始人经历 - 创始人徐文健毕业于南京工程学院,大学期间通过参与创业活动克服内向性格,塑造了创业者身份雏形 [4] - 曾就职于滴滴,耗时一年半重构技术架构并获得认可,这段经历使其对大厂"祛魅"并埋下创业种子 [4] - 早期参与两个创业项目:云Coding产品获200万美元投资但最终失败,AI教育产品因战略不清晰仅维持四个月 [5] - 加入百川智能半年后离职,期间接触Agent技术并确立其重要性,2023年底与合伙人冯雷创立火星电波 [6][8] 创业理念与团队管理 - 公司定位为AI Native团队,强调组织文化与价值观统一,创始人认为这是无法复制的护城河 [13][27] - 团队共8人,招聘注重品质而非履历,筛选标准包括成长性、自驱力,成员背景从大专到名校硕士 [12] - 采用扁平化管理,决策基于讨论与数据分析而非权威,目标导向下团队可实现高度自转 [13] - 计划维持20人以内规模,避免价值观稀释,追求"小而美"模式 [27] 产品与技术路径 - 核心产品ListenHub为AI音频生成工具,聚焦内容消费赛道,分三阶段实现"有人味"、"个性化"、"垂直深度" [10] - 技术架构包含三个引擎:意图分析、内容生成、音频转化,研发周期仅2个月,性能较Demo提升5-6倍 [15][19] - 采用多模型组合策略,参考创始人过往经验,暂未引入反思机制和RAG技术以优先保障核心功能 [16][17] - 产品理念强调轻量化,音频时长控制在10分钟内,避免信息过载 [21] 市场表现与商业化 - 发布后注册用户约1万,DAU超1000,首发日DAU达5000但未达预期峰值 [19][20] - 采用订阅制,国内定价70元/月但主攻海外市场,已吸引20+海外大V零成本转发 [23][24] - 商业逻辑不追求全民覆盖,专注服务高价值付费用户,自然流量增长显著 [22][23] - 定位全球化,自评国内领先但逊于谷歌NotebookLM,视大厂为合作伙伴而非竞对 [24][25] 行业洞察与竞争策略 - 创始人认为大模型与应用公司存在本质差异,模型公司做基建而应用公司深耕垂直领域 [26] - 应对大厂竞争的关键在于产品理念差异化,如豆包发布类似功能后仍坚持自身特色 [25] - Agent技术被视为与大模型同等重要,但行业尚无统一标准,各团队实践差异显著 [15] - 音频Agent赛道面临质疑,被指可能沦为"高级摘要工具",但团队认为用户使用即证明价值 [21][22]
国产大模型高考出分了:裸分683,选清华还是北大?
量子位· 2025-06-26 14:25
大模型高考评测表现 - 核心观点:字节跳动Seed团队发布的大模型高考评测结果显示,Gemini和豆包在理科和文科总分分别位列第一,展现领先的学科能力 [2] - 理科总分排名:Gemini以655分居首,豆包648分次之;文科总分豆包683分第一 [2] - 细分科目优势:豆包在语文(128)、英语(144)、物理(90)、地理(92)、历史(92)、政治(84)6科中排名第一,数学(141)仅次于Deepseek(145) [3] - 国际模型短板:国外模型在文综科目(政治/历史)表现较弱,对中国知识点理解不足 [24] 评测方法与标准 - 试卷构成:主科采用全国一卷(语数英),副科采用山东卷,总分750分 [9] - 评分机制:选择题机评+人工质检,开放题实行双评制由高中教师阅卷 [10] - 测试环境:API测试不联网,未使用提示词优化技巧确保公平性 [11] 学科能力深度分析 - 数学进步:模型均达140分水平,较去年显著提升(此前多数不及格) [13] - 视觉短板:全国一卷第6题因图表识别问题全军覆没(正解A,模型多选C) [16][17] - 语文写作:得分率高但存在刻板化、字数不达标、立意偏差等问题 [20] - 英语表现:接近完美,仅写作存在用词和句式单调等细微缺陷 [21] - 理综挑战:图像题仍是难点,豆包与Gemini相对优势明显 [22][23] 技术能力突破 - 多模态融合:Seed1.6通过三阶段训练(文本预训练/多模态混合/长上下文)实现256K上下文支持,提升阅读理解准确率 [33][34][35] - 深度思考优化:采用RFT+RL迭代方法,引入parallel decoding技术,数学高难度测试集成绩提升8分 [36][37][38] - 动态思考机制:AutoCoT技术解决过度思考问题,复杂任务中思维链触发率达100% [39][40][44] 国际考试对比 - JEE Advanced表现:豆包与Gemini进入全印度前10,Gemini物理化学突出,豆包数学5次采样全对 [27][28] - 多模态潜力:使用清晰图片重新测试后,豆包理科总分提升30分至676分,验证图文结合输入的效能 [42][43]
高考出分!大模型“考生”,有望冲击“清北”!
证券时报· 2025-06-26 14:19
大模型高考表现 - 豆包大模型1.6-Thinking版本在2025年山东高考测评中取得文科总分683分、理科总分648分,超过特殊类型招生控制线(521分)和普通类一段线(441分),预估赋分后最高可达690分,排名前80位,达到冲击清华北大的水平 [1][6] - 在文科总分排名中,豆包1.6-Thinking以683分位列第一,领先谷歌Gemini 2.5 Pro(651分)32分;理科总分Gemini 2.5 Pro以655分排名第一,豆包以648分位列第二 [6] - 基础学科表现优异:豆包语文128分、数学141分、英语144分,与其他主流模型(如Gemini数学140分、英语141分)差距较小,显示基础能力趋近人类优秀考生水平 [3][6] 多模态能力对比 - 山东高考试卷中图像类问题占比36%(378分),豆包凭借多模态能力优势显著,而DeepSeek R1因缺乏多模态支持无法正常解答图像题 [6] - 副科赋分优势明显:豆包物理90分、化学100分、地理94分,资深教师预估其赋分后成绩可提升至690分以上,尤其在化学等难度较高科目表现突出 [1][6] 技术迭代与行业应用 - 豆包1.6系列模型技术突破:采用230B总参数稀疏MoE架构,支持256K长上下文推理,新增动态思考能力和多模态融合,在复杂推理、数学竞赛等测试中跻身全球前列 [8] - 大模型产业价值显现:2024年中国AI大模型市场规模294.16亿元,预计2026年突破700亿元,豆包已覆盖4亿终端设备,渗透汽车、金融等八大行业,包括80%主流车企和70%系统重要性银行 [11][12] 高考作为AI评测场景 - 高考成为大模型核心竞技场:题目覆盖文理科全领域及多模态理解,能有效测试模型泛化能力,同时具备社会关注度,推动厂商积极参与测评 [10] - 豆包成绩年增幅显著:相比2024年测评,文科总分提升140.5分(542.5→683),理科提升181.5分(466.5→648),反映技术迭代速度 [11]
5款大模型考「山东卷」,Gemini、豆包分别获文理第一名
机器之心· 2025-06-26 14:10
大模型高考表现 - 5款主流大模型参加2025年山东高考,文科最高分683分(豆包Seed 1.6-Thinking),理科最高分655分(Gemini 2.5 Pro)[3][4] - 文科成绩全线超620分,豆包683分达清华北大线,理科Gemini和豆包达985水平,Claude 4和o3未及600分[5] - 相比2024年高考测评,大模型文理科成绩一年内均提升100多分,从"踩一本线"跃升至"冲刺清北"[6][37] 技术测评方法论 - 测试采用全科闭卷形式,主科用全国Ⅰ卷,副科为山东自主命题,总分750分制[4] - 通过API测试,选择题机判+人工质检,开放题由重点高中教师匿名评估,全程未做prompting engineering[5] - 输入方式差异:DeepSeek R1仅用题目文本,其他模型使用文本+截图[5][31] 学科能力分析 语文 - 豆包128分夺冠,Gemini 126分,o3因作文跑题仅95分[11] - 大模型在选择题/阅读理解得分率高,名句默写全员满分,但作文表现参差不齐(Gemini 52分 vs o3 20分)[13][14] - 写作问题包括缺乏深度思辨(DeepSeek)、格式不规范(豆包1800字超限,o3非标准格式)[15][16] 数学 - DeepSeek R1以145分领先,豆包141分,Gemini 140分,较2024年普遍不及格实现飞跃[17] - 主要失分点:图像混合题(新一卷第6题全员失分)、压轴题推导不严谨[20][22] - 解答过程存在随机性,相同题目不同模型得分差异明显[18] 英语 - 全员超140分,差距极小,主要扣分点在写作[23] - 作文分两档:豆包/Gemini/Claude 4达12分(结构清晰案例充实),o3/DeepSeek 11分(语言瑕疵或句式单一)[29] 文科综合 - 豆包文综270分断层领先,地理94分+历史92分双突破90[30] - 优势领域:地理空间关系理解、历史因果链把握,DeepSeek因模型故障历史仅67分[30][32] 理科综合 - Gemini理综248分第一,豆包235分,Claude 4落后37分[33] - 生物化学读图题受图片清晰度限制,豆包在图文交织输入下可提升30分至676分[34] - 物理题存在超纲解答现象,因未限制解题方法[35] 技术演进关键 - Gemini 2.5 Pro通过思维链提升数理推理,支持多模态复杂问题处理[38] - OpenAI o3整合图像思维链,实现原生图像处理与分步思考[38] - 豆包Seed 1.6采用三阶段训练(文本预训练/多模态混合/长上下文),结合256K上下文与视觉理解优化[39][40] - Seed1.6-Thinking通过RFT+RL迭代优化,融合VLM提升视觉理解能力[41] 行业趋势 - 大模型从"能否解题"转向"理解深层逻辑",在文本生成、多模态、推理层面实现质变[43] - 标准化考试逐渐失去挑战性,未来或转向科研/艺术/编程等无标准答案领域[44] - 技术迭代速度超预期:一年内从"普通本科"水平跃升至"双一流"级别[43]
AI Infra 工程师们如何应对大模型流水线里的“暗涌”?
AI前线· 2025-06-26 13:44
大模型基础设施工程挑战 - 训练任务中断是万卡集群的普遍现象,GPU错误率导致每天必然出现不同故障,同步训练特性使单卡故障可导致整个训练停滞[4] - 硬件故障定位困难,早期依赖人工二分法排查准确率低,误判会导致任务反复重启失败,涉及网络系统、交换机、光模块等多环节问题[4][5] - 损失函数异常飙升成因复杂,需算法团队与Infra团队紧密协作排查硬件差异、算法缺陷或代码错误[7] 推理部署核心问题 - 运行时错误和性能问题是用户最高频反馈,前者涉及显存分配溢出等配置错误,后者常因环境差异导致测试结果无法复现[6] - KV缓存内存分配不足会降低推理批次规模,预填充到解码各环节异常均可能引发延迟偏高或吞吐量下降[7] - 性能剖析工具如PyTorch Profiler和GPU监控系统对定位CUDA算子执行问题至关重要,人工排查效率低下[12] 工程流水线管理难点 - 并行策略兼容性挑战显著,如Multi Token Prediction与数据并行注意力机制存在代码耦合问题,需经历重构阵痛期[8] - 新特性与旧算法冲突时采用分版本独立启用策略,通过持续迭代逐步解决分支冲突,仅靠CI流水线保障不足[9] - 研发环节受资源限制,CI测试无法模拟万卡规模问题,功能更新导致MFU下降时需依赖二分法回退测试定位[10] 成本优化关键技术路径 - MoE架构专家并行可减少单卡权重负载,释放显存用于KV缓存,模型设计与部署需联合规划[14] - 推理缓存策略优化涉及CPU内存KV缓存驱逐机制,需针对Agent工作流等场景定制调度算法[15] - GPU利用率提升依赖计算通信重叠技术,如双批次重叠策略可掩盖通信开销[16] - 大型机柜整合方案通过NVLink拉远技术将跨节点通信带宽提升近节点内水平,显著改善MFU[18] 开源项目运营挑战 - 社区运营需构建用户反馈与开发者贡献的良性循环,超越代码能力成为项目持续进化核心[21] - 平衡公司工作与社区投入依赖开源热情,技术监督委员会运营和全球影响力建设需从零起步[20] - 硬件厂商锁定效应构成壁垒,如昇腾开源项目初期被认知为仅支持特定硬件[21] 异构计算发展趋势 - 预填充与解码阶段硬件需求分化推动异构部署,前者需要高算力芯片后者侧重显存管理[24] - GPU虚拟化依赖厂商支持,英伟达MIG基于SR-IOV技术实现设备级虚拟化资源分配[23] - 智能调度混部技术成熟使CPU/GPU混合部署成为基础设施演进方向[25]
北京人工智能,向下扎根向上生长(活力中国调研行)
人民日报· 2025-06-26 06:21
人工智能产业发展现状 - 驭势科技的"人工智能司机"已应用于千余台车辆,包括香港机场摆渡车和内地工厂物流车,累计安全行驶580万公里,相当于绕地球144圈多 [1] - 2024年北京人工智能企业突破2400家,核心产业规模近3500亿元,均占全国一半以上 [1] - 北京备案上线大模型产品132款,居全国第一 [2] 基础研究与前沿技术 - 北京智源人工智能研究院推出"悟界"系列大模型,能在虚拟空间模拟物理世界运行并预测变化 [2] - 智源研究院走出的人才已创办10多家核心技术企业,其中1家估值超百亿元,5家超10亿元 [2] - 北京已建设23家重点实验室和4家新型研发机构,围绕大模型、具身智能等前沿方向 [2] 基础设施建设 - 北京经开区"模数世界"社区直连5000P公共算力资源,算力成本降低30% [3] - 北京人工智能数据训练基地汇集20余个行业海量数据 [3] - 2025年一季度北京新增智能算力1.1万P,总规模超3.3万P,汇聚数据集180余个,数据总量超2000TB [3] 开源生态建设 - 智谱华章发布全球首个能深度思考并执行的智能体"AutoGLM沉思",开源系列模型全球下载量超4000万次 [4] - 智谱华章联合发起Z基金出资3亿元支持全球人工智能开源社区 [4][5] - 北京举办国际人工智能研讨班,35个发展中国家代表参与,智源大会开幕式吸引205万观众 [5] 政策支持与规划 - 北京出台算力基础设施建设实施方案,建设数据基础制度先行区 [3] - 北京市科委表示已在技术创新、应用示范、产业要素、创新生态等方面形成系统布局 [5] - 北京计划打造具有全球影响力的人工智能创新策源地和产业高地 [5]
中国智谷“模”力升级
江南时报· 2025-06-25 22:30
活动概况 - 2025南京人工智能产业发展对接活动在南京经开区红枫科技园举行,主题为"智能加持,制造无界",聚焦人工智能技术落地应用,特别是大模型与制造业的深度融合 [1] - 活动包括国家级、省级重点实验室揭牌,南京经开区与南京邮电大学共建人工智能学院签约,大模型集聚区公共服务平台启用,以及人工智能重点项目集中签约 [1] 嘉宾观点 - 中国工程院院士倪光南强调南京经开区已形成人工智能产业生态,建议持续聚焦数据资源、产业体系等要素,构建产学研用协同创新体系 [2] - 中国信通院副院长魏亮提出"人工智能+制造"是双向赋能,信通院与南京经开区合作升级打造大模型产业集聚区公共服务平台 [3] - 江苏省数据局副局长杨波表示南京是江苏人工智能产业高地,省数据局将加强数据安全治理,维护创新主体权益 [3] - 南京邮电大学党委书记郭宇锋提到校地合作共建人工智能学院,联合培养复合型人才并推动藏语语言智能科研成果转化 [3] 产业成果 - 中国(南京)智谷汇聚人工智能企业超400家,核心产值突破百亿,跻身长三角一流人工智能园区 [4] - 藏语智能全国重点实验室、江苏省具身智能与装备控制重点实验室等5个实验室揭牌并落户南京经开区 [4] - 南京经开区大模型集聚区公共服务平台启用,8家企业首批入驻,9家企业发布大模型智能体和智能硬件产品,涵盖交通、医疗等多个领域 [5] - 8家企业联合发布"可信AI智能体测试床1.0",打造一体化测试环境验证智能体能力 [5] 项目签约 - 总投资20亿元的4个项目集中签约落户南京经开区,提升人才和产业集聚度,推动大模型领域龙头项目引领 [6] - 南京经开区将实施"场景驱动、产模融合"战略,高标准建设大模型产业集聚区,打造创新创业生态 [6]
百度:累计已有超千万用户使用百度AI志愿助手、高考大数据相关服务进行预填志愿
快讯· 2025-06-25 19:55
百度AI志愿助手用户规模及功能升级 - 公司累计已有超千万用户使用百度AI志愿助手及高考大数据相关服务进行预填志愿 [1] - 今年对AI聊志愿智能体进行升级,接入了文心大模型、DeepSeek-R1等多个大模型 [1] - 升级后支持自然语言对话,简化复杂的志愿填报流程 [1] - 系统能够进行深度思考,针对性生成详尽的报考建议 [1] - 用户不用切换App即可对比多个志愿方案 [1]
周鸿祎:如果今年人工智能不能进化到智能体,那就是一场泡沫和闹剧
快讯· 2025-06-25 19:52
人工智能行业发展现状 - 人工智能特别是大模型的发展给人们带来惊喜 [1] - 当前人工智能技术仍处于初级阶段 [1] - 若年内无法实现智能体进化则存在泡沫化风险 [1] 企业观点 - 360公司创始人周鸿祎多次强调大模型发展的初级阶段特征 [1][1][1] - 企业创始人认为技术突破需要达到智能体阶段才有实质意义 [1] 注:由于原文内容重复且信息密度较低,关键要点经过合并同类项处理,所有观点均来自同一文档[1]的重复表述
2025 AI Cloud 100 China榜单发布:6个赛道,34家新上榜,DeepSeek、Manus上榜
Founder Park· 2025-06-25 19:23
2025 AI Cloud 100 China榜单核心观点 - 榜单聚焦GenAI商业落地企业,要求GenAI收入占比至少10%,其中38家企业GenAI收入占比超50% [5][9] - 新上榜企业34家,DeepSeek和百图生科首次上榜即进入前10名 [9] - 过去三届榜单累计10家企业成功上市,2024年有4家(合合信息、太美医疗、七牛云、多点Mall) [9] 榜单结构及赛道分布 - 赛道类别从10个精简为6个:AI基础设施、AI for Insight、AI for Productivity、AI for Real World、AI for Services、AI for Content [12] - AI基础设施赛道头部企业为DeepSeek(第1)、MiniMax(第2)、智谱AI(第3) [12][14] - AI for Productivity赛道新增企业最多(31家),AI基础设施赛道平均估值最高 [10][63] 融资与市场动态 - 全球AI融资额同比增长79.6%,占总融资额比例从21%升至37%,超大项目(>1亿美元)占比达69.2% [22] - 中国AI融资额同比下降14.2%,资金集中流向AIGC、自动驾驶、AI行业应用赛道 [24] - 中美云厂商加大投入:美国三大巨头2025年资本支出2500亿美元(+33%),阿里计划三年投资3800亿元(80%投向AI) [26] 技术发展趋势 - 大模型向"慢思考"演进,多模态成标配,AI应用从Copilot向Autopilot升级 [34][40] - AI for Content赛道中,多模态内容编辑/生成类产品占比47.8% [40] - 具身智能领域融资火热,但行业仍处基础模型竞赛初期 [44] 地域与企业特征 - 北京企业占榜单49家,其次为上海(17家)、杭州(12家)、深圳(7家) [59] - 独角兽企业33家,平均估值125亿元(低于2024年的139亿元) [10][61] - 头部企业Palantir(AI for Insight赛道)股价一年上涨4.5倍,市值达3240亿美元 [43] 未来五大趋势预测 1 从Copilot到Autopilot进化(如Cursor两年内完成转型) [48][49] 2 环境智能(Ambient)通过GenAI+硬件规模化商用 [51] 3 RaaS(Result as a Service)在效果广告等可量化场景率先落地 [53] 4 端侧AI随AI手机/AIPC普及加速发展 [55] 5 高质量数据推动具身智能从L0.5迈向L1应用 [57]