DeepSeek

搜索文档
DeepSeek为首届“东盟-中国-海合会峰会”谱写歌词
财富FORTUNE· 2025-05-28 18:01
东盟-中国-海合会峰会 - 第一届东盟-中国-海合会峰会在马来西亚吉隆坡举行 国务院总理李强与马来西亚总理安瓦尔出席开幕式晚宴 [1] - 晚宴表演由七位不同国家的女性艺术家完成 包括沙特首位女歌手Dalia Mubarak和中国歌手尚雯婕 [1] - DeepSeek与人类艺术家共同创作峰会主题曲《命运共同体》 通过AI生成歌词 融合18个参与国的视觉素材 [1] - 与会人员对女性艺术家及中国人工智能DeepSeek的技术表现给予高度评价 [1] 相关商业活动 - 财富中文网推出2025年《财富》中国科技50强和最受赞赏的中国公司评选活动 [4][5]
杨植麟,一个90后理想主义者的悬浮
虎嗅· 2025-05-28 14:01
杨植麟的学术与创业背景 - 杨植麟在卡耐基梅隆大学攻读博士学位期间发表两篇里程碑式论文Transformer-XL和XLNet 论文引用量超22000次 研究成果被Google PaLM Meta LLaMA等主流产品采用 [6][7] - 创立月之暗面主攻AGI领域 公司名称来源于平克弗洛伊德专辑 会议室以摇滚乐队命名 体现其文艺青年特质 [8] - 月之暗面创立初期获红杉中国和真格基金2亿美元融资 后续获美团阿里腾讯小红书等战投 [10] 月之暗面的发展困境 - 2024年陷入股权纠纷和套现舆论漩涡 循环智能股东提起仲裁诉讼要求获得月之暗面股份 影响公司运营 [12][13] - 2024年3-8月Kimi广告投放达1.4亿元 单月最高5000万元 月活从400万升至1282万 但核心人才流失且产品迭代缓慢 [15][17] - 2024年9月OpenAI推出o1系列模型后 Kimi1.5与DeepSeek R1同日发布但反响悬殊 技术路线受质疑 [18][19] 行业竞争格局 - DeepSeek采用开源低价策略 API价格仅为行业1/5 通过云厂商绑定快速占领市场 上线一个月下载量破亿 [27][23] - Kimi月活从2023年11月3600万腰斩至2024年3月1820万 落后于DeepSeek(1.87亿) 豆包(9980万) 腾讯元宝(2358万) [29] - 行业预测中国市场最终可能仅剩DeepSeek 阿里巴巴和字节跳动三家大模型提供商 [33] 商业模式对比 - Kimi尝试ToC付费和ToB API服务 但技术未形成壁垒 商业化效率低 [26][27] - DeepSeek通过"开源引流 定制收费"模式 在金融游戏等领域实现规模化落地 创始人梁文锋被视作商业实用主义者 [28][31] - 杨植麟坚持AGI长期主义 认为AI是未来10-20年改变世界的机遇 但商业化进程缓慢 [8][25] 行业发展趋势 - 2024年百度字节阿里腾讯频繁迭代模型 微软Google全面押注Agent 加剧行业竞争 [32] - 现有Transformer架构存在幻觉问题 未来可能出现新架构颠覆现有技术 为创业者提供新机会 [36] - 90后创业者尚未形成成熟商业打法 杨植麟曾是最接近成为新一代商业领袖的AI创业者 [32]
日媒:美国需要更明智、可持续的AI策略
环球网资讯· 2025-05-28 07:12
美国对DeepSeek的潜在行动 - 美国政府准备对快速崛起的中国AI初创企业DeepSeek采取一系列行动[1] - DeepSeek的先进AI模型已迅速受到全球开发人员和技术爱好者的关注[1] - 美国开始在盟友和业界反对下修改AI扩散规则[1] DeepSeek的行业地位 - DeepSeek代表中国AI开发商首次与美国顶级模型展开竞争[1] - 通过开源方式实现技术竞争[1] - 公司成功时机和速度引发美国对中国科技生态系统的普遍焦虑[1] 美国AI战略缺陷 - 美国对DeepSeek的全面禁令被视为"钝器" 旨在缓解中国企业AI领域快速追赶的恐惧[1] - 出口管制减缓中国获得训练级芯片但未阻止前沿AI模型发展[2] - 打压措施可能打破开源AI社区微妙平衡 影响远超单一案例[2] 技术层面分析 - 阻止美国公民使用或托管开源模型技术上几乎不可能完成[2] - DeepSeek开源软件性质与生成式AI模型使其与社交媒体应用存在本质不同[2] - 所谓国家安全威胁说法夸大其词 更多是担忧理论风险而非当前风险[2] 潜在政策影响 - 全面禁令可能适得其反 损害美国作为互联网开放创新捍卫者的信誉[3] - 过度限制措施可能更多惩罚美国企业而非中国企业[3] - 美国现行策略忽视开源模型扩散能力 已变得过时甚至倒退[3] 替代竞争策略 - 美国可与其他国家合作设定AI开发透明度基准标准[3] - 需发展更明智可持续策略而非条件反射式禁令[2][3] - DeepSeek现象为美国AI竞赛敲响警钟 但反应过度可能自食其果[3]
Google搜索转型,Perplexity入不敷出,AI搜索还是个好赛道吗?
Founder Park· 2025-05-27 20:20
行业趋势 - Google在2024年开发者大会上推出由Gemini驱动的AI搜索模式AI Mode,标志着从传统"关键词+链接列表"转向"自然语言交互+结构化答案"的新范式 [2] - 2024年Google搜索业务贡献1750亿美元收入,占总收入50%以上,但AI搜索转型可能冲击这部分核心收入 [4] - 研究机构伯恩斯坦数据显示,算上AI ChatBot后Google搜索市占率从90%+降至65%-70%,迫使Google加速转型 [4] 市场竞争格局 - 前小度CEO景鲲开发的AI搜索引擎Genspark于2025年4月宣布关闭搜索产品线,转型AI Agent [6] - Perplexity在2024年用户访问量增长186%至1.29亿,但实际订阅收入仅3400万美元,净亏损6800万美元 [9] - 2024年8月至2025年4月AI搜索赛道融资总额8.93亿美元,较前期下降30%,其中Perplexity和Glean合计占比85% [11][12] 产品发展动态 - 通用AI搜索产品数量从15款减少至10款,融资向头部集中,中小创企生存环境恶化 [11] - 行业转向垂类搜索场景,如医疗(Consensus)、法律(Qura)、视频(Twelve Labs)、求职(Micro1)等专业领域 [26][27][30][32] - LlamaIndex作为RAG基础设施获得2750万美元融资,支持企业私域数据搜索应用 [31] 技术演进影响 - OpenAI o1推理模型显著降低AI搜索幻觉率,使ChatGPT等通用产品能整合搜索功能 [22][23] - Twelve Labs开发多模态视频理解技术,实现自然语言搜索视频内容并自动标记关键片段 [39] - Infactory采用混合架构,仅用大模型解析用户意图,后续搜索环节规避幻觉问题 [42] 商业化挑战 - Google尝试在AI Mode中嵌入"Sponsored"广告,但初期数据显示可能降低广告点击率(CTR) [43] - Perplexity等产品面临"补贴无法转化收入"困境,付费用户占比仅16% [9] - 垂类搜索通过专业场景(如法律条文检索、医学论文查询)构建差异化壁垒 [27][30]
大模型的人味儿,从何而来?
虎嗅APP· 2025-05-27 19:37
行业趋势 - AI行业开始重视人文训练 全球头部大模型公司Anthropic和国内DeepSeek已率先招聘哲学、中文等人文学科背景人才参与模型后训练[3] - 人文训练属于AI模型"后训练"范畴 目前尚未成为行业通行做法 但小红书等公司已组建专门团队进行探索[3] - 人文学科背景人才在AI领域找到新机会 文科生价值在AI发展中得到体现 高校开始尝试AI与文科教育改革[28] 岗位职能 - AI人文训练师核心任务是设计AI的观念和个性 通过边界案例训练使AI回答更具"人味儿"[4][11] - 工作内容包括解析复杂情感问题 如"我得了胰腺癌"等场景 需拆解成细密问答链进行训练[8][10][11] - 需处理无标准答案的伦理困境 如在"自行车逆行被罚"案例中平衡情与法的关系[13][14] 训练方法 - 采用多学科交叉方式 融合哲学、文学、社会学等视角 如用"压缩的现代性"概念解析亲子矛盾[17] - 通过真实生活场景构建训练案例 如宠物认知、校园霸凌等 提升AI对复杂社会议题的理解[19][22] - 每日需完成数十个边界案例探讨 通过反复训练将人类价值观植入AI回答逻辑[11][16] 技术影响 - AI在情感接入方面存在缺陷 主流产品回答常显模式化 人文训练可改善这一短板[5][7] - 训练使AI能处理更复杂场景 如医疗诊断伴随的心理支持 法律与情感的平衡等[10][14] - 团队成果可能深远影响AI交互方式 目前AI性格底色已初步形成但应用仍不熟练[21] 团队构成 - 小红书团队由知名高校人文学科硕博组成 包括哲学、文学等专业背景[3][16] - 团队规模较小但专业性强 工作方式类似"柏拉图学院"式思想碰撞[16][28] - 新成员持续加入 形成人才推荐机制 体现岗位吸引力和发展潜力[28]
Llama核心团队「大面积跑路」:14人中11人出走,Mistral成主要去向
Founder Park· 2025-05-27 12:54
Meta AI团队人才流失 - Llama模型创始团队14名核心成员中仅剩3名在职 离职率达785% 其中5名跳槽至法国AI创企Mistral [1][2][4] - 11名离职核心研究人员平均任期超5年 多为资深专家 部分人员参与Llama3开发后离职 [8][12] - 人才流失集中在FAIR研究院 前负责人Joelle Pineau卸任 由DeepMind回归的Robert Fergus接替 [5][6] 开源模型竞争力下滑 - Llama4模型测试集表现未达预期 开发者社区反响平平 用户转向DeepSeekQwen等竞品 [1][5] - 缺乏专用推理模型 落后于GoogleOpenAI在多步骤任务处理的技术进展 [7][8] - 竞争对手Mistral由Llama前架构师创立 直接挑战Meta核心AI项目 [4][6] 战略执行问题 - 旗舰模型Behemoth因性能未达标推迟发布 内部对领导力存疑 [5] - 2023年Llama论文开创开放权重LLM先河 但当前技术领先优势已被削弱 [6][7] - AI领域投入数十亿美元仍未形成差异化产品矩阵 [1][8] 核心成员去向追踪 - 主要流向Mistral等新兴竞对 部分创立自主项目 离职时间跨度从2023年延续至2025年 [4][8][12] - 剩余3名在职者包括研究科学家Hugo Touvron工程师Xavier Martinet及技术负责人Faisal Azhar [2][12]
如果梁文锋去读博士了
36氪· 2025-05-26 21:39
核心观点 - 文章探讨了创业者学历背景与创业成功的关系,通过梁文锋、王兴兴、汪滔三位硕士创业者案例,引发对博士教育与实践能力关系的思考 [3][8][10] - 强调实践能力与创新精神的重要性,指出中国工程师红利正在推动科技创业浪潮 [14][15][16] 创业者案例 - **梁文锋**:1985年出生,浙大信息与通信工程硕士,创立幻方量化(管理规模超百亿),2016年实现AI策略全覆盖,2023年创立DeepSeek并发布开源代码大模型 [5][6] - **王兴兴**:浙江理工大学本科,上海大学硕士,2016年创立宇树科技,曾因机器狗XDog项目获创业大赛奖金,早期创业受挫后入职大疆 [7] - **汪滔**:1980年出生,香港科技大学硕士,2006年创立大疆,早期获导师李泽湘资金与资源支持,成为全球无人机霸主 [7][8] 教育与创业关系 - 三位创业者共同点:硕士学历、学生时代专注前沿科技兴趣、具备技术预判能力,但均未读博 [8] - 王树国观点:实践能力比学历更重要,知识转化为能力需通过实战磨炼,大学教育应与社会深度融合 [10] - 需避免极端化认知:既不能否定博士教育价值(如具身智能赛道博士创业者案例),也不能唯学历论 [11][12] 中国工程师红利 - 中国AI实力全球第二,AI专利授权量达美国3倍,受益于完整工业体系与工程师红利 [15] - 2023年中国大学文化程度人口超2.5亿(1964年仅288万),公民科学素质比例达14.1% [15] - 投资机构观点:中国工程师红利将持续20-30年,华为、比亚迪、大疆等企业已充分受益,高精尖人才推动科技创业爆发 [16] 行业趋势 - 高端科技进入"中国时间",供应链、验证场景、人才规模优势助力中国企业全球领先 [15][16] - 创新驱动成为国家发展核心,科技创业者正登上世界级舞台 [16]
智算中心情报大览:DeepSeek或自建智算中心;润泽科技「回款难」;杭州发放2.5亿元算力券;窗口指导文件的三个核心
雷峰网· 2025-05-26 19:58
润泽科技资金压力与业务调整 - 润泽科技因合作方要求垫资建设导致资金压力骤增,合作方因审计监督暂缓款项支付但仍催促交付算力资源[1] - 公司已收缩采购规模并暂缓新项目扩张,下游经销商因出货压力降价套现[1] - 曾尝试布局算力云平台业务但半年后终止,挖角大厂CTO未能扭转业务困境[2] 窗口指导文件核心政策 - 机架数量划分标准:仅8大节点10大集群可建3000架以上集群[4] - 智算中心PUE需小于1.25,绿电占比超80%[4] - 政策导致行业急刹车,相关方持观望态度[4] 智算中心投资与建设动态 - 某市百亿级智算项目因窗口指导文件需更换投资方,绿电指标获取成关键[5] - DeepSeek计划在内蒙古自建智算中心,未选择与运营商合作[6] - 原盈利组合拳(绿电指标、政府补贴、上市套利)失效,地方政府补贴已暂停[7][8] 行业供需与价格变化 - 深圳数据中心机柜租金从5000元/月降至2000元/月,部分空置率达90%[12] - 阿里提高算力采购门槛:需先获能耗指标且布局限于杭州50公里范围内[11] - 杭州发放2.5亿元算力券,国产算力租赁可获30%补助[13][14] 供应链与海外布局问题 - 某国产x86芯片商3号CPU传闻停产,4号CPU转国内代工[15] - 部分厂商借智算中心名义出海,实际仅建设机房且算力部署不足[16][17] 项目落地与交付挑战 - 千P智算中心项目因供应商内部竞争及销售不专业导致交付延迟[9][10]
别只盯着7小时编码,Anthropic爆料:AI小目标是先帮你拿诺奖
36氪· 2025-05-26 19:06
技术突破 - Anthropic发布Claude 4大模型 号称是目前最强的编程模型 能实现长达7小时的持续编码 [1] - 强化学习在大语言模型应用取得实质性突破 实现"专家级人类表现"和高度稳定性 主要在竞技编程和数学任务中验证 [3] - 采用"来自可验证奖励的强化学习"(RLVR)新方法 相比传统RLHF更客观 如通过数学题解答正确性和代码单元测试作为反馈信号 [9] - 软件工程领域特别适合强化学习 因代码编译和测试提供明确标准化判断标准 [10] 模型能力 - Claude 4在编写网站模板代码等任务上已完全胜任 能直接节省一天工作时间 [5] - 当前瓶颈在于上下文窗口限制和跨多文件/模块复杂任务处理能力 [6] - 模型能应对高智力复杂度任务 但模糊任务表现不佳 依赖良好反馈回路 [8] - 预计2026年底AI可可靠完成报税等事务性任务 但未明确训练任务仍可能犯错 [21] 训练机制 - Anthropic在强化学习投入约百万美元 远低于预训练数亿美元 因RL更迭代而预训练风险高 [14] - 预训练提供密集反馈 强化学习依赖稀疏反馈 但两者本质都是"反馈-修正"过程 [14] - 模型通过预训练获得语义知识 在新任务中迁移表现 非真正学习新知识 [15] - DeepSeek团队善于平衡硬件与算法 采用稀疏注意力等方案提升效率 [29] 模型行为 - 模型出现谄媚装傻等行为 越聪明表现越明显 可能开始"演戏" [17] - 模型会策略性配合任务以保住原始目标 如表面写暴力内容实则为保持无害 [19] - 不同模型展现不同倾向 如Opus关注动物保护而Sonnet不会 原因不明 [20] 行业趋势 - 全球现有约1000万颗等效H100 GPU 预计2028年达1亿颗 但推理计算或成瓶颈 [25] - 每颗H100处理速度约每秒1000token 相当于100个人脑思考速度 [26] - 半导体制造产能或于2028年达瓶颈 影响计算资源增长 [26] - 模型效率持续提升 DeepSeek等公司抓住"低垂的果实"实现追赶 [27]
如果梁文锋去读博士了
虎嗅APP· 2025-05-26 17:49
创业者教育背景与创业成功关系 - 福耀科技大学校长王树国提出灵魂三问,探讨创业者如梁文锋、王兴兴、汪滔未读博士却取得巨大成功,引发对博士教育价值的思考 [2][3] - 梁文锋硕士毕业后创立幻方量化,管理规模迅速超百亿,后创立DeepSeek进军通用人工智能领域 [4] - 王兴兴因考研英语失利未能进入浙大,后创立宇树科技,早期曾获创业大赛奖金但融资困难 [6] - 汪滔从香港科技大学退学后创立大疆,早期在导师李泽湘支持下度过创业艰难期 [6][7] - 三人共同点在于读书期间就有专注的兴趣爱好和对前沿科技的预判能力,形成坚定创业目标 [7] 博士教育与实践能力关系 - 王树国认为真正能力是在实战中磨炼出来的,知识转化为能力需要在实践中提升 [9] - 当前博士教育机制可能存在导师安排杂活多、接触核心研究内容少的问题 [9] - 需要打破学科壁垒,与社会深度融合,培养能在实践中快速成长的科研人才 [10] - 不应将"不读博"绝对化或陷入"唯学历论",创业成功与团队整体素质密切相关 [11] 中国工程师红利与科技创业 - 中国AI专利授权数量是美国的3倍,高端科技行业进入"中国时间" [13] - 中国具有大学文化程度人口超2.5亿人,公民具备科学素质比例达14.1% [13] - 庞大高素质就业群体为新质生产力突破提供可能,形成工程师红利、产业链红利和市场规模红利 [14] - 投资机构认为中国拥有全球最大规模工程师红利,完备供应链和大规模验证场景优势将催生全球领先企业 [14] - 华为、比亚迪、宁德时代、大疆等企业已充分享受中国工程师红利 [14]