Seek .(SKLTY)
搜索文档
DeepSeek与意大利谈妥了,但...
观察者网· 2026-01-08 14:57
公司与意大利监管机构达成和解 - 公司与意大利反垄断机构AGCM达成共识,同意为意大利用户推出首个国家专属版本聊天机器人,并着手解决AI模型“幻觉”问题,从而推动AGCM终止了自去年6月启动的调查[1] - 公司需在120天内向AGCM提交关于承诺履行情况的报告,若逾期未达标,可能面临最高1200万欧元(约合9793万元人民币)的罚款[1][5] 具体整改措施 - 当用户IP地址位于意大利或使用意大利语提问时,平台将以意大利语展示幻觉风险警告及服务条款,目前这类信息仅支持中英双语[2] - 意大利《邮报》核查发现,将网站语言设置为意大利语时,对话窗口下方的幻觉警告内容已比英文网站上的版本更为详细[2] - 公司计划为员工组织研讨会,以确保相关业务部门充分了解意大利消费者法,以强化对当地法规执行层面的认知[2] 监管机构评价与行业背景 - AGCM在公告中特别肯定公司计划通过技术修复降低幻觉率的举措,评价其“值得称道”[2] - AGCM在公告中提及,公司称AI模型的幻觉现象是一项无法完全消除的全球性挑战[5] - 意大利监管机构近几个月已针对反竞争行为和数据隐私违规问题,对Meta、谷歌等美国科技巨头开出罚单[1] 技术挑战与市场影响 - AI“幻觉”问题是全球生成式AI行业的共性难题,OpenAI研究人员指出现有训练方式会促使模型倾向于猜测而非承认不确定性[5] - 尽管用户界面和服务条款的修改相对容易,但技术层面的改进更难保证,目前RAG、语义熵检测等技术手段均存在局限性,无法彻底根治“幻觉”问题[5] - 公司积极推进整改的做法,为其未来拓展欧洲市场铺垫了良好基础[5] 公司市场地位与行业认可 - Quest Mobile 2025年12月数据显示,公司周活用户达8000万以上,位列国内AI应用第二[6] - 据OpenRouter与a16z联合发布的报告,在2024年11月至2025年11月期间,公司以14.37万亿Token的累计调用量,稳居全球开源大模型榜首[6] - 英伟达CEO黄仁勋在2025年1月5日的CES上表示,去年公司DeepSeek R1的推出向世人展示了高级推理可以开源,改变了整个行业的发展轨迹[6] 潜在的欧盟监管风险 - 目前一个悬而未决的问题是公司的服务是否受欧盟《数字服务法案》管辖,一旦被纳入将面临更严格的审查[6] - 意大利通信管理局认为公司应归类为受DSA约束的搜索引擎,但AGCM对此持怀疑态度,表示需进一步澄清[6]
光模块CPO龙头反弹,创业板人工智能再创新高!DeepSeek旗舰系统R2春节问世,AI应用大年启动?
新浪财经· 2026-01-07 19:42
市场行情表现 - 2026年1月7日,创业板人工智能指数再创新高,算力硬件与AI应用板块表现活跃 [1][5] - 个股方面,致尚科技领涨超7%,长芯博创、润泽科技涨超5%,蓝色光标、光环新网、光库科技、协创数据等多股涨超3% [1][5] - 光模块CPO龙头股迎来反弹,中际旭创涨超2%,新易盛、天孚通信均收涨 [1][5] - 创业板人工智能ETF(159363)场内价格收涨0.79%,创上市新高,单日成交额超6亿元,近两日资金累计加仓1.7亿元 [1][5] 指数与产品表现 - 2025年1月1日至2026年1月7日,创业板人工智能指数累计涨幅超114%,大幅跑赢其他AI主题指数 [3][7] - 同期,人工智能指数上涨88.14%,CS人工智指数上涨74.24%,科创AI指数上涨60.24% [3][7] - 创业板人工智能指数2021至2025年的年度涨跌幅分别为:17.57%、-34.52%、47.83%、38.44%、106.35% [4][7] - 创业板人工智能ETF(159363)是全市场首只跟踪该指数的ETF,其标的指数重点布局光模块龙头“易中天”,逾七成仓位布局算力,超两成仓位布局AI应用 [4][8] AI应用催化因素 - DeepSeek下一代旗舰系统R2预计将在2026年2月春节前后问世 [3][7] - Meta斥资数十亿收购Manus,此举被解读为强化AI能力并加速技术整合至消费级与企业级产品,将推动AI应用商业化落地提速 [3][7] - 银河证券认为,2026年将成为AI应用大年,建议持续关注AI应用投资机会 [3][7] 算力硬件前景 - 东吴证券展望2026年,海外算力链将保持景气度向上,光互联核心受益于海外与国内算力需求共振 [3][7] - 海外方面,北美云服务商资本开支保持高位,新一代算力芯片即将商用,支撑光互联需求 [3][7] - 国内方面,互联网企业持续投入算力建设,采用光互联方案的国产算力超节点渗透率提升,将进一步释放需求 [3][7]
新年首炸!DeepSeek提出mHC架构破解大模型训练难题
搜狐财经· 2026-01-07 17:13
文章核心观点 - DeepSeek在新年第一天发布了一篇关于mHC新架构的论文 该架构旨在解决大规模模型训练中的稳定性问题 同时保持性能提升的优势 论文在AI技术圈引发了讨论[1] - mHC架构通过引入智能调度系统等设计 平衡了性能、稳定性和成本三大核心要素 为大模型架构演进提供了新思路 其务实的技术创新对行业具有重要价值[29] 大模型训练的核心痛点与现有方案局限 - 大模型训练面临信息传输拥堵的挑战 早期单通道残差连接(传送带)在模型规模增大后效率不足[3] - 字节跳动团队此前提出的超连接方案将单通道改为多通道 提升了信息传输效率和模型性能 但缺乏统一调度规则 导致信息在传输中出现不受控的放大或压制[5] - 超连接方案的不稳定性直接导致训练过程中梯度爆炸 使模型训练中途崩溃[7] - 有头部AI企业尝试用类似方案训练千亿级模型时 训练在进行到一万多步时频繁中断 损失值突然飙升 造成大量算力和资金投入的浪费[9] mHC架构的核心设计思路 - mHC架构的核心思路不是废除多通道 而是为多通道增加一套智能调度系统[11] - 该系统通过Sinkhorn-Knopp算法实现 将连接矩阵约束在双拟随机矩阵的流形上 该矩阵行和列之和均为1且为非负数 能保证信息传播时能量守恒 避免突然放大或缩小[13] - 架构还对输入输出映射施加了非负约束 以避免正负系数相互抵消导致有用信号丢失[15] - mHC是在超连接拓宽通道思路基础上的优化 属于改良式创新 更容易落地[15] 基础设施与训练优化 - 为控制训练开销 DeepSeek进行了基础设施优化 将多个计算步骤融合成一个算子 减少了内存读写次数[16] - 同时采用重计算策略 在前向传播时丢弃中间数据 在反向传播时重新计算 从而大幅降低内存占用[18] - 优化效果显著 在扩展倍率为4的情况下 训练时间只略有增加 却换来了稳定性的大幅提升[18] 实验验证与性能表现 - DeepSeek使用不同规模模型进行测试 重点验证了270亿参数模型的表现[21] - mHC彻底解决了超连接的训练不稳定问题 其最终损失值低于传统基线模型[22] - 在下游任务测试中 mHC的表现全面超越基线模型 在推理相关任务上 比超连接方案还有几个百分点的提升[22] - 从30亿到270亿参数的规模扩展实验中 mHC的性能优势保持良好 即使训练数据量不断增加 优势也未明显衰减 证明其在大规模模型上同样具备实用价值[24] 对行业的影响与意义 - mHC的意义在于指明了一个行业方向 即大模型竞争不再仅仅是堆参数和算力 架构的精细化设计同样重要[26] - 此前 许多中小企业因训练不稳定和成本过高而不敢涉足大规模模型领域 mHC的出现有望降低这些企业的入局门槛[26] - 这种务实的技术创新比噱头式突破更有价值 未来随着更多企业跟进和优化 可能催生出更多高效稳定的大模型架构 推动AI技术更容易落地[29]
老黄开年演讲「含华量」爆表,直接拿DeepSeek、Kimi验货下一代芯片
36氪· 2026-01-07 09:35
行业趋势:中国AI模型在全球舞台崛起 - 在2026年CES英伟达主旨演讲中,中国大模型Kimi K2、DeepSeek V3.2及Qwen位列全球开源大模型前列,性能逼近闭源模型,标志着中国AI的高光时刻[1] - 在权威评测中,中国开源模型表现强势,例如在Nathan Lambert与Florian Brand发布的「2025年度开源模型回顾」中,DeepSeek、Qwen和Kimi包揽Top 3[26] - 中国AI模型的国际影响力与落地应用加速,例如OpenAI前CTO的新产品Thinker官宣接入Kimi K2 Thinking,其技术实力正被全球核心圈层接纳[24] 技术架构:MoE(混合专家)成为主流 - 自2025年以来,超过60%的开源AI采用了MoE架构,该架构自2023年初推动LLM智能水平提升近70倍[16] - 在权威机构Artificial Analysis排行榜上,最智能的TOP 10开源模型全部采用MoE结构[16] - DeepSeek-R1、Qwen3和Kimi K2代表MoE路线下顶级规模的尝试,仅需激活少量参数,大幅减少计算量和HBM显存带宽压力[2] 性能突破:推理性能与成本实现指数级优化 - 在英伟达下一代Rubin架构暴力加成下,Kimi K2 Thinking推理吞吐量直接飙升10倍,token成本暴降到原来的1/10[4] - 在SemiAnalysis InferenceMax测试中,DeepSeek-R1将每百万token的成本降低10倍以上,Mistral Large 3同样获得十倍加速[12] - 实测显示,Kimi K2 Thinking在GB200 NVL72上性能可以暴增10倍[9],这种降本增效宣告AI推理即将进入真正的「平价时代」[6] 模型能力:中国模型展现独特技术优势 - Kimi K2 Thinking在Anthropic的严苛行为基准测试中,凭借极低的被误导率,摘得「表现最佳的非美国模型」桂冠[21] - Kimi K2 Thinking支持「数百步稳定工具调用」,并通过开源模型实现「交错思考」,标志着模型逻辑链条的进一步成熟[34] - 中国模型正从追求基准测试高分转向提升实际体验,例如Qwen从「冲榜」闻名进化为优质模型,K2 Thinking原生采用4bit精度以更高效支持长序列RL扩展[32] 竞争格局:开源模型对闭源巨头形成压力 - 中国实验室正以惊人速度发布模型,大幅压缩了最强闭源模型与开源之间的代差,「更早发布」成为一种巨大的先发优势[31] - 开源模型的激增让美国闭源实验室倍感压力,仅靠基准测试分数已无法解释「为什么付费更好」[35] - 中国模型在全球市场的「心智份额」正切走越来越大的一块蛋糕,DeepSeek、Qwen和Kimi已成为东方技术实力的代表品牌[33][35] 算力需求:模型规模与计算需求持续暴涨 - 在计算需求暴涨的背景下,480B的Qwen3和1TB的Kimi K2成为代表性模型,验证了参数规模每年以十倍量级scaling[6] - 如此巨大规模的MoE模型单GPU无法部署,而英伟达GB200 NVL72能破解这一难题[16] - DeepSeek R1和Kimi K2 Thinking的实测结果,证明了英伟达Blackwell超算性能的强大[19]
雷军回应小字营销:行业陋习,但我们改/DeepSeek开年「王炸」,梁文锋署名论文发布/马斯克立新年Flag:大规模量产脑机接口
搜狐财经· 2026-01-06 21:46
小米公司动态 - 小米创始人雷军在2026年首场直播中回应“小字营销”争议,承认其为行业陋习,并宣布今后产品注释将统一使用更清晰的字体展示[3][4] - 雷军透露小米汽车在2025年交付量突破41万辆,其中小米YU7车型截至10月已连续四个月成为中大型SUV销量第一[5][7] - 针对“小米17 Ultra徕卡版变焦环造假”风波,小米公司官方发言人账号发布辟谣澄清,称相关说法与事实严重不符[7] 汽车行业 - 宝马中国自2026年1月1日起对旗下31款主力车型建议零售价进行系统性调整,旗舰纯电车型i7 M70L价格由189.9万元降至159.8万元,降幅约16%[11][12] - 宝马iX1 eDrive25L官方指导价从29.99万元下调至22.8万元,降幅达24%,燃油车型宝马X1 xDrive25Li从34.99万元降至28.88万元,降幅为18%[12] - 商务部数据显示,2025年汽车以旧换新超1150万辆,以旧换新相关商品销售额超2.6万亿元,惠及超3.6亿人次[38] 消费电子与半导体 - 消息称采用2nm制程的苹果A20芯片成本或高达280美元,相比A19芯片贵了80%[13][14] - iQOO Z11 Turbo将搭载第五代骁龙8处理器,配备2亿像素主摄和7600mAh±电池[34] - 真我Neo8预计本月发布,搭载骁龙8 Gen5处理器和8000mAh电池,采用金属中框与玻璃后盖[37] 人工智能与硬件 - OpenAI与前苹果首席设计官Jony Ive合作的AI硬件项目内部代号“Gumdrop”,供应链评估同步推进三个项目,包括笔形态和便携音频设备[9] - OpenAI正在改进其AI音频模型,新模型预计在2026年一季度推出,回应将更自然并能够与用户同步说话[10] - DeepSeek发布新论文提出名为mHC的新架构,旨在解决传统超连接在大规模模型训练中的不稳定性问题,创始人梁文锋为论文作者之一[21][22][23] 科技行业合作与趋势 - 英伟达CEO黄仁勋与联想董事长杨元庆对谈,披露双方正联合打造基于RTX Pro的联想企业级AI系统,英伟达将提供最先进的芯片[25][26] - 微软CEO萨提亚・纳德拉断言2026年是AI发展的关键分水岭,行业正从初步探索迈向“广泛扩散”的新阶段[27][29] - 纳德拉提出2026年AI发展的三大核心支柱:重塑人机关系、工程范式转移、以及社会许可与资源分配[29][30] 影视娱乐与流媒体 - 2026年元旦档期票房突破7亿元,《疯狂动物城2》、《阿凡达3》、《匿杀》暂列票房前三名[48] - 《疯狂动物城2》在1月1日以1.04亿元票房获得2026年元旦票房冠军,其中国内地放映已延长至2026年1月25日[48][49] - Netflix计划在完成对华纳兄弟的收购后,将华纳兄弟电影的院线独占放映期缩短至17天,引发传统影院担忧[43][45] 其他行业动态 - 索尼有望在2026年推出多款相机新品,包括FX3 II、A7R6和黑卡8,其中FX3 II可能采用新的传感器或全局快门传感器[23] - 可穿戴品牌Pebble发布Pebble Round 2圆形智能手表,采用1.3英寸彩色电子墨水全面屏,机身厚度8.1mm,支持约2周续航[32] - 2026年1月1日全社会跨区域人员流动量达20747.5万人次,同比增长20.3%,其中铁路客运量1856万人次,同比增长67.9%[37]
意大利结束对DeepSeek调查,涉及幻觉风险信息披露
21世纪经济报道· 2026-01-06 20:15
持有和运营DeepSeek的两家公司——杭州深度求索人工智能基础技术研究有限公司、北京深度求索人工智能基础技术研究有限公司——做出 的承诺包含一系列改进关于幻觉风险信息披露的措施。 "幻觉"情况是指AI模型根据用户给定的输入,生成包含不准确、误导性或捏造信息的输出。 意大利在DeepSeek承诺就人工智能"幻觉"风险向用户发出警告后,结束了对其调查。 当地时间1月5日,意大利反垄断机构AGCM发布每周例行公报,表示已结束针对DeepSeek的调查,并同意以具有约束力的承诺作为结案条 件。2025年6月,AGCM因DeepSeek涉嫌未警告用户其可能会产生虚假讯息,而启动了该项调查。 21世纪经济报道记者陈归辞 AGCM在公告中称,DeepSeek做出的承诺,使有关幻觉风险的信息披露更容易、透明、易懂和及时。 自2025年年初面世以来,DeepSeek凭借其模型能力、极高的性价比和开源策略,迅速在全球范围内爆火。据Quest Mobile数据,2025年第三季 度,DeepSeek中国月活为1.45亿,位列国内AI应用第二。据OpenRouter与a16z联合发布的《人工智能发展现状:基于OpenRouter平 ...
黄仁勋又夸了DeepSeek,新一代“算力巨兽”正在量产,性能暴增5倍!
凤凰网· 2026-01-06 10:19
行业范式迁移 - 计算行业正同时经历两大平台迁移:应用转向以AI为核心构建,以及软件开发运行范式从“编程”转向“训练”、从CPU转向GPU、从执行预编译代码转向实时生成内容 [2] - 驱动变革的资金来自全球研发预算向AI的转移以及海量风险投资,过去十年价值约10万亿美元的计算产业正在被现代化改造 [4] - 开源模型已触及技术前沿,虽然与最前沿专有模型仍有约6个月差距,但其快速迭代正激活全球创新,成为AI迅速扩散的主引擎 [4] AI能力演进:从数字智能到物理AI - AI能力演进的下一个关键阶段是从大语言模型的“记忆与生成”迈向智能体的“推理与行动”,智能体能够进行思维链推理、主动规划步骤并调用工具,以解决新问题 [5] - 智能体架构本质上是多模型、多云、混合式的,能够根据任务动态选择最佳模型,并结合企业私有定制化模型 [7] - 真正的挑战在于让AI理解物理世界,这引出了“物理AI”的核心主题,需要构建由训练计算机、边缘推理计算机和高精度物理模拟计算机组成的完整系统 [7] 开源世界模型与自动驾驶系统 - NVIDIA Cosmos是一个开源的、“前沿级”的世界基础模型,基于对互联网规模视频、真实驾驶数据和3D模拟的学习,建立起对世界运作方式的统一表征 [8] - Cosmos能够根据单张图片生成逼真视频,或从3D场景描述中生成物理合理的运动轨迹,并能在交互式闭环模拟中响应AI动作及进行因果推理,其核心价值在于“将计算转化为数据”,以解决现实世界数据收集的成本与效率瓶颈 [8] - 基于Cosmos生成的海量合成与真实数据,公司训练并开源了首个端到端自动驾驶系统NVIDIA AlphaMio,这是世界上第一个具备思考推理能力的自动驾驶汽车AI,具备行动可解释性,首款搭载该系统的梅赛德斯-奔驰汽车将于2026年第一季度上路 [8] 新一代AI芯片架构Vera Rubin - 面对AI模型规模每年增长10倍、计算需求爆炸的挑战,公司揭示了下一代AI芯片架构NVIDIA Vera Rubin [9] - Vera Rubin架构包含Vera CPU与Rubin GPU,其中新一代CPU性能功耗比提升2倍,GPU的AI浮点性能达到Blackwell架构的5倍 [11] - 架构包含革命性的NVFP4张量核心,能动态自适应调整精度以优化Transformer模型吞吐量 [11] - 这是一次从芯片到系统的全栈革新,包括集成硅光子的Spectrum-X以太网交换机(512个200Gb/s端口)、为AI工作负载重塑的BlueField-4 DPU,以及彻底简化的DGX机箱设计 [11] Vera Rubin的系统性能与生产状态 - Vera Rubin的性能飞跃秘诀在于“极端协同设计”,对公司内部所有芯片进行彻底重新设计,使其作为一个整体系统工作,一次性展示了6款革命性芯片 [12] - 一个包含1152个GPU的Vera Rubin POD机柜重达约2吨,内部含2英里长的铜缆,散热仅需45摄氏度温水,能效显著 [13] - 该架构将使训练一个10万亿参数大模型所需的系统数量减少至Blackwell的四分之一,同时推理成本降低一个数量级 [13] - Vera Rubin芯片架构目前正在全力生产中 [13] 产业生态与未来应用 - 公司与西门子达成重磅合作,将物理AI模型与Omniverse数字孪生平台深度集成到西门子的工业软件与自动化系统中,共同推动从芯片设计到生产运维的全面数字化革命 [13] - 自动驾驶汽车仅是物理AI的第一个主流市场,相同的技术栈正催生机器人革命的到来,从机械臂到人形机器人,机器人领域的“ChatGPT时刻”即将到来 [14] - 公司通过开源关键模型与发布颠覆性硬件,正强势定义“物理AI”时代的技术标准与基础设施,战略核心是以全栈式的开放生态占据从数据中心到机器人指尖的每一个计算节点 [14]
黄仁勋新年第一场演讲,提了DeepSeek
第一财经· 2026-01-06 07:45
行业核心观点 - 英伟达CEO黄仁勋在发布会上总结AI行业进展,认为开源模型的崛起已成为全球创新的催化剂 [1] - 其中Deepseek R1的出现意外推动了整个行业的变革 [1] - 目前全球涌现出多个开源模型,其性能越来越逼近领先的前沿大模型 [1] 开源模型发展现状 - 全球涌现出多个开源模型,性能正逼近前沿大模型 [1] - 发布会上展示的开源模型图片中,包含了三家中国开源模型,分别是Kimi K2、Qwen、DeepseekV3.2 [1]
黄仁勋新年第一场演讲 提了DeepSeek
第一财经· 2026-01-06 07:17
行业核心观点 - 英伟达CEO黄仁勋在发布会上总结AI行业进展 指出开源模型的崛起是全球创新的催化剂 [1] - 其中Deepseek R1的出现意外推动了整个行业的变革 [1] 开源模型发展现状 - 全球涌现出多个开源模型 其性能越来越逼近领先的前沿大模型 [1] - 发布会上展示的开源模型包括三家中国模型 分别是Kimi K2、Qwen、DeepseekV3.2 [1]
软件ETF(159852)涨超3%! DeepSeek近日发布论文,开启架构新篇章!
金融界· 2026-01-05 14:39
市场行情表现 - 2025年1月5日,上证指数上涨1.32%,再度站上4000点 [1] - 中证软件指数表现强劲,上涨3.41% [1] - 个股方面,合合信息涨幅超过7%,科大讯飞涨幅超过6%,指南针、同花顺等涨幅超过3% [1] - 跟踪中证软件服务指数的软件ETF(159852)上涨3.36% [1] 行业与产品动态 - DeepSeek发布论文,阐述了一种名为“流形约束超连接”(mHC)的更高效人工智能开发框架 [1] - 该框架由创始人梁文锋参与撰写,旨在提升AI系统的可扩展性,同时降低训练先进AI系统所需的算力和能源需求 [1] - DeepSeek下一代旗舰系统R2预计将在2025年2月春节前后问世 [1] 相关金融产品信息 - 软件ETF(159852)跟踪中证软件服务指数 [1] - 该ETF前十大权重股包括科大讯飞、金山办公、同花顺、指南针、恒生电子、拓维信息、润和软件、三六零、软通动力、深信服 [1] - 前十大权重股合计权重超过60.89% [1] - 软件ETF(159852)当前年度管理费率为0.50%,年度托管费率为0.10% [1] - 没有股票账户的投资者可通过联接基金(012619.OF,012620.OF,021861.OF)布局该板块投资机遇 [1]