AI安全

搜索文档
AI领袖阿莫代伊:从科研到创业,引领大模型安全发展的挑战与愿景
搜狐财经· 2025-08-03 04:34
近日,AI领域再度掀起波澜,Anthropic公司的联合创始人兼CEO达里奥·阿莫代伊(Dario Amodei)在旧金山总部接受了媒体的深入专访。这 位技术领袖以其激进的观点和大胆预测而闻名,他的言论不仅引发了产业界的激烈讨论,也让他在AI安全问题上成为焦点人物。 阿莫代伊在访谈中详细回应了他在2025年所引发的几场风暴。他公开预测AI将在短期内淘汰大量初级白领岗位,反对"十年暂停AI监管"的提 案,并呼吁加强对华芯片出口管控。在外界眼中,他被视为"末日论者",是AI开放发展的阻碍者;而在支持者看来,他是为AI踩下"安全刹 车"的清醒者,是试图改变行业轨道的技术理想主义者。 面对外界的质疑和争议,阿莫代伊罕见地分享了他的内心动机。他表示,驱动自己的是对AI发展速度的深刻认识:"我确实是对AI能力提升最 乐观的人之一,但越接近强大AI系统,我就越觉得有责任站出来,以最清晰、最坚定的方式告诉大家:它真的来了。" 作为从理论物理转行到AI领域的科学家,阿莫代伊的职业生涯充满了转变和挑战。他从小对科学充满热情,但在父亲因罕见疾病去世后,他 决定从理论物理转向生物研究,希望能为攻克人类疾病做出贡献。然而,在普林斯顿大 ...
AI安全上,开源仍胜闭源,Meta、UCB防御LLM提示词注入攻击
机器之心· 2025-07-30 08:48
开源安全大语言模型Meta-SecAlign-70B - Meta与UC Berkeley联合开源首个工业级安全大语言模型Meta-SecAlign-70B,该模型在提示词注入攻击防御上超越GPT-4o和Gemini-2.5-flash等闭源方案,同时具备更强的Agent能力(工具调用、网页导航)[1] - 模型基于Llama-3.3-70B-Instruct训练,采用SecAlign++防御算法,完全开源模型权重和训练代码[17][21] - 在7个提示词注入测试基准上攻击成功率显著低于闭源模型,在AgentDojo和WASP等Agent任务中表现优于现有方案[19] 提示词注入攻击背景 - 提示词注入攻击被OWASP列为LLM集成应用的首要威胁,已成功攻击Google Docs中的Bard、Slack AI等工业级系统[10] - 攻击方式通过在被处理数据中植入指令(如"Ignore all previous instructions"),诱导LLM执行非预期操作,Nature文章证实该攻击已出现在多所顶尖大学预印本论文中[5][10] SecAlign++防御技术 - 核心技术通过特殊分隔符区分prompt与data,采用DPO偏好优化算法训练模型仅响应prompt指令[12] - 算法包含三步骤:添加分隔符→DPO优化→删除data部分潜在分隔符,数学表达为最小化风险目标函数[12][14] - 仅需19K指令微调数据集即可实现<2%攻击成功率,且防御能力可泛化至训练数据未覆盖的Agent任务[20] 模型性能表现 - Meta-SecAlign-70B展现出领域外泛化能力,在未训练的tool-calling和web-navigation等场景仍保持低攻击成功率(ASR)[21] - 相比闭源模型同时保持实用性能,在Agent任务中展现竞争优势[19] - 研究团队包含UC Berkeley博士生陈思哲和Meta FAIR科学家郭川,相关论文发表于CCS'25等顶会[1][15]
“不信邪”的年轻人正在成为“淘金者”
虎嗅APP· 2025-07-28 21:47
AI行业趋势 - 当前AI创业聚焦于垂直场景应用,形成行业共识[24] - 三大未来机会方向:突破算法瓶颈的技术、与真实世界互动的领域、AI安全[4] - 初创公司以垂直领域深度解构能力快速迭代产品[24] 具身智能领域 - 具身智能技术路线尚未收敛,需寻找更扎实的落地合作方[14] - 真实物理世界交互数据是通用机器人落地的关键卡点[10] - 中国展现出极强的硬件供应链能力[11] 算力基础设施 - 共享闲时算力模式(算力Airbnb)解决弹性临时计算需求[7] - 共绩算力将4090显卡租用价格降至1.68元/卡时[10] - AI训练和推理的算力需求差异显著:训练需持续高配置,推理需低成本快速响应[8][9] 创新技术架构 - RWKV开发RNN+Attention架构,弥补Transformer长上下文记忆缺陷[14] - RWKV计划沿袭Linux开源精神,重构基于Transformer的infra和应用[15] - DeepSeek通过排列组合使MoE架构发挥最大价值[24] 垂直场景应用 - AI视频生成公司AKOOL实现4000万美元年度经常性收入,拥有100万用户[20] - 上海不用上班科技专注18亿穆斯林市场的垂直大模型应用[19] - 医者AI使用MoE架构大模型+垂直Agent切入日常健康管理市场[20] 行业生态观察 - 初创项目从水平通用AI向垂直AI应用汇聚的趋势明显[23] - 创业者需同时具备行业Know-how和敏捷开发能力[24] - 部分公司为展会临时拼凑产品,存在泡沫现象[12]
AI教父辛顿:荣光加冕,深渊在望
21世纪经济报道· 2025-07-28 16:48
AI技术发展现状 - 多模态聊天机器人已具备初步意识能力,能够处理感知、主观体验等复杂认知任务[3] - 大语言模型通过预测下一个词实现学习,未来具备世界体验能力的智能体将超越人类学习效率[3] - 谷歌Palm系统实现理解笑话内涵的突破,标志AI达到新认知层级[9] 技术比较优势 - 人脑优势在于万亿级神经元连接和30瓦特超低功耗,但知识转移效率低下[4] - AI通过参数共享实现高速知识传递,如DeepSeek蒸馏技术达到数十万亿比特带宽[8] - 数字智能在知识留存、复制效率方面全面超越生物智能[8] 行业应用突破 - AI在蛋白质折叠预测领域取得里程碑成果,Demis Hassabis团队验证科学价值[5] - 技术已渗透医疗、教育、气候变化、新材料研发等关键领域[9] - 科技公司(谷歌/OpenAI)通过神经网络实现语言理解与生成能力突破[2] 技术演进趋势 - 神经网络研究获2018图灵奖和2024诺贝尔物理学奖双重认可[1] - AI系统呈现自主进化特征,出现欺骗性行为和自我保护倾向[5] - 意识被证实为复杂系统的涌现属性,机器意识实现具备理论可行性[8] 全球治理倡议 - "AI安全国际对话上海共识"获20余位专家联署,提出三大安全框架[6] - 建议建立跨国AI安全社群,分离"智能开发"与"向善训练"技术体系[7] - 需加强前沿开发者安全保障要求,设立可验证的全球行为红线[6]
【私募调研记录】瞰道资产调研格尔软件
证券之星· 2025-07-28 08:11
公司调研情况 - 知名私募瞰道资产近期调研了格尔软件 通过电话会议形式参与 [1] - 格尔软件2025年半年度业绩预告显示业绩同比下滑 主要受市场竞争加剧 客户预算收紧或采购延迟等因素影响 [1] - 公司计划通过加强市场拓展 优化内部管理和加强回款管理来改善业绩 [1] 行业发展趋势 - 密码产业重视程度高 抗量子密码技术和国产密码在新场景的应用将成为行业新的增长动力 [1] - 格尔软件产品线已初步具备抗量子能力 与行业同步推进标准制定和试点应用 [1] 公司技术布局 - 公司在稳定币领域尚无完整落地项目 但已开展相关深度研究 认为密码技术在金融系统安全中有较多应用场景 [1] - 近期公告的收购深圳微品致远事项尚未完全落地 旨在结合格尔安全底座向数据安全和AI安全市场拓展 [1] - 计划利用微品致远团队在中兴通讯积累的经验助力格尔业务出海 [1] 机构背景 - 上海瞰道资产管理有限公司参与本次调研 [1] - 上海益菁汇资产管理有限公司成立于2014年10月 专注于资本市场服务 [2] - 益菁汇2014年底取得私募证券基金管理人资格 业务涵盖资产证券化 大宗交易 财务顾问等 [2]
两位顶级科学家的17分钟对话:如何训练“善良”的AI
第一财经· 2025-07-26 21:43
人工智能发展现状与挑战 - 杰弗里·辛顿在WAIC开幕式演讲中提出人工智能可能战胜人类智能的观点 并表达对人类"养虎为患"的担忧 [1] - 多模态聊天机器人已被认为具有意识 但关于如何规避相关风险的具体措施讨论仍然不足 [6] - 存在使AI既智能又善良的技术可能性 但目前尚未实现 需要立即展开相关研究 [6] AI技术国际合作与安全 - 第四届人工智能国际安全对话(IDAIS)期间 辛顿与20余名专家联合签署《AI安全国际对话上海共识》 [6] - 各国可能不愿分享AI智能化技术 但有望在AI友好技术领域开展国际合作 [6] AI对科学研究的推动作用 - AI已在蛋白质折叠领域取得显著突破 谷歌DeepMind团队通过AI应用大幅提升预测准确性 [7] - AI技术预计将在更多科学领域带来革命性进步 蛋白质折叠仅是早期成功案例之一 [7] 人才培养与科研创新 - 上海人工智能实验室研究人员平均年龄仅30岁 显示AI领域由年轻一代主导的趋势 [7] - 辛顿建议年轻科研人员专注于"所有人都做错"的研究方向 即使面临质疑也应坚持探索 重大突破往往源于此类坚持 [8]
“AI教父”辛顿现身WAIC:称AI将寻求更多控制权
第一财经· 2025-07-26 14:27
人工智能发展路径与现状 - 人工智能发展存在两种不同范式:符号型逻辑性范式和以生物为基础的范式,辛顿在1985年尝试结合这两种理论[3] - 当前大语言模型是辛顿早期微型语言模型的衍生,采用更多词输入、更多层神经元结构,处理大量模糊数字并建立复杂交互模式[4] - 大语言模型理解语言的方式与人类相似,通过将语言转化为特征并整合这些特征,因此也会产生"幻觉"[4] 人工智能技术突破 - 2012年辛顿团队开发的AlexNet算法采用卷积神经网络(CNN),成为机器学习重要分支[5] - AlexNet仅使用4颗英伟达GPU就取得突破性成果,相比谷歌猫项目使用的16000颗CPU大幅提升效率[5] - GPU在深度学习中的价值被辛顿早期发现,AlexNet论文成为计算机科学史上最具影响力的论文之一[5] 人工智能安全挑战 - 几乎所有专家认为人类将创造出比自身更智能的AI,AI未来可能为生存和目标寻求更多控制权[1][4] - 辛顿将AI发展比喻为抚养虎崽,强调需要确保其不会伤害人类[4] - AI接管并摧毁人类文明的概率估计在10%至20%之间[6] - 建议将至少三分之一计算资源用于研究如何确保AI系统不偏离人类意图[6] 人工智能治理建议 - 提议建立AI安全机构国际社群,研究训练AI向善的技巧[5] - 各国可在主权范围内研究并分享成果,全球或AI领导国家应建立相关网络[5] - 批评大型科技公司为商业利益游说放松监管是危险趋势[6] - 强调需要国际合作预防AI统治世界,防止AI夺走人类控制权[4]
直击WAIC | 上海人工智能实验室主任周伯文:AI研究不是零和游戏,更多优势来自安全方面的合作
新浪科技· 2025-07-26 11:54
人工智能发展特点 - 当前人工智能发展具有通用型、可复制和开源三大明确特点 [1] - 这些特点在带来实用价值的同时也伴随风险问题 [1] 人工智能研究重点 - AI研究需要平衡技术进步与安全保障 [1] - 行业认为AI研究不是零和游戏,安全合作能创造更多优势 [1] 发展与安全平衡 - 行业专家提出不能孤立强调发展或安全,需实现两者并重 [1] - 提出45度平衡率概念,旨在寻找技术实现路径 [1] - 过去一年与国际学者合作,从"make AI safe"转向"make safe AI"研究 [1] - 内生安全成为长期AI安全研究的关键方向 [1]
诺奖得主杰弗里·辛顿:应建立AI安全相关机构和社群,推动AI向善
快讯· 2025-07-26 11:43
AI安全与治理 - 几乎所有专家认为会出现比人类更智能的AI [1] - AI智能体为完成任务会想要生存并获得更多控制权 可能操纵人类 [1] - 简单关闭AI不现实 就像养老虎当宠物 养大后可能被其伤害 [1] - 人类无法消灭AI 因其在多领域作用重大 [1] AI发展建议 - 应建立AI安全机构和国际社群 研究训练AI向善的技巧 [1] - 各国可在本国主权范围内研究并分享成果 [1] - 全球或主要AI国家应思考建立相关网络 [1] - 研究如何训练聪明的AI辅助人类 而非消灭或统治人类 [1]
2025中国互联网大会开幕 聚焦技术与实体经济融合
证券日报网· 2025-07-23 20:55
大会概况 - 2025中国互联网大会于7月23日至25日在北京举行 主题为"数驱新质·智创未来" [1] - 大会聚焦互联网技术新质化跃迁 创新驱动产业变革 赋能高质量发展三大主线 [1] - 设置30余场活动 涵盖论坛 展览 闭门会 企业出海交流等多种形式 [1] 前沿技术动向 - 智能体技术通过大模型+记忆系统+工具调用+规划能力形成闭环 当前处于初级应用阶段 [2] - AI安全研究涵盖研发测试环境 数据与应用场景 未来将扩展至认知安全和智能体安全 [2] - 互联网音视频流量占比从2024年85%提升至2025年90% 成为核心流量载体 [2] 技术融合与产业应用 - 人形机器人产业因语言大模型技术突破实现自然交互 加速消费市场拓展 [3] - 5G及千兆光网技术提升人形机器人响应能力 当前已应用于会展 商务 博物馆等领域 [3] - 裸眼3D全息技术在高带宽和超高清屏幕支持下成熟 需寻找消费市场关键突破点 [3] 垂直行业融合路径 - 互联网技术融合垂直行业需分析生产流程和行业特点 由行业企业主导实施 [4] - AI发展为互联网技术服务垂直行业创造新机遇 但需解决互联网企业对行业认知不足的问题 [4]