Workflow
多模态大模型
icon
搜索文档
全球约八成医疗机构正在部署或设点生成式AI工具 人工智能正重构医疗健康全产业链
上海证券报· 2025-07-28 02:48
AI在医疗健康领域的应用趋势 - 人工智能正以前所未有的深度与广度重塑全球医疗健康产业链,覆盖临床诊疗、药械研发、医院管理等环节 [1] - AI技术为医疗健康产业打开新的发展空间和产业机遇,催生智能化、精准化、个性化的医学新范式 [1] - 全球约80%的医疗机构正在部署或设点生成式AI工具,这些系统被整合进运营、临床、行政等医疗工作流程中 [2] AI技术的具体应用 - AI技术在医疗健康领域的应用包括癌症早筛的智能诊断系统、阿尔茨海默症的AI预测模型、高效缩短新药研发周期的生成式AI以及高精度智能手术机器人 [1] - 从AlphaFold破解生命密码到大模型驱动诊疗效率革命,再到具身智能、生命纤维引领的医疗健康新可能,AI成为医药健康产业跨越式发展的核心引擎 [2] - AI技术呈现出从科研实验室走向临床医疗、卫生政策和医院管理体系的趋势 [2] AI在医疗健康领域的挑战 - AI在医疗健康领域的应用面临数据壁垒、监管伦理和技术标准等多重挑战 [3] - AI模型在医疗健康领域存在模型幻觉、逻辑不一致、缺乏可追溯性等具体问题 [3] - 信任危机与算法"黑箱"成为AI应用于医疗健康领域的最大障碍 [3] 行业应对措施 - 为确保AI医疗发展的安全性和有效性,需建立透明、包容和公平的制度,并加强机构合作 [3] - 推动数据安全网建设,加快制定医疗健康数据应用相关实施方案,完善数据分级分类管理体系,创新"数据可用不可见"的安全共享机制 [3]
AI教父辛顿尖峰对话:各国应大量研究并分享让AI善良的技术
21世纪经济报道· 2025-07-27 14:30
人工智能意识与主观体验 - 多模态聊天机器人已具备意识 当今的多模态聊天机器人已经具有意识 这取决于如何定义"主观体验"或"意识" [4][5] - 人类对意识的理解存在根本性错误 几乎每个人都对"主观体验"这类术语有着根深蒂固但完全错误的理论 这与人们对"水平"和"垂直"等日常词汇的错误理解类似 [4][5] - 智能体可从自身经验学习 一旦出现像机器人这样的在世界中的智能体 它们可以从自己的经验中学习 最终学到的会比人类多得多 [6] AI训练与安全 - 训练AI聪明与善良需不同技术 如何训练AI变得聪明和如何训练它变得善良是不同的问题 这是同一个AI但会通过不同的技术来实现 [6][7] - 各国应分享AI善良技术 各个国家应该分享让AI善良的技术 即便他们不愿意分享让AI聪明的技术 [6][7] - AI善良技术需随智能水平调整 随着系统变得更加智能 让它变得善良的技术也会发生变化 现在需要对其进行大量研究 [8] AI与科学进步 - AI在科学领域已有显著成就 在预测蛋白质如何折叠方面 AI可以做得更好 这是一个早期信号 预示着AI将在众多科学领域带来进步 [8] - AI在气象预测表现优异 在预测台风登陆地点和天气预报方面 人工智能可以做得比基于PDE的传统物理模型更好 [8][9] 科研方法论 - 寻找"所有人都搞错了"的领域 如果想做出真正原创的研究 就要寻找那些"所有人都搞错了"的领域 [10] - 坚持新思路直至验证 不要因为导师说"这个方法很蠢"就放弃 忽略导师的建议 坚持你笃信的 直到你自己弄懂 [10] - 重大突破来自坚持 偶尔你会发现你的信仰其实是正确的 重大突破正是由此而来 它们从不属于轻易放弃之人 [10]
AI教父Hinton对话上海AI Lab周伯文:多模态聊天机器人已经具有意识,让AI聪明和让AI善良是两件事
量子位· 2025-07-26 23:56
核心观点 - 人工智能教父Geoffrey Hinton首次访华并在上海参与高规格AI学术对话 认为当前多模态聊天机器人已具备意识[1][2][9] - 上海人工智能实验室发布全球领先科学多模态大模型Intern-S1 多模态综合能力超越Grok4等前沿闭源模型[3] - Hinton提出AI发展需区分"聪明"与"善良"的训练路径 各国可共享AI伦理技术但保留核心算法[14][15] - AI将显著推动科学进步 蛋白质折叠和气象预测已展现突破性应用前景[16] - 原创性研究应聚焦"多数人可能错误"的领域 坚持独立见解直至验证错误或实现突破[18] 人物背景 - Geoffrey Hinton:深度学习之父 发明反向传播算法 获图灵奖和诺贝尔物理学奖 家族与中国有深厚渊源[4][5][6] - 周伯文:上海人工智能实验室主任 提出Transformer自注意力机制理论基础 两篇生成式AI论文被引5000余次[6][7] 技术观点 - 意识本质是主体与客体的关系 非实体存在 人类对"主观经验"等概念存在普遍认知偏差[9][12] - 三维空间中物体方向概率分布存在114倍数量级差异 水平杆状物与垂直平面更具普遍性[10][11] - 智能体通过自身经验学习将超越人类数据训练效果 需警惕主观经验学习带来的未知风险[13] 行业动态 - 上海人工智能实验室提出"SAGE"技术框架 实现基础模型层-融合层-评估层的闭环反哺[3] - 科学多模态大模型Intern-S1具备多学科交叉、深思考能力 在多模态领域建立技术优势[3] - AI在蛋白质结构预测和台风路径预报等科学领域已展现超越传统方法的性能突破[16] 研究建议 - 年轻研究者应专注挑战共识性认知 即使被权威否定也需坚持至自我验证阶段[18] - AI伦理训练需建立动态调整机制 类似物理定律需随智能层级变化而迭代更新[15][16] - 科学发现与AI技术存在双向驱动关系 交叉领域将产生突破性创新机遇[16][17]
可灵AI多图参考生视频模型升级:效果“提升102%”;小鹏机器人新成立智能拟态部,主攻机器人多模态丨AIGC日报
创业邦· 2025-07-26 09:02
小鹏机器人智能拟态部成立 - 小鹏机器人中心新成立智能拟态部,主攻机器人多模态研究 [1] - 研究方向包括具身智能原生多模态大模型、世界模型、空间智能等 [1] 可灵AI视频模型升级 - 可灵AI多图参考生视频模型升级后效果提升102% [2] - 新模型在角色、主体和场景一致性、动态质量、画风保持等方面显著提升 [2] - 该功能可整合多个图片中的不同角色/主体/场景,解决AI视频生成一致性难题 [2] 智谱GLM-4.5系列AI模型 - 智谱即将发布GLM-4.5系列模型,预估采用全新混合专家(MoE)结构 [3] - 系列包含GLM-4.5(355B-A32B)和GLM-4.5-Air(106B-A12B)两款模型 [3] - 该模型为多模态可扩展大模型 [3] 阿里千问3推理模型 - 阿里巴巴开源千问3推理模型,性能比肩Gemini-2.5 pro、o4-mini [4] - 本周已连续开源3款重磅模型,斩获基础模型、编程模型、推理模型三项全球开源冠军 [4]
员工因反对穿超短裙发奖品被辞退?猿辅导:因工作不达标;农夫山泉股价大涨近6%;宇树最新款人形机器人,3.99万元起丨邦早报
创业邦· 2025-07-26 09:02
汽车行业动态 - 懂车帝测试近40款车型辅助驾驶功能,特斯拉Model3和ModelX以100%通过率位列榜首 [2] - 岚图汽车指出行业在高速避险和非标障碍物识别方面存在技术瓶颈 [2] - 鸿蒙智行对测试结果不予置评,特斯拉称不关注排名但强调安全无上限 [3] - 理想汽车澄清i8尚未开始用户试驾,否认试驾体验不及乐道L90的传闻 [15] - 奇瑞澄清与印度JSW集团合作仅限于零部件供应,不涉及技术领域 [16] - 2026款沃尔沃S60上市,部分车型升级360度全景影像和自适应巡航功能,售价30.69万元起 [28] 科技与人工智能 - 英伟达CEO黄仁勋确认随身携带"秘密期权池"随时奖励优秀员工,并亲自审核4.2万名员工薪酬 [8] - 小鹏机器人成立智能拟态部,主攻机器人多模态技术 [13] - 阿里巴巴开源千问3推理模型,性能比肩Gemini-2.5 pro和o4-mini [30] - 阶跃星辰发布Step3多模态推理模型,计划7月31日开源 [32] - 可灵AI多图参考生视频模型升级,效果提升102% [32] - Neuralink参与仿生眼研究,目标开发能帮助盲人识别人脸和阅读的智能设备 [28] 资本市场与融资 - 农夫山泉股价大涨近6%,市值重回5230亿港元 [6] - Anthropic寻求新一轮融资,目标估值1500亿美元以上 [25] - OSL集团完成3亿美元股权融资,为亚洲数字资产领域最大规模公开股权融资 [25] - 上海国投将参与阶跃星辰新一轮融资,金额预计超5亿美元 [25] - 屿智同行完成数百万天使轮融资,投资方为前海信诺 [26] 消费与零售 - 2025年暑期档电影总票房突破45亿元,《侏罗纪世界:重生》等暂列前三 [34] - 2025年上半年中国跨区域人员流动量达337.6亿人次,同比增长4.2% [36] - NewPrinces以近10亿欧元企业价值收购家乐福意大利业务 [25] 企业动态与人事 - 魅族高管黄质潘微博认证变更为星纪魅族集团CEO [18] - 猿辅导回应员工被辞退事件,称因工作能力不达标 [22][23] - 申通快递拟3.62亿元收购菜鸟旗下丹鸟物流 [25] - 索尼将收购万代南梦宫2.5%股份,拟联合开发动漫IP [25] 产品发布 - 宇树科技发布人形机器人UnitreeR1,售价3.99万元起 [26] - 货拉拉旗下"多拉大面"货车上市,起售价7.68万元 [30]
商汤科技完成配售25亿港元 加速布局具身智能
经济观察网· 2025-07-24 18:35
融资情况 - 公司完成16.67亿股新B类股份配售,募集资金总额约25亿港元,净额约24.98亿港元 [1] - 配售股份占已发行B类股份总数的4.58%,占已发行股份总数的4.50% [2] - 每股认购价为1.50港元,较7月23日收盘价1.60港元折让约6.25%,较近五日平均收盘价1.64港元折让约8.54% [2] - 国际长线资本Infini Capital(无极资本)全额认购 [1][2] 资金用途 - 30%用于AI核心业务发展,包括打造AI云服务平台和扩大"商汤大装置"规模 [3] - 30%支持生成式AI与多模态大模型研发,重点开发垂直领域衍生产品 [3] - 20%投入具身智能与新兴技术融合,包括具身智能机器人、真实世界资产(RWA)等领域 [3] - 剩余20%作为一般营运资金 [3] 战略布局 - 公司计划成立独立的具身智能公司,核心班底包括首席科学家王晓刚等 [4] - 将在世界人工智能大会(WAIC)上揭晓具身智能"大脑",集成感知、视觉导航及多模态交互能力 [4] - 公司已完成"1+X"架构重组,"1"代表核心业务,"X"代表生态企业矩阵,如智能汽车板块"绝影"和家庭机器人板块"元萝卜" [4] 行业动态 - 2025年上半年中国AI企业融资规模显著增长,技术竞争从算法层面向硬件、场景层延伸 [5] - 国产AI技术正从"高性价比替代"转向"技术引领",具身智能、多模态大模型等前沿领域成为新增长空间 [5] - 公司与宇树科技、归墟机器人等合作开发具身智能产品,如"飞燕"机器人和傅利叶GRx通用人形机器人 [5][6]
出现断层了?ICCV2025的自动驾驶方向演变...
自动驾驶之心· 2025-07-24 17:42
多模态大模型 & VLA - ORION框架提出端到端自动驾驶方案 通过视觉语言指令生成动作 华科与小米联合研发 [5] - DriveMM构建全合一大型多模态模型 中山大学与美团合作开发 支持自动驾驶多任务处理 [6][7] - MCAM模型实现自我车辆级驾驶视频因果分析 重庆大学团队开源代码 [9] - AdaDrive/VLDrive双系统实现语言驱动的自适应驾驶 轻量化设计提升效率 [10] 仿真 & 重建 - ETA框架采用大模型双路径决策 科奇大学与港大合作提升自动驾驶效率 [13] - InvRGB+L实现复杂场景逆向渲染 清华与UIUC联合建模色彩与激光反射 [14] - AD-GS通过B样条高斯泼溅技术 南开与UIUC实现自监督场景重建 [16][18] - BézierGS动态重建城市场景 复旦大学采用贝塞尔曲线高斯泼溅技术 [19] - RGE-GS利用扩散先验引导场景重建 清华与菜鸟网络联合开发 [21][24] 端到端 & 轨迹预测 - Epona世界模型基于自回归扩散 清华与地平线合作生成驾驶轨迹 [25] - World4Drive构建意图感知潜空间模型 中科院自动化所与理想汽车联合研发 [30] - MagicDrive-V2实现高分辨率长视频生成 港中文与华为诺亚方舟实验室合作 [32][35] - DiST-4D解耦时空扩散生成4D场景 清华与旷视科技联合开发 [36] 占用网络 - B2S模型将二值占用数据升级为语义预测 丰田汽车公司研发 [44] - DISC模型解耦实例与场景上下文 华科团队实现3D语义场景补全 [45] - GaussRender采用高斯渲染学习3D占用 Valeo AI与索邦大学合作 [52] - GaussianOcc基于高斯泼溅自监督估计3D占用 东京大学团队开发 [54] 目标检测 - PI3Det实现透视不变3D检测 新国大与复旦联合研发 [59] - MambaFusion多模态3D检测框架 中科院自动化所与上海交大合作 [64] - OcRFDet基于神经辐射场多视角检测 南京理工大学开发 [69] 数据集与评估 - ROADWork数据集专注施工区场景识别 卡内基梅隆大学发布 [73] - VLADBench细粒度评估大视觉语言模型 中科大与华为诺亚方舟实验室联合推出 [81] - LiMA跨视角蒸馏提升LiDAR表征 新国大与南航合作 [88][89] 其他技术 - Dynamic-DINO实时开放词汇检测 浙大与中兴通讯联合开发 [83] - DepthForge增强域泛化语义分割 集美大学与中山大学合作 [87][90]
政策、市场、技术三重共振 东土鸿道操作系统迎商业化落地窗口期
搜狐网· 2025-07-24 16:26
中国AI机器人产业发展前景 - 中国将在2025年下半年掀起"人形机器人热潮",摩根士丹利预测到2050年中国可能拥有3.023亿台人形机器人,形成万亿级市场 [1][2] - 北京市政府发布《具身智能科技创新与产业培育行动计划(2025-2027)》,目标到2027年培育千亿级产业集群 [1] - 行业进入商业化验证阶段,优必选科技9051万元采购项目、智元机器人和宇树科技联合中标1.24亿元项目 [1] 鸿道AI机器人操作系统的技术优势 - 采用"智算控一体"架构,允许在同一硬件平台并行运行AI推理、运动控制等任务,降低系统复杂度和成本 [2] - 通过虚拟化技术提升芯片利用率,降低对高端制程的依赖 [2] - 支持100+机器人协同作业,打开工业自动化新场景 [2] 鸿道操作系统的商业化机遇 - 政策红利释放,各地政府加速推进机器人产业落地,基础软件优先受益 [1] - 首批大规模订单交付将验证系统稳定性和性能 [1] - 多模态大模型与机器人本体的深度融合需要操作系统提供更高效的推理和学习支持 [1] 鸿道生态的长期战略价值 - 微内核架构和开发生态正在构建机器人产业的"鸿道生态" [2] - 有望成为国产机器人"走出去"的标准配置,助力中国企业在全球化竞争中建立持续优势 [2] - 2025年下半年将成为产业从技术突破到规模商用的"分水岭",全栈能力厂商将决定核心技术话语权 [3]
一起做些有意思的事情!自动驾驶之心还缺几位合伙人
自动驾驶之心· 2025-07-23 10:12
业务合伙人招募 - 公司计划向国内外招募10位优秀合伙人(个人+企业)负责自动驾驶相关项目对接、课程研发、论文辅导、硬件研发、产品代理 [2] - 主要招募方向包括大模型/多模态大模型、扩散模型、VLA、端到端、具身智能、AI Agent、3D目标检测、世界模型、闭环仿真3DGS、大模型部署与量化感知推理、SLAM等 [2] - 岗位要求QS200以内高校硕士及以上学历,手握顶会论文者优先 [2] 合伙人待遇 - 提供自动驾驶资源共享(求职、读博、出国留学推荐等) [3] - 提供丰厚的现金激励 [3] - 提供创业项目合作与推荐机会 [3] 联系方式 - 咨询需添加微信wenyirumo并备注"机构/公司+自动驾驶合作咨询" [3]
多模态大模型存在「内心预警」,无需训练,就能识别越狱攻击
机器之心· 2025-07-21 16:43
多模态大模型的安全挑战与解决方案 - 视觉语言大模型(LVLMs)如GPT-4V、LLaVA等在图文问答和视觉推理任务中表现突出,但相比纯文本模型更易被“越狱”,攻击者可通过图像注入危险意图[2] - 现有防御方法如跨模态安全微调、系统提示词设计等存在训练成本高、泛化能力差和误判风险[3] HiddenDetect技术原理 - 研究发现LVLMs即使被越狱生成不当内容,其隐藏状态中仍保留拒绝信号,中间层比输出层更早感知风险[5] - 通过构造“拒绝语义向量”(RV)并计算各层隐藏状态与RV的余弦相似度,量化模型拒绝强度,形成拒绝强度向量F[9] - 实验显示F在不安全输入中呈现中间层峰值特征,且最后一层拒绝倾向高于倒数第二层[9] 多模态安全响应差异 - 文本和图像输入激活不同安全通路,文本拒绝响应更早更强,视觉模态会延迟并削弱拒绝信号[17][19] - 关键层定位方法通过拒绝差异向量(FDV)识别对安全最敏感的中间层,其FDV显著高于末层[20] 实验结果与性能 - 在LLaVA、Qwen-VL、CogVLM等模型测试中,HiddenDetect在文本攻击(如FigTxt)和跨模态攻击(如FigImg)检测上表现最优,AUC最高达0.997[24] - 相比Perplexity、GPT-4V等基线方法,HiddenDetect在XSTest边界样本上保持高鲁棒性,误判率更低[23][24] 技术应用与未来方向 - 方法无需训练,结构轻量,可直接部署于现有LVLMs,聚焦风险提示但暂不调控模型行为[28] - 未来将探索模态信息与安全性的关联,推动多模态模型向更可控方向发展[28]