Meta发布SAM 3与SAM 3D 实现开放概念分割和3D重建突破
Meta发布SAM 3与SAM 3D 实现开放概念分割和3D重建突破

SAM 3发布及核心创新概览
根据 www.Todayusstock.com 报道,Meta于美东时间2025年11月19日发布了第三代“分割一切”模型SAM 3,同时推出用于3D重建的开源模型SAM 3D。SAM 3实现了重大突破,首次支持用户通过自然语言描述和图像示例识别、分割并追踪视频中的任意物体。
Meta同时发布了Segment Anything Playground平台,使普通用户无需技术背景即可体验SAM 3和SAM 3D的能力。核心创新在于引入可提示概念分割(Promptable Concept Segmentation, PCS)能力,用户可输入诸如“条纹红色雨伞”的自然语言提示,即可识别并分割所有符合条件的实例。
在处理速度方面,SAM 3在单张含100多个物体的图像上仅需约30毫秒,五个并发目标的视频场景中可维持接近实时性能。
性能对比与用户偏好测试
Meta通过SA-Co基准测试显示,SAM 3的概念分割性能相比现有模型提高一倍,同时优于Gemini 2.5 Pro等基础模型及GLEE等专业基线模型。在LVIS零样本分割任务中,SAM 3准确率达到47.0,超越此前38.5的成绩。
用户偏好测试结果显示,SAM 3输出效果约为最强基线模型OWLv2的三倍。
| 模型 | LVIS零样本准确率 | 用户偏好比例 |
|---|---|---|
| SAM 3 | 47.0 | 3:1 vs OWLv2 |
| OWLv2 | — | 1 |
| Gemini 2.5 Pro | — | — |
可提示概念分割(PCS)能力解析
SAM 3通过PCS能力解决了传统模型依赖固定标签集的局限。该模型支持自然语言提示、图像示例以及点、框、掩码等视觉提示,适用于罕见或难以描述的概念。结合多模态大语言模型使用时,SAM 3能够处理复杂提示,如“坐着但没有拿礼物盒的人”,在ReasonSeg和OmniLabel等复杂文本分割任务中表现优于此前研究,无需在专门数据集上训练。
创新数据引擎与人机协作标注
Meta通过创新数据引擎结合SAM 3、人类标注者和AI模型,实现快速大规模标注。负提示标注速度比纯人工快约5倍,正提示标注速度提升约36%。AI标注者基于Llama 3.2v模型,可验证掩码质量并检查概念标注完整性,从而提升数据集覆盖率与质量。
该流水线使团队能够创建包含超过400万个独特概念的大规模训练集,并在标注速度上相比纯人工提高一倍以上。
SAM 3D在3D重建与人体姿态估计的突破
SAM 3D包括两个模型:SAM 3D Objects用于物体和场景重建,SAM 3D Body用于人体姿势和形状估计。SAM 3D Objects可从单张图像重建详细3D形状、纹理和物体布局,头对头人类偏好测试胜率至少达到5比1。SAM 3D Body在复杂多人场景下也能准确估计3D姿势,支持交互式输入并训练于高质量、覆盖罕见姿势与多样服装的约800万张图像。
应用拓展:科学研究与野生动物保护
SAM 3已应用于科学研究,如Meta与Conservation X Labs及Osa Conservation合作建立的SA-FARI数据集,包含1万个以上相机陷阱视频,标注100多种物种。FathomNet为水下图像分割提供基准和掩码数据。Meta与Roboflow合作,使用户可微调、标注和部署SAM 3满足特定需求。
编辑总结
Meta发布的SAM 3与SAM 3D实现了图像、视频及3D场景分割的重大突破,首次支持自然语言驱动的开放概念分割,并显著提升处理速度与用户偏好度。创新的数据引擎和人机混合标注系统加速了大规模数据集构建,为复杂视觉任务提供基础。SAM 3D在物体重建和人体姿态估计上树立新标准,应用场景扩展至科学研究和生态保护领域。整体来看,Meta在视觉AI和3D感知领域已形成领先生态,为未来AI应用拓展奠定基础,但模型在细粒度专业概念及多目标视频追踪上仍存在局限。
常见问题解答
问:SAM 3与前代模型相比有何优势?答:SAM 3通过可提示概念分割(PCS)能力支持自然语言和图像示例分割,突破固定标签集限制;性能比现有模型提升一倍,用户偏好度约为最强基线模型OWLv2的三倍。
问:SAM 3在处理速度方面表现如何?答:在单张包含100多个物体的图像上,SAM 3处理时间约30毫秒;在五个并发目标的视频场景中可维持接近实时性能,支持高效分割。
问:SAM 3D能实现哪些3D重建任务?答:SAM 3D Objects可从单张图像重建物体与场景的详细3D形状和纹理;SAM 3D Body可准确估计人体姿态和形状,支持复杂姿势、多人体场景及交互式输入。
问:数据引擎如何提升标注效率?答:Meta的数据引擎结合SAM 3、AI标注者和人类标注者,实现负提示标注速度比人工快约5倍,正提示速度快36%,可构建超过400万个独特概念的大规模训练集,保证数据多样性和质量。
问:SAM 3的应用范围有哪些?答:除了图像和视频分割,SAM 3已应用于科学研究、野生动物保护(SA-FARI)和海洋研究(FathomNet);同时可与Roboflow平台结合,供用户标注数据、微调并部署模型,支持多样化AI应用场景。
来源:今日美股网
1. 欢迎转载,转载时请标明来源为FX168财经。商业性转载需事先获得授权,请发邮件至:media@fx168group.com。
2. 所有内容仅供参考,不代表FX168财经立场。我们提供的交易数据及资讯等不构成投资建议和依据,据此操作风险自负。

