联系销售:400-665-8553
立即咨询
新闻动态 新闻动态
技术博客

分享开云智言科技技术博客

Meta发布WebSSL系列模型 探索无语言监督视觉学习潜力

作者:小编
发布时间:2025-04-27 13:35:41
阅读量: 

  Kaiyun官网登录入口 开云网站Meta公司近日在发布了一系列名为WebSSL的模型,旨在探索无语言监督的视觉自监督学习(SSL)的潜力。目前,Meta公司已将WebSSL系列模型发布在Hugging Face平台上,并无缝集成于transformers库,便于研究人员和开发者使用。

  当前,以OpenAI的CLIP为代表的语言-图像模型已成为学习视觉表征的主流选择,在视觉问答(VQA)和文档理解等多模态任务中表现出色。然而,这类模型高度依赖语言监督,而语言数据的获取和标注过程复杂且成本高昂,限制了模型的扩展性和应用范围。

  为了解决这些痛点,Meta公司开发了WebSSL系列模型。与CLIP不同,WebSSL完全基于纯图像数据进行训练,摆脱了语言监督的束缚,旨在深入评估纯视觉自监督学习在无语言影响下的表现极限。

  WebSSL系列模型采用了两种先进的视觉自监督学习范式:联合嵌入学习(DINOv2)和掩码建模(MAE)。DINOv2通过对比学习优化图像嵌入,而MAE则通过预测图像中被掩码的部分来学习视觉表征。

  模型基于Vision Transformer(ViT)架构,参数规模从3亿到70亿不等,涵盖了ViT-1B至ViT-7B五个容量层级。这些模型仅使用MetaCLIP数据集(MC-2B)中的20亿张图像子集进行训练,排除了语言监督的影响。

  实验结果显示,随着参数规模增加,WebSSL模型在VQA任务上的表现接近对数线性提升,而CLIP在超过30亿参数后性能趋于饱和。在OCR和图表任务中,WebSSL表现尤为突出,尤其在数据筛选后,仅用1.3%的富文本图像训练即超越CLIP,在OCRBench和ChartQA任务中提升高达13.6%。

  此外,高分辨率(518px)微调进一步缩小了与SigLIP等高分辨率模型的差距,在文档任务中表现尤为出色。WebSSL模型在无语言监督下仍展现出与预训练语言模型(如LLaMA-3)的良好对齐性,表明大规模视觉模型能隐式学习与文本语义相关的特征。

开云科技整合自然语言处理与机器学习技术,打造全方位AI开发服务平台

400-665-8553

联系我们:400-665-8553

销售联络:400-665-8553

媒体合作:666666666

展会合作:888888888

北京 | 北京市海淀区中关村科技园区清华科技园创新大厦B座15层(研发中心)

深圳 | 深圳市南山区科技园南区高新南七道数字技术大厦8层(AI实验室)

上海 | 上海市浦东新区张江人工智能岛智能制造大厦A栋12层

成都 | 四川省成都市高新区天府软件园C区云计算中心6层

武汉 | 湖北省武汉市东湖新技术开发区光谷大道光电子信息港B座9层

杭州 | 浙江省杭州市滨江区网新智慧园区创新大厦C座16层

广州 | 广东省广州市黄埔区科学城科技创新基地达实大厦7层

Copyright © 开云智言科技 版权所有

豫ICP备19046769号
在线咨询
电话咨询
400-665-8553
回到顶部