实时

您的位置:首页>产品 >

小扎亲自官宣Meta视觉大模型,自监督学习无需微调,多任务效果超OpenCLIP_看点

无需文字标签,完全javascript自监督的Meta视觉大模型来了!


【资料图】

小扎亲自官宣,发布即收获大量关注度——

在语义分割、实例分割、深度估计和图像检索等任务中,这个名叫DINOv2的视觉大模型均取得了非常不错的效果。

甚至有超过当前最好的开源视觉模型OpenCLIP之势。

虽然此前Meta就发布过自监督学习视觉大模型DINO,不过这次AI识别图像特征的能力显然更进一步,准确分割出了视频中的主体:

可别以为DINOv2通过自监督学会的只有图片分割。事实上,它已经能根据不同类别、不同场景下的照片,准确识别出同种物体(狗)的头部、身体和四肢长在哪:

换而言之,DINOv2自己学会了找图像特征。

目前Meta官方不仅已经放出了开源代码,而且还给了网页版Demo试玩。有网友内涵:

准确识别不同画风的同种物体

事实上,DINOv2是基于上一代DINOv1打造的视觉大模型。

这个模型参数量是10亿级,也仍然是视觉Transformer架构(ViT),但与DINO不太一样的是,这次DINOv2在数据集上经过了精心挑选。

具体来说,DINOv2构建了一个数据筛选pipeline,将内容相似的图片精心筛选出来,同时排除掉相同的图片:

最终呈现给DINOv2的训练数据图片虽然没有文字标签,但这些图片的特征确实是相似的。

采用这类数据训练出来的视觉模型,效果如何?

这是DINOv2在8个视觉任务上的表现,包括语义分割、分类、深度估计等,其中橙色是自监督方法的效果,深粉色是弱监督方法的效果。

可以看见,经过自监督学习的视觉模型,表现上已经与经过弱监督学习的模型性能相当。

实际效果也不错,即便在一系列照片中,相同物体的画风并不相似,DINOv2也能准确识别它们的特征,并分到相似的列表中。

如(a)组中都具有翅膀的鸟和飞机、(b)组中的大象和大象雕塑、(c)组中的汽车和汽车玩具模型、(d)组中的马和涂鸦版马:

而且从PCA(主成分分析)图像效果来看,DINOv2不仅能准确分类,还能用不同颜色标出它们“相同”的部分,例如象鼻都是绿色、车轮都是红javascript色、马的尾巴是黄色等。

换而言之,DINOv2能理解这些图像中的相似之处,就像人会形容飞机“看起来像一只鸟”一样。

目前DINOv2已经放出Demo,我们也试了试它的实际效果。

Demo直接可玩

官网已经开放语义分割、图像检索和深度估计三大功能的试玩。

据Meta介绍,这几个任务中,DINOv2在大多数基准上超过了目前开源视觉模型中表现最好的OpenCLIP。

我们先来看看深度估计的效果。

值得一提的是,在效果更好的情况下,DINOv2运行的速度也比iBOT更快,相同硬件下只需三分之一的内存,运行速度就能比DINOv2快上2倍多。

这是Meta论文中与OpenCLIP在实际例子上的比较效果:

我们用这张猛男版新宝岛试一下,看起来还不错,即使是高糊图片也能比较好地估计出深度:

接下来是语义分割的效果,这里也先给出Meta论文中编程客栈的数据对比情况:

这里也给出OpenCLIP和DINOv2的对比,中间的图片是OpenCLIP的效果,右边是DINOv2分割的效果:

我们也用一张办公室的图片试了一下,看起来DINOv2还是能比较准确地分割人体、物体的,但在细节上会有一些噪点:

最后是图片检索。

官网上给出的图片效果还是挺不错的,输入铁塔照片,可以生成不少含铁塔的相似艺术图片:

这里我们也试了试,输入一张华强买瓜,给出来的艺术图片大多数与西瓜有关:

那么,这样的自监督视觉大模型可以用在哪里?

从Meta给出的视频来看,目前有一些比较环保的用途,例如用于估计全球各地的树木高度:

除编程客栈此之外,如同扎克伯格所说,DINOv2还能被用于改善医学成像、粮食作物生长等。当然这里小扎还进一步强调:

嗯,看来Meta的元宇宙路线还将继续……

试玩Demo地址:https://dinov2.metademolab.com/demos

项目地址:https://github.com/facebookresearch/dinov2

关键词:

推荐阅读
无需文字标签,完全javascript自监督的Meta视觉大模型来了!小扎亲自官宣,发布即收获大量关注度——在语义分割、实例分割、深度估计和图像检索

2023-04-18 16:01:02

人人都需要健身,更需要科学健身、精准健身、高质量健身。4月14日,为进一步丰富在校学生有关生长发育知识的储备,提高“科学健身”认知,集美

2023-04-18 15:40:47

为深入学习贯彻党的二十大精神,落实文化润疆战略,推动基层文化振兴,丰富基层各族群众文化娱乐生活,提升科学技术水平,助力乡村振兴。4月15

2023-04-18 15:25:29

产品4月17日4月18日涨跌幅单位:元 吨萤石3068 7530750 2%元 吨氢氟酸10357 1410357 140元 吨冰晶石782578250元 吨

2023-04-18 15:10:07

不过在开心之余,有一些申花球迷可能会觉得有点难过,难过的原因是申花的一位国脚就在这场比赛之后,在现场跟大家挥手道别了,他退役了。当年

2023-04-18 14:47:45

法拉利董事长:新车订单已经排到明年盖世汽车讯据路透社报道,法拉利董事长JohnElkann在近日的股东大会上宣布,公司两款最新车型——296GTS

2023-04-18 13:44:54

当前,世界经济面临通胀高企、市场波动加剧、不确定增加、下行压力增大等风险。在此背景下,非洲国家同中国巩固传统友谊、深化经贸合作的重要

2023-04-18 12:34:25

本报记者颜子舒每天清晨或傍晚,云龙湖畔、云龙公园、彭祖园等近百处健身广场和公园,总会布满了前来健身的市民。人们尽情挥洒

2023-04-18 11:40:10

当前大家对于美少女万华镜,初见之人都是颇为感兴趣的,大家都想要了解一下美少女万华镜,初见之人,那么小美也是在网络上收集了

2023-04-18 11:04:13

4月17日,由歌手周杰伦和杰威尔音乐有限公司起诉网易网络有限公司、广州网易计算机系统有限公司、杭州网易雷火科技有限公司的不正当竞争纠纷一

2023-04-18 10:10:36

近年来,随着全市不断加快绿色发展步伐,电动汽车保有量逐年增多,电动汽车充电站陆续建成投运。但与此同时,燃油车占用电动汽车充电车位现象

2023-04-18 09:32:02

龙光控股现拟于2023年5月10日就前述13只公司债券进行小额兑付,因公司债券本息兑付流程需要,为保证平稳实施兑付安排,保护广大投资者的利益,

2023-04-18 08:49:27

2023年中央一号文件首次提出培育发展预制菜产业后,江西各个县区的政府工作中,“预制菜”被频频提及。预制菜能否成为“风口”?各地主官如何

2023-04-18 07:10:52

1、CPC(按点击付费)CPC—英文全称CostPerClick;CostPerThousandClick-T

2023-04-18 05:48:50

选自叔本华《悲喜人生》范进译陕西师范大学出版社2002生命的第一个阶段是如此之幸福,当许多年以后我们回首往事时,它就像是一座已经失却的伊

2023-04-18 01:52:37

一招乾坤大挪移让二胎臀位妈妈顺利分娩---

2023-04-17 22:11:43

全球化面临挑战,不确定性越来越多,本国制造业如何杀出重围,在存量博弈和日渐艰难的贸易环境中抢到单,越来越成为一个世界级难题。作者:今

2023-04-17 21:01:07

欢迎观看本篇文章,小升来为大家解答以上问题。微信被删除的好友怎么找回,微信被删除的好友如何时找回很多人还不知道,现在让我

2023-04-17 19:35:14

“验证码”上市了!一汽丰田bZ3售16 98-19 98万元

2023-04-17 18:38:01

在体验方面,华为nova11系列首次采用了超可靠昆仑玻璃,通过复合离子强化注入生长出亿亿个纳米晶体,使得玻璃的韧性获得大幅度提升,整机耐摔

2023-04-17 17:44:20