向图像进击的transformer!
GPT在自然语言处理上取得了有目共睹的成就,包括BERT,RoBERTa,T5等众多无监督或自监督学习方法轮番登场拿下了一个又一个语言高地。自然语言处理高歌猛进的同时图像领域不甘心了,也在跃跃欲试想要利用类似的模型学习出可以用于分类任务的有效特征来。
GPT在自然语言处理上取得了有目共睹的成就,包括BERT,RoBERTa,T5等众多无监督或自监督学习方法轮番登场拿下了一个又一个语言高地。自然语言处理高歌猛进的同时图像领域不甘心了,也在跃跃欲试想要利用类似的模型学习出可以用于分类任务的有效特征来。
Transformer家族的模型基本上可以直接处理任何形式的1D数据,于是研究人员就想到将2D图像拉伸为长长的1D图像序列,利用与GPT-2模型类似的技术构建了用于处理像素序列的iGPT模型。
在详细的实验分析后研究人员发现,模型显现出对于2D图像特征的理解能力,包括有效的个体和类别的理解。模型可以在没有人工指导情况下生成连续的图像样本,实现图像补全,同时可以在多个分类数据集上实现先进的分类性能,并在ImageNet实现了非常接近最优秀无监督方法精度水平。这证明了这类生成序列模型可以作为通用的无监督学习算法。
在使用GPT-2类似的架构时,虽然需要更多的计算来达到基于卷积的非监督学习水平,然而这种方法在面对全新领域时,大型的GPT-2模型无需针对特定领域架构进行设计就可以学习出非常有效的特征和优异的性能。
下面让我先来看看iGPT应用于图像补全和样本生成任务下的一些结果,下图中红色框是原始图像,蓝色框中是模型补全的结果。可以看到模型很好的恢复出了另一半缺失的图像,并在不同的生成结果中添加了各种语义特征的对象。
相关文章
热门网址
-
19打开,有戏
时间线
热门标签
热门工具
Apple Store
扫码加公众号
本站内容源自互联网,如有内容侵犯了你的权益,请联系删除相关内容,联系邮箱:youmao@neone.com.cn
© 2010 - 2024 | 沪ICP备16045468号-5