Skip to content
Words count
458 字
Reading time
2 分钟

摘要

传统计算机视觉系统的核心问题:这些旧系统就像一个“偏科”的学生,你教它认识猫、狗、汽车,它就只能认识这几样东西。它的知识被“预先设定好的类别”给框死了。

如果你想让它认识一个新的东西,比如“宇航员”,你就必须找来成千上万张“宇航员”的照片,并且每一张都打上“宇航员”的标签,然后对它进行专门的训练。这个过程非常耗时、耗力、成本高昂,限制了AI的通用性和实用性

全新的、更聪明的学习方法:不再依赖于人类手动打好的标签,而是直接从互联网上大量的“图片 + 描述文字”中进行学习

他们设计了一个非常简单的“预训练”任务:给模型一张图片和一堆文字,让模型自己判断哪段文字是这张图片的正确描述。 他们从互联网上收集了4亿个这样的(图片,文字)配对数据来训练模型。通过完成这个看似简单的任务,模型慢慢就学会了将图像中的视觉信息和语言中的概念紧密地联系起来。

零样本学习 (Zero-shot Transfer)

在大多数任务上,这个模型无需任何针对性的训练,表现就非常好,甚至能和一个经过“完全监督学习”(即用大量标注好的数据专门训练)的基准模型相媲美。

Contributor

File History

Written with