从神经网络到天体物理没有AI做不到的
爆发式的数据让科学家不得不求助AI。在人类输入最少的情况下,AI系统(比如人工神经网络,模仿大脑功能的计算机模拟神经元网络)可以挖掘海量数据、突出异常现象,并检测出人力永远无法发现的东西。
如今,物理学、天文学实验所产生的海量信息是人类团队难以企及的。一些实验每天记录万亿字节的数据,并且不断累积增加。世界最大的射电望远镜项目Square Kilmeter Array预计在2020年开启,它每年产生的数据量将相当于整个互联网的总量。
爆发式的数据让科学家不得不求助AI。在人类输入最少的情况下,AI系统(比如人工神经网络,模仿大脑功能的计算机模拟神经元网络)可以挖掘海量数据、突出异常现象,并检测出人力永远无法发现的东西。
计算机应用于科学研究已经有75年历史,人类对自然数据的观察研究更是伴随着人类的发展史。但是,随着机器学习和AI的发展,科学研究的方法已经发生彻底的革新。其中一种方法称为生成模型(Generative Modeling),对于观测数据的不同解释,它可以仅仅基于数据就辨别出最可信的理论。更重要的是,它不需要关于物理过程的预编程知识。生成模型的支持者认为它非常新颖,可以被视作研究宇宙的“第三类方式”。
传统上,人类通过观察来了解自然。想想十六世纪天文学家约翰尼斯·开普勒正在仔细研究另一位同时期天文学家第谷·布拉赫的行星位置图,开普勒最终推断出行星在椭圆轨道上运动。科学通过模拟而进步。天文学家模拟银河系及其邻近星系仙女座的运动,并预测它们将在几十亿年后发生碰撞。观察和模拟都有助于科学家产生假说,再通过进一步的观察来验证这些假说。但是,生成模型既不是观察也不是模拟。
天体物理学家Kevin Schawinski(供职于苏黎世联邦理工学院)是生成模型的积极倡导者,他说:“这是介于观察和模拟之间的第三类方法,是解决问题的另一种方式。”
虽然一些科学家仍然把生成模型和其它新技术简单地看作是传统科学的补充工具。但大多数人都同意AI正在产生巨大的影响,它在科学研究中的作用必然会越来越大。费米实验室的天体物理学家Brian Nord使用人工神经网络研究宇宙,他担心人类科学家所做的任何事情都可能实现计算机自动化——这有点让人不寒而栗。
生成模型带来的发现
研究生时代,Schawinski就因数据驱动领域的成就而闻名。攻读博士期间,他需要根据星系的外观对它们进行分类。由于没有现成的软件可用,所以Galaxy Zoo众包科学项目诞生了。从2007年开始,普通计算机用户通过猜测记录星系分类来帮助天文学家,服从多数原则一般可以得出正确的分类结果。这个项目无疑是成功的,只不过今时今日的AI技术使它显得过时了。现在,一个有机器学习和云计算背景的优秀科学家可以在一个下午就完成以上任务。
Schawinski在2016年转向强大的生成模型工具。本质上,在给定条件X的情况下,生成模型会询问观察到结果Y的可能性有多大。这种方法已被证明是非常有效且具有通用性。举个例子,假设你提供一组人脸图像给生成模型,并逐一标注年龄。当计算机程序梳理这些训练数据时,会把年长者面部和皱纹增加联系起来。最终,计算机可以根据面部判断年龄,也就是说,它可以通过给定的面部预测其经历的物理变化。
这些人脸都不是真的。A 行和B 列的人脸都是由GAN使用真实面部搭建元素来构建的。然后,GAN结合A行脸部的基本特征(包括性别、年龄、脸形)和B列更精细的脸部特征(例如发色、眼睛颜色),创造出上图中其它的人脸图像。
最著名的生成模型系统是“生成式对抗网络(GAN)”。在充分地暴露于训练数据之后,GAN可以修复已损坏或丢失像素的图像,它也可以使模糊的照片变得清晰。GAN通过博弈(术语称作“对抗”)来学习推断丢失的信息:网络的一部分(称为生成器)生成伪数据,而第二部分(判别器)试图对真伪数据进行区分。随着程序的运行,两个部分都逐渐演化提升。对于最近出现的一些超现实的、GAN制作的“人脸”,有文章评价道:这些计算机创造的诡异假脸跟真人没有分别。
更广泛地说,生成模型采用数据集(通常是图像),并将每个数据集分解为一组基本的抽象构建模块,科学家将其称为数据的“隐空间”。隐空间的概念是抽象的,很难将其视觉化,粗略地类比一下,当你试图确定人脸的性别时,想想你的大脑可能是怎么思考的,也许你会注意到发型、鼻子形状等等,还有的判断模式可能很难用文字表达。相似地,计算机程序也是在数据中寻找突出的特征:虽然它不知道什么是胡子,什么是性别,但如果它接受过数据集的训练,其中一些图像被贴上“男人”或“女人”的标签,一些图像被贴上“胡子”的标签,计算机会很快推演出它们之间的联系。
在与同事合著的一篇论文中,Schawinski利用生成模型研究了星系在演化过程中所经历的物理变化。模型创建了人工数据集,以此作为检验物理过程假设的方式。例如,恒星猝熄(恒星形成速度急剧下降)如何与星系环境密度增加相关联。
关键问题在于:有多少关于恒星和银河系的信息可以单独从数据中提取出来。Schawinski说:“让我们抹掉所有关于天体物理学固有的知识。然后仅仅利用数据本身,能在多大程度上重新认知宇宙?”
首先,星系图像被缩小到隐空间,然后,Schawinski可以调整空间的一个元素,使其对应星系环境的特定变化(比如周围的密度)。然后他可以重新生成星系,看看会有什么不同。Schawinski解释说:“所以现在我有了一个假说生成机器。通过这个过程,我可以让原本处于低密度环境中的一整束星系看起来像处于高密度环境中。”研究者发现,随着星系从低密度变为高密度环境,它们的颜色变得更红,恒星分布更集中。这与现有的星系观测结果相吻合。问题是为什么会这样。
对于这个过程,有两种可能的解释:也许星系在高密度环境中颜色更红,因为它们含有更多的尘埃,又或者是因为其范围内的恒星趋于衰退。有了生成模型,这两个想法都可以进行测试:改变隐空间中有关尘埃和恒星形成速率的元素,然后观察星系颜色的变化。结论很清楚,星系颜色更红的地方是“恒星形成速率下降的地方”,而不是“尘埃发生改变的地方”。
通过生成模型,天体物理学家可以研究星系从宇宙的低密度区域到高密度区域是如何变化的,以及是什么物理过程导致了这些变化。
该方法与传统的模拟有关,但存在关键差别。Schawinski说,模拟“本质上是假设驱动的”,对于某种宇宙现象,我首先假设一个可以解释它的物理原则,比如说我们对于暗物质、对于恒星形成都有一套理论假设,然后对照假设运行模拟操作,接着再思考:模拟是否符合现实?但是生成模型则不同,某种意义上来说,它与模拟完全相反。我们什么都不知道也不想做任何假设,只是让数据告诉我们可能会发生什么。
生成模型的成功应用当然不意味着天文学家要失业,但这也确实让我们思考,天体物理学研究多大程度上可以由智能系统完成。Schawinski表示,这不是完全自动化的科学,但它表明我们至少能够部分地构建工具——使科学过程自动化。
生成模型显然是强大的,但它是否真正代表了一种新的科学方法仍有待商榷。David Hogg是纽约大学的宇宙学家,它认为,这仍然只是从数据中抓取模型,数个世纪以来天文学家都是这样进行工作的,只不过如今的技术相当强大。换句话说,生成模型是一种先进的观察加分析的方式。Hogg自己的工作也严重依赖AI。他使用神经网络根据恒星的光谱对它们进行分类,并使用数据驱动模型来推断恒星的其它物理属性。但他不认为生成模型是另类方法。他说:“只是科学家在如何使用数据方面变得更加老练了。特别是在比较数据方面比以前进步很多。但在我看来,我的工作仍处于观察模式。”