首页 » 基金 >

当亿万富豪太空内卷,马化腾在用AI圆太空梦,优图吴运声:3天完成1年工作量

2021-07-12 18:19:11来源:时代财经

本文来源:时代财经 作者:史成超

中国科学院国家天文台研究员、FAST首席科学家李菂,腾讯优图实验室副总经理黄飞跃接受媒体采访。图片来源:时代财经摄

打工人还在地球上“内卷”,富豪们已经“卷”上太空了。

7月11日,英国维珍银河公司创始人理查德·布兰森,搭乘自家太空船在太空边缘一游,并平安返回地球,这比全球首富杰夫·贝佐斯的“太空梦”实现还早了9天。

拥有SpaceX的“钢铁侠”马斯克自然不甘示弱,已经预订了一张维珍银河的太空船票(目前已有超过600人预订)。布兰森也表示,马斯克是自己的朋友,未来也期待搭乘 SpaceX 的飞船前往太空。

科技创新的尽头是宇宙。国外科技公司争先奔向太空赛道的同时,国内也有一些互联网公司将目光瞄准光年之外。

据此前媒体报道,1985年,腾讯创始人马化腾在14岁时,就曾向家里索要准专业级、80mm口径的天文望远镜,喜欢的《天文爱好者》亦是一订就是20多年。时隔36年,马化腾的天文梦终于要实现了。这次和腾讯达成合作的是国家天文台的天眼FAST——世界上灵敏度最高的射电望远镜。

日前,在2021世界人工智能大会“腾讯论坛”上,腾讯与国家天文台合作的“探星计划”宣布正式启动——基于优图实验室计算机视觉技术、腾讯云领先的计算及存储能力,帮助中国天眼FAST提升脉冲星搜索效率,并辅助快速射电暴和近密双星系统中脉冲星搜索,助力天文探索。

“借助AI技术能力,3天就可以处理完原来人工需要1年才能完成的数据工作量。”腾讯云副总裁、腾讯优图实验室总经理吴运声介绍道,在云+AI的辅助下,FAST脉冲星搜索效率将得到显著提升。

1967年,剑桥大学研究生乔瑟琳·贝尔在检测射电望远镜收到的信号时,无意中发现一些有规律的脉冲信号,再经过不断地观测后才确认,这是一类新的天体,并把它命名为脉冲星。

天文研究表明,质量较大的恒星在演化的终点会爆炸,迸发出盛大的太空焰火,即超新星爆发。如果留下的恒星核心“残骸”质量足够大,便会坍缩为中子星,而脉冲星就是正在快速自转的中子星。

寻找脉冲星的意义在于有助于人们了解星体坍缩时到底发生了什么。脉冲星的本质是中子星,其具有在地面实验室无法实现的极端物理性质,是理想的天体物理实验室,对其进行研究,有望得到许多重大物理学问题的答案。

此外,脉冲星被称作宇宙中的灯塔,它们特征明显、易于辨识,在宇宙中的定位位置也比较精准。脉冲星的发现和研究,是国际上大射电望远镜关键科学目标之一,而被世界誉为“中国天眼”的FAST,正是世界上最强大的脉冲星搜寻利器。

7月9日,对于此次AI技术在寻找脉冲星中的具体应用,中国科学院国家天文台研究员、FAST首席科学家李菂,腾讯优图实验室副总经理黄飞跃共同接受了时代财经等媒体的采访。

以下为本次采访的主要内容,由时代财经整理而成:

“我们不但能修建世界上最好的设备,也要把这种能力提供给全世界科学家”

问:中国的脉冲星研究在世界上处于什么水平?

李菂:这两个都是挺关键的问题。中国一直有世界一流的脉冲星研究团队,但是更偏重理论研究或者模型研究,原因主要是缺乏观测设备。该情况在过去5~10年内发生了根本性变化,这和中国过去30年的基建投入、科学投入、GDP增长是完全一致的。

脉冲星是高能天体,有磁场、密度、快速旋转,有各种各样的信号,现在我们有了自己的天文卫星,有了大型的地面观测站,有了手机蓝牙射频通讯波段,世界上最大的天线,这在20年前、30年前是没办法想象的。我们已经从一个主要做理论研究的社团,完全转向了观测研究,而且还有独特的领先性。

2016年天眼建成前,中国的望远镜和在中国工作的科学家从来没有发现过新的脉冲星, 2017年以后,天眼一家已经发现350多颗,接近总数的10%。从2018年开始,单年看,天眼已经是作为天体设备发现速度最领先的,我们对脉冲星的研究也作为一个实验科学现在走到了世界的前沿。

问:脉冲星研究在天文学领域处在什么样的位置?

李菂:脉冲星在天文学领域,有点像人工智能在IT领域的发展。回看IT行业,很多概念是每十来年兴起一次,其中,人工智能最有代表性。最开始神经网络技术缺乏数学基础,“炒”了一段时间就冷了。然后随着数学的进步,对非线性过程进行解释后,又“炒”了一遍,但是它的应用场景还不是非常明确。直到近期算力的极大发展,又推动了人工智能的应用。

这跟脉冲星非常像,它于1967年被发现,70年代拿到诺贝尔物理学奖,73年发现第一个双星系统。最近10年前,外空星研究在天文领域中进入低潮期,相比之下,很多其他的科学,行星、星外文明、天体化学等更活跃。

最近几年,有几个重大的事情,一个是观测和观测处理能力的提高,包括天眼在内,有新的设备要寻求应用的场景。脉冲星的辐射提供了很有意思的信号和依然未能解决的基础物理问题。第二,这个领域本身产生了一些奇特的新现象,即射频领域宇宙中间最亮的信号,可以在千分之一秒的时标上辐射太阳一年的能量,这么亮的信号只需要家里一个电视天线就行,甚至不需要天眼。它于2007年被发现,2013年被验证,直到2017年才被确认为第一个星系,这个领域的起源相对于脉冲星的探测,现在正处在上升期。

问:目前全世界的科学家都会用中国的天眼,他们用的话是不是要收费?

李菂:是不收费的。我们有一个委员会,你可以公开投稿,然后进行国际评审。原则上讲,我们对资质没有任何要求,但是要经过同行同意,现在通过概率大概4比1的样子,还是有竞争的。

当然还有实际的门槛,你一下申请到了时间,你拿到100T的数据,你说我不能够处理的话,这个也没有什么用。

天文这个领域最早是从占星术来的,代表的是人类自古就有的对自身起源的好奇心和探讨,它相对于其他,包括物理学、化学,会更加“不接地气”,相对也会更开放。

射电天文又是天文各个行业里相对比较开放的,这跟它发展的历史也是有关系的。实际上,二战以前,它是雷达科学领域衍生出来的技术,二战以后,以美国为首,其代表世界上当时发展最好,也是发展最快的小领域里的领先国家,把航天和涉及天文在内的一系列科学领域,都放到国家层面,然后推动开放共享模式。

中国天眼实际是国家天文台申请的,是国家立项的项目,国家出钱,由我们主持修建,代表国家来运行,它至少是向全中国开放的,现在也普遍向世界开放,这代表了我们的态度:我们不但能修建世界上最好的设备,用最好的设备做前沿的科学,我们也要把这种能力提供给全世界科学家,这是对于整个科学界进步的追求和贡献。

“腾讯提倡科技向善,我们也希望有更多偏科研性质的研究”

问:腾讯和天文台的“探星计划”合作是怎么达成的?

黄飞跃:腾讯优图的定位,一方面是做机器视觉方面的原生自发的科技探索,最近几年也在做产业落地;另外一方面,腾讯在提倡科技向善,我们也希望有更多的一些偏科研性的探索。

出于这样的初衷,我们内部经常会有不定期的主动和被动的挖掘。我们会定期做一些脑暴,收集很多大家的意见。好几个同事都提到,我们的AI、CV技术可以较好地帮助FAST天文台探星。

其中,有两个同事特别爱好天文、天体学,另外有个同事,在读硕士的时候就做过一些天文方面的信号分析。经过我们初步了解发现,第一,技术的确能在里面发挥价值;第二,这类探索是特别有意义的事,我们就开始去寻找这样的合作和合作方法。

我们春节前就确定好了这个探索项目。在合作过程中,李老师的专业知识对我们非常有帮助。同样,我们也有优秀的算法、比较强大的计算资源和计算能力,所以合作是非常顺利的。

问:这个项目中应用了哪些机器学习,或者AI视觉方面的经验?

黄飞跃:李老师团队有非常好的框架基础,不仅仅是说场景、数据、业务,也有成熟的机器学习的算法模型。我们在这个基础上,合作的这几个月中取得了新的进展,也做了很多不一样的事情。

最开始在探星的过程中,第一个是数据的预处理,最原始的一天采集到的数据大约有500T,一个礼拜有3000万张的信号图片,数据量是巨大的。500T怎么样能够转换更有效的数据,要做一系列的原始信号处理。我们把它做了大幅加速,跟最开始做的加速性能相比,提升了一倍以上,预处理更快。

第二,对信号我们会用机器学习的方式来寻找疑似样本,再交给专业的人员看是不是我们真正发现了信号,新的算法在准确率上有比较大的提升,命中率会比原来高1倍以上,降低了后期专业人士人为筛选的工作量。

这是最近两个月取得的一些成果,效率上和准确率上都有比较大的提升。

另外,AI探星有一些难点要攻克。第一,做深度学习核心是要有海量的、已经有标注的数据来训练,拿训练数据调整优化模型。天文里面有标注的训练数据相对偏少,这时训练就会存在一些困难;第二,同样的天体信号,用不同的望远镜、设备观测,得到的数据、展现形式不完全一样。

克服这两个难点,我们也是基于原来的积累。例如做人脸、人体检测、工业检测等,针对海量、缺少标注的数据,我们有自监督的学习方法,通过无标注自监督方案,对有标签数据的依赖会大大减少;另外,对不同场景、不同设备拍出来的数据,其中有跨域学习的概念,也是可以整合起来帮助我们的训练过程。

问:优图实验室是隶属于腾讯公司的一个业务部门,做这些事情的时候有没有结果导向?预期的产出是什么?

黄飞跃:我们内部会有一些讨论,和李老师这边会针对整个结果的可行性做进一步聚焦和收敛。

从整个部门或者公司层面来说,并没有一个特别明确的目标,我们只是希望能够对于科技探索有一些促进作用,取得一些成果就OK。从团队内部,我自己和团队成员,希望我们的成果可以被展现,可以对外提及,而不是仅仅泛泛地说一些不能量化的成果,那也没有意义。

具体而言,比如我们第一步希望AI系统新设计的架构能够跑通,把原来的数据跑起来,验证它的可行性;第二步,在现有的李老师给我们提供的数据里面,我们基本上保持每天增量数据的挖掘,能够在里面真正达到和超越人工,或者超越原来的效率和发现量。

从试跑的这两个月看,现在这个目标已经达到了,下一步,我们希望通过这些比较密集的成果,在天文领域的顶刊和AI的顶刊上发表一些论文。再往后,说不定我们可以发一些在《自然》杂志上的学术论文。