你可能不相信,一个AI刚刚被证明,它处理语音的方式和大脑拼图差不多即使在结构上,它们也可以相互对应——科学家已经直接定位了AI中的视觉皮层
Meta AI等机构的这项研究一发表,立刻在社交媒体上炸开了锅一大波神经科学家和AI研究人员前去观看
LeCun称赞这是出色的工作:自我监控变压器的分层活动和人类听觉皮层的活动之间确实存在密切的相关性。
有网友趁机调侃:对不起马库斯,但AGI真的快到了。
可是,这项研究也引起了一些学者的好奇。例如,麦吉尔大学的神经科学博士Patrick Mineault问道:
在NeurIPS发表的一篇论文中,我们也试图将fMRI数据与模型联系起来,但当时我们并不认为两者之间有任何关系。
那么,这是一个什么样的研究,又是如何得出这个AI像大脑一样工作的结论的呢。
人工智能学会像人脑一样工作
简单来说,在这项研究中,研究人员专注于语音处理,并将自我监测模型Wav2Vec 2.0与412名志愿者的大脑活动进行了比较。
在412名志愿者中,351人说英语,28人说法语,33人说汉语研究人员听了大约1个小时的有声书籍,并在此过程中用功能磁共振成像记录了他们的大脑活动
在模型方面,研究人员使用了超过600小时的未标记语音来训练Wav2Vec 2.0对应志愿者的母语,模型也分为英语,法语,汉语三种,另一种用非语音声学场景数据集训练
然后这些模特还听了志愿者的同款有声读物研究人员提取了模型的激活
x是模型激活,y是人脑活动,w是标准编码模型。
从结果来看,自我监督学习确实使Wav2Vec 2.0产生了类似大脑的语音表征。
从上图可以看出,AI明显预测了一级和二级听觉皮层中几乎所有皮层区域的大脑活动研究人员进一步发现了AI的听觉皮层和前额叶皮层分别在哪一层
图中显示听觉皮层与《变形金刚》第一层最为一致,而前额叶皮层与《变形金刚》最深层最为一致此外,研究人员定量分析了人类感知母语和非母语音素能力的差异,并与Wav2Vec 2.0模型进行了对比
他们发现,AI和人类一样,对母语的辨别能力更强比如法国模式比英国模式更容易感知来自法国的刺激
以上结果证明,600个小时的自我监督学习足以让Wav2Vec 2.0学会语言的具体表征——这相当于婴儿在学习说话的过程中接触到的数据量。
要知道,根据之前的DeepSpeech2论文,建立一个好的语音转文本系统至少需要10000小时的语音数据。
再次引发了神经科学和AI界的讨论。
对于这项研究,一些学者认为,它确实取得了一些新的突破例如,来自谷歌大脑的杰西·恩格尔表示,这项研究将视觉过滤器提升到了一个新的水平
例如,前MILA和谷歌研究员Joseph Viviano认为,这项研究也证明了fMRI中的静息状态成像数据是有意义的。
可是,在一次讨论中,也出现了一些质疑的声音比如神经科学博士帕特里克·米诺尔特指出,他也做过类似的研究但没有得出结论,但也给出了自己的一些疑问
他认为,这项研究并没有真正证明它测量的是语音处理的过程与人说话的速度相比,fMRI实际上测量信号的速度非常慢,所以急于得出Wav2vec 2.0已经学会了大脑的行为的结论是不科学的
另外,也有网友认为Wav2vec和人脑的输入是不一样的,一个是处理过的波形,一个是原始波形。
模拟人类智能还有很长的路要走但至少现在,我们可能走在正确的道路上
你认为呢。
论文地址:
参考链接: