想象一下,一个人工智能(AI)模型可以像人脑一样微妙地观看和理解运动图像。现在,斯克里普斯研究所的科学家们通过创建MovieNet实现了这一目标:这是一种创新的人工智能,可以处理视频,就像我们的大脑随着时间的推移解释现实生活中的场景一样。
2024年11月19日发表在《美国国家科学院院刊》上的一项研究详细介绍了这种受大脑启发的人工智能模型,该模型可以通过模拟神经元或脑细胞如何实时感知世界来感知运动场景。
传统的人工智能擅长识别静止图像,但MovieNet引入了一种机器学习模型的方法来识别复杂、不断变化的场景——这一突破可能会将医疗诊断领域转变为自动驾驶领域,在自动驾驶领域识别随时间的细微变化至关重要。MovieNet也比传统的人工智能更准确、更环保。
“大脑不仅仅看到静止的画面;它还创造了一个持续的视觉叙事,”资深作者、多里斯神经科学中心主任、斯克里普斯研究所哈恩神经科学教授Hollis Cline博士说。
“静态图像识别已经取得了长足的进步,但大脑处理流动场景(如看电影)的能力需要更复杂的模式识别。通过研究神经元如何捕获这些序列,我们已经能够将类似的原理应用于人工智能。”
为了创建MovieNet,克莱恩和第一作者、斯克里普斯研究所的科学家平本正树研究了大脑如何将现实世界的场景作为短序列进行处理,类似于电影片段。具体来说,研究人员研究了蝌蚪神经元对视觉刺激的反应。
平本解释说:“蝌蚪有一个非常好的视觉系统,而且我们知道它们可以有效地检测和响应移动的刺激。”。
他和克莱恩发现了对电影般的特征(如亮度和图像旋转的变化)有反应的神经元,并且可以在物体移动和变化时识别它们。这些神经元位于大脑的视觉处理区域,即视顶盖,它们将运动图像的各个部分组装成连贯的序列。
把这个过程想象成类似于透镜拼图:每一块可能都没有意义,但它们在一起形成了一个完整的运动图像。不同的神经元处理现实生活中运动图像的各种“拼图块”,然后大脑将其整合到一个连续的场景中。
研究人员还发现,蝌蚪的视顶盖神经元能够区分视觉刺激随时间的细微变化,在大约100到600毫秒的动态片段中捕获信息,而不是静止帧。这些神经元对光和影的模式高度敏感,每个神经元对视野特定部分的反应有助于构建场景的详细地图,形成“电影剪辑”
Cline和Hiramoto训练MovieNet模拟这种类似大脑的处理,并将视频片段编码为一系列小的、可识别的视觉线索。这使得AI模型能够区分动态场景之间的细微差异。
为了测试MovieNet,研究人员向其展示了蝌蚪在不同条件下游泳的视频片段。MovieNet不仅在区分正常和异常游泳行为方面达到了82.3%的准确率,而且超过了训练有素的人类观察者约18%的能力。它甚至超过了现有的人工智能模型,如谷歌的GoogLeNet,尽管它有大量的训练和处理资源,但其准确率仅为72%。
克莱恩指出:“这就是我们看到真正潜力的地方。”。
该团队确定,MovieNet不仅在理解不断变化的场景方面优于当前的人工智能模型,而且使用的数据和处理时间更少。MovieNet在不牺牲准确性的情况下简化数据的能力也使其有别于传统的人工智能。通过将视觉信息分解为基本序列,MovieNet有效地压缩了数据,就像保留关键细节的压缩文件一样。
除了高精度之外,MovieNet还是一个环保的人工智能模型。传统的人工智能处理需要巨大的能源,留下了沉重的环境足迹。MovieNet减少的数据需求提供了一种更环保的替代方案,在高标准运行的同时节约能源。
克莱恩说:“通过模仿大脑,我们设法降低了人工智能的要求,为不仅强大而且可持续的模型铺平了道路。”。“这种效率也为在传统方法成本高昂的领域扩大人工智能打开了大门。”
此外,MovieNet还有重塑医学的潜力。随着技术的进步,它可能成为识别早期疾病细微变化的有价值的工具,例如检测不规则的心律或发现帕金森氏症等神经退行性疾病的最初迹象。例如,与帕金森氏症相关的小运动变化通常很难被人眼识别,人工智能可以在早期标记出来,为临床医生提供宝贵的时间进行干预。
此外,MovieNet在蝌蚪暴露于化学物质时感知蝌蚪游泳模式变化的能力可能会导致更精确的药物筛选技术,因为科学家可以研究动态细胞反应,而不是依赖静态快照。
平本评论道:“目前的方法错过了关键的变化,因为它们只能分析间隔捕获的图像。”。“随着时间的推移观察细胞意味着MovieNet可以跟踪药物测试过程中最微妙的变化。”
展望未来,Cline和Hiramoto计划继续完善MovieNet适应不同环境的能力,增强其多功能性和潜在应用。
克莱恩说:“从生物学中汲取灵感将继续是推进人工智能的沃土。”。“通过设计像生物体一样思考的模型,我们可以实现传统方法根本无法实现的效率水平。”