脑电波破译大赛!神经科学家如何让大脑"开口说话"?

2025-04-22ASPCMS社区 - fjmyhfvclm

4月22日消息,神经科学家正通过快速发展的技术探索,致力于利用脑电波恢复或增强身体机能,为失语者重建发声通道,将无声思维转化为可闻语音。

美国加州多所高校以及纽约Precision Neuroscience等公司,正将脑机接口技术与人工智能结合起来,在生成自然语音方面取得技术突破。

长期以来,科学研究和相关投资与关注长期聚焦于帮助重度残障人士操控计算机键盘、控制机械臂或恢复瘫痪肌体功能的植入式设备。现如今,部分实验室另辟蹊径,专注于研发能将思维模式直接转化为语音的技术,并已取得显著进展。

“我们已经取得长足的进步,这项研究的主要目标是让脑信号转译的合成语音达到常人对话的流畅度,”加州大学旧金山分校(UCSF)神经外科医生张复伦(Edward Chang)表示,“我们所用的人工智能算法不断优化,每有新的受试者加入,都能带来更多宝贵经验。”

上月,张复伦团队联合加州大学伯克利分校在《自然·神经科学》发表论文,详细介绍他们对一位四肢及躯干瘫痪达18年、因中风丧失言语能力的女性患者所开展的研究。这名患者通过默念由1024个词汇组成的句子来训练深度学习神经网络。研究人员将她的神经活动数据实时传输至一个集语音合成与文本解码于一体的模型,重建她的发声。

这种技术已经将脑电波信号与输出语音之间的延迟时间从之前的8秒缩短至1秒,更接近正常对话100-200毫秒的时间差。系统平均解码速度达到每分钟47.5个单词,大约是常人语速的三分之一。

每年有数以万计的患者可从这种“语音假体”技术中受益:他们认知功能基本完好,却因中风、渐冻症等神经退行性疾病或其他脑部病变丧失发声功能。研究人员期待,若技术持续突破,还可助力脑瘫或自闭症等导致语言障碍的人群。

企业界也开始关注语音神经假体的潜力。Precision Neuroscience宣称,凭借更为密集的植入电极,公司采集到的脑电波信号分辨率比学术机构更高。

Precision Neuroscience已经与31名患者合作,计划很快扩大数据采集规模,为产品商业化铺路。今年4月17日,Precision Neuroscience获得监管部门批准,传感器单次植入受试者体内时间最长可达30天。公司首席执行官迈克尔·马杰(Michael Mager)表示:“这将使我们的科学家能够在一年内构建起’地球上最大规模高分辨率神经数据库’。”

马杰透露,Precision Neuroscience下一步计划“将组件小型化并置于生物相容性密封封装中,以实现永久植入。”

相比之下,埃隆·马斯克(Elon Musk)麾下的脑机接口公司Neuralink则侧重开发瘫痪患者的计算机操控功能,而非语音合成领域。

要让脑电波顺畅直译为语音,最大技术瓶颈在于目前患者需要花费大量时间学习如何使用系统。荷兰乌得勒支大学医学中心脑机接口专家尼克·拉姆齐(Nick Ramsey)表示,关键是语言运动皮层(控制自主行动的大脑区域)的神经响应模式是否存在个体差异:如果人与人之间的模式趋同,那么用先前受试者数据训练的机器学习模型就可以快速适配新患者。

拉姆齐说,“目前我们还需要让受试者看着文字默念数十甚至数百小时,才能生成足够的数据。若能快速适配,就可以大幅缩短数据训练周期。”

他还强调,现有研究均聚焦于运动皮层对发声肌肉的调控机制,尚无证据显示其他大脑区域或思维活动可被解码为语音。“即便可行,人们未必愿意坦露内心独白,”拉姆齐补充道,“毕竟许多想法真说出口或许伤人伤己。”

加州大学戴维斯分校神经假体实验室联合主任谢尔盖·斯塔维斯基(Sergey Stavisky)坦言,实现媲美自然语言的合成技术“道阻且长”。可能仍需相当长的时间。他所在的团队虽实现98%的想要表达内容的解码准确率,但语音输出存在延迟且缺乏音调等关键特征。斯塔维斯基说,现有电极硬件能否支持合成与人声无异的语音仍是未知数。

他强调,科学家们还需深入研究大脑的语音编码机制,开发更精准的神经信号转译算法。

斯塔维斯基补充,“理想中的语音神经假体应当完整复现人类声音的表现力,让使用者精准控制音高、节奏,甚至实现歌唱功能。”(辰辰)

全部评论