https://mp.weixin.qq.com/s/fyXVvmpl_12sS-khxuYcPQ

By 超神经

场景形貌:行使神经网络将人语言时,响应大脑区域的神经信号举行解码,然后使用循环神经网络将信号合成为语音,可辅助语言障碍患者解决语言相同问题。

关键词:循环神经网络 解码器 脑机接口 语音合成

「读心术」可能真的要实现了。

语言对大多数人来说是一件再寻常不外的事。然则,这个世界上另有许多人,遭受这些疾病的折磨:中风、创伤性脑损伤、神经系统变性疾病如帕金森病、多发性硬化症和肌萎缩侧索硬化症(ALS 或 Lou Gehrig 病)等,他们往往因此损失语言能力,且不可逆转。

科学家们一直在恢复人体功效、神经修复方面做着起劲,脑机接口(brain-computer interface,BCI)即是一个重点领域。

脑机接口指的是,在人或动物大脑与外部装备之间建立的直接毗邻,实现脑与装备的信息交流。


脑机接口中的「脑」指的是有机生命形式的
脑或神经系统,并非仅仅指大脑

然则似乎一直以来,脑机接口都是一个遥远的观点。而今天,顶尖学术期刊《Nature》上揭晓的论文《Speech synthesis from neural decoding of spoken sentences》(《口语语句神经解码的语音合成》),让我们看到脑机接口领域的研究向前迈进了一大步。

语言障碍患者的逆境

事实上,脑机接口的研究已经延续跨越 40 年。但至今最乐成、临床应用最普及的只有人工耳蜗等感受修复手艺。

至今,一些患有严重语言障碍的人,仍然只能使用辅助装备逐字逐句地表达他们的想法。

这些辅助装备能够跟踪异常细微的眼睛或面部肌肉运动,凭据患者动作示意去拼写词句。

物理学家霍金,他的轮椅上就曾安装这样的装备。


霍金依赖语音合成器来「语言」,他曾使用过多套辅助交流系统

那时,霍金靠红外线检测到的肌肉运动来发出下令,确认电脑光标扫描过的字母,写下他想要的文字。之后,再行使文字转语音装备把话「说」出来。正是借助这些黑科技,我们才能够看到他的著作《时间简史》。

然而,用这样的装备发生文本或合成语音不仅艰苦,还易失足,而且合成速率异常慢,通常允许每分钟最多 10 个单词。霍金那时速率已经很快,然则也只能拼出 15-20 个单词。而自然语音每分钟能到达 100 到 150 个单词。

此外,这种方式还严重受限于操作者自身的肌体运动能力。

为解决这些难题,脑机接口领域一直在研究若何直接将脑皮层响应电信号解读成语音。

神经网络解读大脑信号合成语音

现在,这个难题迎来了突破性希望。

加州大学旧金山分校的神经外科教授 Edward Chang 与同事在此次揭晓的论文《口语语句神经解码的语音合成》中,提出其建立的脑机接口能将人讲话时发生的神经信号解码,并合成为语音。系统每分钟能够天生 150 单词,靠近人类正常讲话语速。

论文第一作者 Gopala Anumanchipalli 拿着一组
用于纪录当前研究中的大脑流动的示例性颅内电极

该团队研究人员招募正在接受治疗的五名癫痫病人,让他们高声说出几百个句子,与此同时,将他们的高密度脑电图(ECoG)信号纪录下来,并跟踪大脑的语音发生中央——腹侧感受运动皮层区域的神经流动。

行使循环神经网络(RNN),研究人员分两步破译了采集到的神经信号。

第一步,他们将神经信号转换为表征发音器官动作的信号,包罗下巴、喉、嘴唇和舌头动作相关的脑信号。

,

联博统计

www.yahongf.com采用以太坊区块链高度哈希值作为统计数据,联博以太坊统计数据开源、公平、无任何作弊可能性。联博统计免费提供API接口,支持多语言接入。

,

第二步,凭据解码出来的发音器官动作,把信号转换为说出的词句。


脑机接口实现语音合成的步骤图示

在解码流程上,研究者首先将患者语言时,三个脑区域表层的延续电图信号解码,这些电图信号由侵入式电极纪录。

解码后获得 33 种发音器官运动特征指标,随后将这些运动特征指标解码为 32 项语音参数(包罗音高(pitch)、清浊(voicing)等),最终凭据这些参数合成语音声波。

为剖析合成语音对真实语音的重现准确度,研究人员将原始语音与合成语音的声波特征作了对照,发现神经网络解码的语音,相当完整地重现了患者所述原始语句中的单个音素,以及音素间的自然毗邻和停留。


原始语音声波(上)与合成语音声波(下)对比

之后,研究人员以众包方式,让网友来识别解码器合成的语音。最后效果是,倾听者复述合成语音内容的乐成率靠近70%。

此外,研究人员还测试了解码器对于不作声语言的语音合成能力。测试者先说出一个句子,然后默念统一个句子(有动作,但不作声)。效果显示,解码器对默念动作合成的语音频谱与统一句子的有声频谱是相似的。

口语句子神经解码的语音合成演示

里程碑:挑战与期待并存

「这项研究首次解释,我们可以凭据小我私家的大脑流动天生完整的口语句子,」Edward Chang 说,「这令人振奋。这是已经触手可及的手艺,我们应该能够为语言功效丢失患者,构建具有临床可行性的装备。」


Edward Chang 博士的研究重点是
言语、运动和人类情绪的大脑机制

论文第一作者 Gopala Anumanchipalli 弥补说:「我很自豪能够将神经科学,语言学和机械学习的专业知识,作为辅助神经残疾患者这一主要里程碑的一部分。」

固然,要真正地百分百实现语音合成的脑机接口语音交互,依然存在许多挑战,好比患者是否能接受侵入式手术安装电极、实验中的脑电波是否与真实患者的脑电波相同等等。

然则,从这项研究中,我们看到了语音合成脑机接口不再是一个观点。

期待未来某一天,语言障碍患者能够早日重获「语言」的能力,早日倾吐他们的心声。

超神经百科

前馈神经网络 Feedforward Neural Networks

前馈神经网络是人工智能领域中,最早发现的简朴人工神经网络类型。在它内部,参数从输入层向输出层单向流传。有异于递归神经网络,它的内部不会组成有向环。

前馈(feedforward)也可以称为前向,从信号流向来明白就是输入信号进入网络后,信号流动是单向的,即信号早年一层流向后一层,一直到输出层,其中随便两层之间的毗邻并没有反馈(feedback),亦即信号没有从后一层又返回到前一层。若是从输入输出关系来明白,则为当输入信号进入后,输入层之后的每一个层都将前一个层的输出作为输入。

当前馈神经网络中层与层之间的信号有反向流动,或者自输入时,我们则称这种网络为循环神经网络。

在深度前馈网络中,链式结构也就是层与层之间的毗邻方式,层数就代表网络深度。