一項新技術可以在很大程度上將大腦活動轉化為合成語音,從而真正地恢復那些失去談話能力的人的天賦。加州大學舊金山分校(UCSF)的神經科學家建立了一個腦機介面,透過一個新穎的兩步過程來解釋來自大腦語言區的訊號。
研究人員不是試圖將大腦活動直接轉化為聲音,而是將神經訊號轉換為人的聲道用來以數字方式創造這些聲音的運動。
結果是人工語音更接近真實的人聲,並且開始接近正常的談話速度。
去年,麻省理工學院採用了一種切向相關的方法,使用耳機接收從大腦傳送到嘴巴和下巴的訊號。
新系統正在Chang的實驗室中開發,該團隊的進展在週三發表在《自然》雜誌上的一篇新論文中有所概述。
研究人員與少數志願者進行了這項研究,這些志願者已經在他們的大腦中植入了臨時電極,為神經外科治療癲癇做準備。當他們的大腦活動被記錄下來時,他們被要求大聲讀出幾百個句子。這些資料以及參與者語音的錄音,使科學家們能夠建立一個虛擬的聲道。然後,可以透過大腦活動來控制用於建立語音的解剖結構的詳細計算機模擬。下面的影片顯示了一些結果示例。
“這項研究首次表明,我們可以根據個人的大腦活動生成完整的口語句子,”Chang在一份宣告中說。“這是一個令人振奮的原理證據,即已經觸手可及的技術,我們應該能夠構建一種在語言丟失患者中具有臨床可行性的裝置。”
目前,許多嚴重語言障礙患者的裝置需要逐字拼寫思考,每分鐘最多產生10個單詞。但是一個可以翻譯整個句子的系統可以讓人們更快速地進行交流,甚至可以以接近每分鐘100-150個自然語音的速度進行交流。
“作者的兩階段方法導致聲學失真明顯減少,”未參與研究的生物醫學工程師Chethan Pandarinath和Yahia H. Ali說道。“然而,仍然存在許多挑戰......重建語音的可懂度仍遠低於自然語音的清晰度。”
新研究的共同作者Josh Chartier堅持認為,他們的系統產生的準確性水平會改進現有技術,但承認有一種方法可以完美地模仿口語。
“我們非常善於合成較慢的語音,如"sh"和"z",以及保持語音的節奏和語調以及說話者的性別和身份,但是一些更生硬的聲音,如"b"和"p"得到有點模糊。“
另一個有希望的發現是,用於聲音運動的神經程式碼不一定是每個人獨有的。“無法移動手臂和腿的人已經學會用大腦控制機器人肢體,”Chartier說。“我們希望有一天,有語言障礙的人能夠學會用這種腦控制的人工聲道再次說話。”
一項新技術可以在很大程度上將大腦活動轉化為合成語音,從而真正地恢復那些失去談話能力的人的天賦。加州大學舊金山分校(UCSF)的神經科學家建立了一個腦機介面,透過一個新穎的兩步過程來解釋來自大腦語言區的訊號。
研究人員不是試圖將大腦活動直接轉化為聲音,而是將神經訊號轉換為人的聲道用來以數字方式創造這些聲音的運動。
結果是人工語音更接近真實的人聲,並且開始接近正常的談話速度。
去年,麻省理工學院採用了一種切向相關的方法,使用耳機接收從大腦傳送到嘴巴和下巴的訊號。
新系統正在Chang的實驗室中開發,該團隊的進展在週三發表在《自然》雜誌上的一篇新論文中有所概述。
研究人員與少數志願者進行了這項研究,這些志願者已經在他們的大腦中植入了臨時電極,為神經外科治療癲癇做準備。當他們的大腦活動被記錄下來時,他們被要求大聲讀出幾百個句子。這些資料以及參與者語音的錄音,使科學家們能夠建立一個虛擬的聲道。然後,可以透過大腦活動來控制用於建立語音的解剖結構的詳細計算機模擬。下面的影片顯示了一些結果示例。
“這項研究首次表明,我們可以根據個人的大腦活動生成完整的口語句子,”Chang在一份宣告中說。“這是一個令人振奮的原理證據,即已經觸手可及的技術,我們應該能夠構建一種在語言丟失患者中具有臨床可行性的裝置。”
目前,許多嚴重語言障礙患者的裝置需要逐字拼寫思考,每分鐘最多產生10個單詞。但是一個可以翻譯整個句子的系統可以讓人們更快速地進行交流,甚至可以以接近每分鐘100-150個自然語音的速度進行交流。
“作者的兩階段方法導致聲學失真明顯減少,”未參與研究的生物醫學工程師Chethan Pandarinath和Yahia H. Ali說道。“然而,仍然存在許多挑戰......重建語音的可懂度仍遠低於自然語音的清晰度。”
新研究的共同作者Josh Chartier堅持認為,他們的系統產生的準確性水平會改進現有技術,但承認有一種方法可以完美地模仿口語。
“我們非常善於合成較慢的語音,如"sh"和"z",以及保持語音的節奏和語調以及說話者的性別和身份,但是一些更生硬的聲音,如"b"和"p"得到有點模糊。“
另一個有希望的發現是,用於聲音運動的神經程式碼不一定是每個人獨有的。“無法移動手臂和腿的人已經學會用大腦控制機器人肢體,”Chartier說。“我們希望有一天,有語言障礙的人能夠學會用這種腦控制的人工聲道再次說話。”