天津理工大學鯨言創益團隊研發手語實時翻譯系統——
讓人工智能看懂手語(解碼·走近新職業)
核心閱讀
一邊是聽障人士打著手語,一邊是屏幕上自動“翻譯”出文字。為了讓更多聽障人士被“聽見”,天津理工大學鯨言創益無障礙智能科技研發團隊用近5年時間,構建起視頻語料庫,研發“復雜場景下中國手語實時翻譯系統”,讓人工智能技術帶給人們更多便利。
攝像頭前,張益彬左右手交替揮舞,嘴角伴隨手語動作微微上揚,一旁的顯示屏上,“陽光總在風雨后”7個字立刻顯示出來……
張益彬是天津理工大學聾人工學院網絡工程專業2019級學生,也是該校鯨言創益無障礙智能科技研發團隊的成員。在這個近60人的團隊中,超過一半成員是和張益彬一樣的聽障學生,他們用近5年時間構建起一個包含30余萬條視頻的語料庫。如今,團隊打造的“復雜場景下中國手語實時翻譯系統”即將落地應用。
大膽嘗試,將手語實時翻譯為語音或文字
2006年,袁甜甜成為天津理工大學聾人工學院計算機系的一名教師,對她來說,教學最大的困難是交流障礙。
當時,語音識別軟件尚未問世,學生又都是聽障人士,袁甜甜隻能硬著頭皮自學手語,“一堂課下來,手舞足蹈,經常滿頭大汗,一望台下,學生們還是一臉茫然。”袁甜甜說,向學生傳遞信息很難,難上加難的是了解學生的想法。
第二次全國殘疾人抽樣調查數據顯示,我國約有聽障人士2780萬人。“時至今日,手語仍是聽障人士的‘母語’。”袁甜甜說,盡管近年來語音識別軟件普及,但表達的邏輯出發點始終繞不開健聽人,“對於聽障人士來說,聽懂是一方面,但他們最渴望的,還是被‘聽見’。”
2016年底,手語識別系統的雛形開始在袁甜甜腦海中清晰起來。“聽障人士在攝像頭前打出手語,視頻畫面經過計算機的分析處理,轉換為文字或者語音。”袁甜甜闡釋設想,創新的邏輯出發點從健聽人變成了聽障人,也意味著沒有成熟的方案可以借鑒。“這是一次關乎‘表達’的探險。”袁甜甜說。
構建算法,給計算機編一套手語教材
如果說“手語識別”和“語音識別”還有一些相似之處,那就是二者都必須依托於豐富的語料庫。如今,語音識別語料庫已十分成熟豐富,“語音的語料在自然狀態下非常便於獲取,但手語語料卻非常少。”袁甜甜說。
“另外,語音是一種‘單信道’的形式,而手語是‘多信道’,計算機要識別的不隻有動作,還有表情和場景。”袁甜甜介紹,從對數據採集的支撐程度看,我國目前手語語言學的體系性並不強,“手語方言”比比皆是,這就給數據採集造成了極大困難。
“要將設想變為現實,就要先確立標准。”袁甜甜說,她和團隊成員確定了先易后難的思路,基於國家通用手語的標准採集數據,“簡單來講,我們翻譯的是手語裡的‘普通話’。”
王建源是聾人工學院網絡工程專業2018級學生,也是鯨言創益團隊的初創成員。他的工作是收集手語語料,這些語料便是視頻畫面。“招募志願者,請他們來錄視頻,反反復復地錄。”王建源“說”。
王建源從小在特殊學校求學,父母也都是聽障人士,他從不避諱在健聽人面前打出手語,因為他覺得手語很美。“但是,手語的美是復雜的,這個工程量太大了!”王建源笑著“說”。
兩年時間裡,王建源和團隊其他成員幾乎每天都准時出現在學院的實驗室,有時忙到很晚,干脆席地而睡。如今,他們已經收集到30余萬條語料,“經過測算對比,距離中國漢語水平考試的4級水平僅差100多個詞了。”王建源介紹。
手語是一門視覺語言,有特定的語法、語序。手勢、表情、肢體動作自由排列組合,表達的便是不同的意思。在袁甜甜的設想中,這套系統呈現的內容,不應該是由漢語單詞羅列而成的句子,而是在輸入端和輸出端既要遵循手語語序、語境,也要符合漢語的表述邏輯。
天津理工大學計算機學院研一學生孫悅把自己在團隊中的工作形容為“修橋”。“就拿‘陽光總在風雨后’這句話來說,手語的語序是‘風/雨/結束/陽光’,這顯然讓人看不懂。”孫悅說,她和伙伴們逐漸構建起一套手語識別算法框架模型,“通俗來說,就是我們給計算機編了一套‘手語教材’。”有了這套“教材”,豐富的語料庫就有了用武之地,相當於找到了手語轉換為漢語的規律,“橋”修通了,數據才能跑得順暢。如今,這個模型已經基本能夠實現“復雜場景下的手語實時翻譯”。
搭建橋梁,手語翻譯應用於更多場景
2019年,袁甜甜領銜的“復雜場景下中國手語實時翻譯系統”入選工信部新一代人工智能產業創新重點任務揭榜項目,並獲得國家資金支持,這也加快了整個團隊前進的步伐。
去年5月,他們把研究成果帶進了在天津舉行的第五屆世界智能大會的會場,獲得點贊。“當時系統已經涵蓋教育、法律、餐飲、交通等應用場景,在光線充足的環境下,識別率可達95%。”袁甜甜說,如今,這套系統還在升級,“我們的目標是100萬條語料,基本覆蓋社會生活的常用場景。”
最讓張益彬難忘的是,去年10月,他和團隊合力研發的項目《“鯨可語”——多模態連續手語自動標注識別系統》榮獲第七屆中國國際“互聯網+”大學生創新創業大賽全國總決賽金獎,而自動標注識別是手語翻譯的關鍵一環。這也証明了“張益彬們”的努力得到了國內科創界的高度關注。
聞訊而來的合作方越來越多,這讓團隊成員對於系統未來的應用場景有了無盡暢想。不久前,天津市急救中心也找到他們,希望引入這套系統。“經常碰到急救對象是聽障人士,生命垂危之際,打字交流效率太低了,往往隻能用手語表達。”袁甜甜說。
今年之內,這套系統將應用於天津理工大學的辦公樓。到時,樓內大廳將出現一個交互機器人和一塊交互大屏,所有聽障人士都可以被“聽見”。
《 人民日報 》( 2022年07月08日 第 11 版)
分享讓更多人看到
- 評論
- 關注