福彩三d走势图:無障礙日特輯:手語翻譯應用意味著什么?

腦極體 2019-05-17

走势图大乐透 www.xbvsc.icu

原標題:無障礙日特輯:手語翻譯應用意味著什么?

相信在人們的印象里,AI都是一個屬于“大多數”的技術門類。

所謂大多數,第一意味著相關數據量大、便于累積,適用于AI對海量數據極度依賴的特性;第二意味著應用場景廣泛、便于變現回收成本,適用于AI研發的高門檻投入。

目前我們身邊常常出現的人臉識別、語音交互等等,其實都符合以上這些特征。不過這并不意味著,屬于“少數派”的AI是一片空白。

在“全球無障礙宣傳日”這個特別的日子,我們不如把目光投向于那些能夠消弭“少數與多數”區別的技術發展,例如服務于聽障人群的手語識別,就是一個典型的例子。

你我不懂的手語,為什么AI也很難讀懂?

手語是用手勢比量動作,根據手勢的變化模擬形象或者音節以構成的一定意思或詞語,是聽障人群獨有的一種溝通方式。但這種溝通方式雖然能讓聽障人士之間彼此溝通,或讓理解手語的普通人與之溝通,但仍然不能滿足聽障人士與普羅大眾之間的交流需求。

這便意味著在一些社會公共空間之中,例如政務場景或服務業場景,聽障人士可能都會遇到一些不便。


而AI,恰好成為了一種解決方案。

我們在一些軟件中,已經開始應用到了AI的手勢識別能力,像是拍照時“比心”來觸發一些AR特效。將這種對于手勢的捕捉,和手勢語義對應起來,不就能實現對于手語的翻譯和生成了嗎?

這一邏輯是正確的,可從邏輯正確到應用可行,卻還隔著一段不短的路程。

首先,手語的表達有一定的特殊性,想進行捕捉并不容易。

我們知道在“比劃手勢”這種行為上,本來就不存在絕對的精準度,加之一些手語詞匯的表達非常接近,而且手語表達通常是以句子為單位,詞與詞之前不會有明顯的間隙。以往手勢識別中利用前置攝像頭捕捉的方式,基本是不可行的。

于是很多科技和團隊給出的解決方案是加以外設,例如中科大和微軟推出了基于Kinect的手語翻譯系統,加州大學曾經推出過的手語識別手套等等就是這樣??燒廡┩饃枰幢閾潭鵲?,要么造價昂貴,推廣起來有很大的困難。

同時,手語表達同樣也有國別性和地域性,在模型通用性上存在著困難。

手語中有“文法手語”和“自然手語”兩個概念,文法手語既是通用的普通話,至于自然手語則如同方言一般,在國別、地方甚至城市之間都有著不小的差異。這也造成了手語數據收集、標注會是一項成本高、工作量大的事情。

例如亞馬遜曾經提出過,對智能音箱Alex進行改造可以使其翻譯出一些簡單的信號??墑且蛭狽Υ蠊婺5難盜肥菁?,目前這一功能只能識別出一些簡單的美國手語,停留在實驗室階段。

手語破題沒有秘法:騰訊優圖的平權精神

雖然探索艱難,但科技企業們還是不斷在手語AI上取得成果。

例如騰訊優圖實驗室在今天推出聯合深圳市信息無障礙研究會發布的“優圖AI手語翻譯機”,就在手語AI的應用上邁出了跨越性的一步。

優圖AI手語翻譯機的突破性意味存在于兩方面,一方面是手語AI本身技術的進展,另一方面是應用場景的突破。

在手語AI技術本身上,可以分為識別模型和數據集兩個解決路徑。在數據集上,優圖通過和社會相關機構以及聽障人士的接觸自建了手語識別數據集,目前這一數據集已經實現了近千句日常表達和900個常用詞匯的覆蓋,是當前規模最大的中文手語識別數據集。而且這一數據集針對手語表達的地方性差異,做出了表達習慣和速度上的多樣性拓展。

至于識別模型上,優圖也提出了一些更新的算法搭建概念,例如通過2D卷積神經網絡和3D卷積神經網絡分別提取手勢中靜態和動態的信息,經由綜合處理來提升視頻識別效果,徹底擺脫其他傳感器的桎梏。同時針對手語表達的整句化的現象,優圖在視頻幀的最后加入了詞級信息挖掘,對特征提取器提出的信息進行核驗,進一步去確定手勢對詞語表達邊界,除了提升識別精準度以外,還能提升對自然手語中地域表達的總結能力。在此基礎上,優圖還在算法模型中引入了上下文理解能力,以便于面對更加復雜的手語識別翻譯需求。

不過技術雖然得以提升,應用場景端仍然會受到一些限制。

由于高精度算法對于算力的要求較高,目前優圖AI手語翻譯機還需要依賴于高性能計算機的后臺運算;且因為通過圖像視頻進行識別,對于復雜場景的辨識度還不高,因此優圖AI手語翻譯機的應用規劃,是應用于探索在機場、高鐵、民政等公共服務場所之中,來彌補由于手語的低普及程度,聽障人士在這些場所里遇到的交流障礙,以技術協助共建一個信息無障礙的城市。

其實我們不難發現,優圖實驗室的優圖AI手語翻譯機雖然在手語翻譯準確率上大大提高,也為AI手語翻譯找到了可行的應用方案,可如果將技術拆分來看就能發現,優圖AI手語翻譯機技術突破原因,并不是在某項基礎科學上突然取得了什么驚人的突破,而是在研發和數據累積上一貫長期的投入,才能解脫于以往手語語料庫匱乏的困境,在算法上不斷迭代。

換句話說,騰訊在“少數派”的AI技術中投入了幾乎與“大多數”AI技術相匹配的精力與財力。對于AI產業來說,這無疑是一種平權精神。

從以人為本到科技向善:我們為何要對技術洋流的引導更加主動?

騰訊這種看似“逆勢而行”的做法,其實也是AI產業中一種隱隱冒出勢頭的洋流方向。

幾天以前,在福州的數字中國峰會上,馬化騰首次提到了“科技向善”這一概念,提出“我們希望‘科技向善’成為未來騰訊愿景與使命的一部分。我們相信,科技能夠造福人類;人類應該善用科技,避免濫用,杜絕惡用;科技應該努力去解決自身發展帶來的社會問題?!?/p>

無獨有偶,李飛飛在回歸斯坦福后,就著手創辦了HAI研究所(以人為本斯坦福人工智能研究所),并在今年開始擔任所長。HAI的研究目標,就是推動AI技術向造福人類的方向發展,預測AI對人類生活的切實影響。

科技巨頭和學界旗幟都將目光投向了同一方向,是因為人們已經開始逐漸發現AI、5G、產業數字化等等技術力量的勢頭之強,已經到了不得不對其加以引導甚至約束的地步。

如同上文所說,科技企業在這一波技術發展的過程中,起到了很大的促進作用,而逐利自然是企業的本能和天性,因此企業會率先投身于那些滿足大多數人、應用場景廣泛、研發成本相對低的技術。

這種行為本身無可厚非,但AI等等新技術帶來的效率提升實在過于顯著,是否會會對那些暫時無法接入新技術的領域和群體進行擠壓甚至邊緣化,是很多人都在思考的一個問題。

例如隨著英漢日法俄等等主流語種的機器翻譯能力不斷增強,那些語料庫不充足、應用人數更少的小語種是否會因為得不到技術賦能,而被進一步地邊緣化?

同樣的,當公共事務辦理越來越多的被語音交互、圖像識別等等AI技術替代,聽障、視障群體在獲取服務時會不會遇到更多麻煩?

類似的情況其實已經發生:2018年年底,聯合國發布了對英國政府數字化成果的報告,結果是數據顯示在英格蘭,自2010年以來無家可歸者增加了60%,保障住房的等待名單上有120萬人,用來救濟窮人的食品銀行需求量增長了近四倍——因為很多貧困人群并不知道如何在互聯網上申請貧困補助,甚至家里都沒辦法連接互聯網,最終只能在貧困中越陷越深。

很多時候,即使是無惡意的技術,也可能會出現無法預測走向。我們對于科技向善的引導,或許應該更主動一些。

結束語

最后,我們不如來看看這樣一組數字:

據2017年北京聽力協會預估數據,我國聽障人群數量約達到7200萬。在全球范圍內,世界衛生組織發布的最新數據顯示,全世界有共計約4.66億人患有殘疾性聽力損失。

——你看,這世界上所謂“大多數”和“少數派”本來就是一個相對性的概念,并不存在黑白鮮明的區隔。尤其對于AI這種善于模仿人類能力的技術來說,它的存在本可以推倒阻礙各個群體溝通交流的空氣壁,而不是讓這種趨勢愈演愈烈。我們關于利用技術搭建美好世界的目標,既然可以不拋下任何一個人,就不該拋下任何一個人。

好在從服務于聽障人群的手語識別翻譯上,我們已經能看到這種趨勢走向——精于計算的大腦不是AI唯一的模擬對象,還有人類的熾熱心臟。我們相信,在學界和巨頭的引導之下,未來會有越來越多的企業關注到無障礙AI技術的發展,不斷的打破各種隔膜阻礙。

愛雖沉默,也有回響。

AI雖沉默,也有回響。

(免責聲明:此文內容為第三方自媒體作者發布的觀察或評論性文章,所有文字和圖片版權歸作者所有,且僅代表作者個人觀點,與極客網無關。文章僅供讀者參考,并請自行核實相關內容。投訴郵箱:[email protected]

  • 腦極體
    郵箱:[email protected]
    寫讓你腦洞大開且能看懂的人工智能、流媒體、海外科技
    分享本文到
江苏11选5任7技巧稳赚公式 彩票双面盘是什么意思 皇家时时彩计划软件 炸金花手机版下载安装 有藏分成功出款的吗 重庆时时在线开奖预测 半全场3串1稳赚技巧 斗地主棋牌提现 拉菲时时彩平台 重庆老时时彩 赛车稳赚七码倍投方案 超神冠军单双计划软件 手机怎么能机选双色球 竞彩足球比分直播500 uk大上海时时平台 扎金花技巧和手法