向善而生的AI助盲，讓AI多一點，障礙少一點

浪潮信息

2023-01-06 14:44 3559

北京2023年1月6日 /美通社/ -- 有人說，盲人與世界之間，相差的只是一個黎明。在浪潮信息研發(fā)人員的心中，失去視力的盲人不會陷入永夜，科技的進步正在力圖給每一個人以光明未來。

AI助盲在人工智能賽道上一直是最熱門的話題之一。以前，讓失明者重見光明依靠的是醫(yī)學的進步或"奇跡"。而隨著以"機器視覺+自然語言理解"為代表的多模態(tài)智能技術的爆發(fā)式突破，更多的失明者正在借助AI提供的感知、理解與交互能力，以另一種方式重新"看見世界"。

新契機：多模態(tài)算法或將造福數(shù)以億計失明者

科學實驗表明，在人類獲取的外界信息中，來自視覺的占比高達70%~80%，因此基于AI構建機器視覺系統(tǒng)，幫助視障患者擁有對外界環(huán)境的視覺感知與視覺理解能力，無疑是最直接有效的解決方案。

一個優(yōu)秀的AI助盲技術，需要通過智能傳感、智能用戶意圖推理和智能信息呈現(xiàn)的系統(tǒng)化發(fā)展，才能構建信息無障礙的交互界面。僅僅依靠"一枝獨秀"超越人類水平的單模態(tài)人工智能比如計算機視覺技術還遠遠不夠，以"機器視覺+自然語言理解"為代表的多模態(tài)算法的突破才是正確的新方向和新契機。

多個模態(tài)的交互可以提升AI的感知、理解與交互能力，也為AI理解并幫助殘障人士帶來了更多可能。浪潮信息研發(fā)人員介紹說，多模態(tài)算法在AI助盲領域的應用一旦成熟，將能夠造福數(shù)以億計的失明者。據(jù)世衛(wèi)組織統(tǒng)計，全球至少22億人視力受損或失明，而我國是世界上盲人最多的國家，占世界盲人總數(shù)的18%-20%，每年新增的盲人數(shù)量甚至高達45萬。

大挑戰(zhàn)：如何看到盲人"眼中"的千人千面

AI助盲看似簡單，但多模態(tài)算法依然面臨重大挑戰(zhàn)。

多模態(tài)智能算法，營造的是沉浸式人機交互體驗。在該領域，盲人視覺問答任務成為學術界研究AI助盲的起點和核心研究方向之一，這項研究已經(jīng)吸引了全球數(shù)以萬計的視障患者參與，這些患者們上傳自己拍攝的圖像數(shù)據(jù)和相匹配的文本問題，形成了最真實的模型訓練數(shù)據(jù)集。

但是在現(xiàn)有技術條件下，盲人視覺問答任務的精度提升面臨巨大挑戰(zhàn)：一方面是盲人上傳的問題類型很復雜，比如說分辨冰箱里的肉類、咨詢藥品的服用說明、挑選獨特顏色的襯衣、介紹書籍內容等等。

另一方面，由于盲人的特殊性，很難提取面前物體的有效特征。比如盲人在拍照時，經(jīng)常會產(chǎn)生虛焦的情況，可能上傳的照片是模糊的或者沒有拍全，或者沒拍到關鍵信息，這就給AI推理增加了難度。

為推動相關研究，來自卡內基梅隆大學等機構的學者們共同構建了一個盲人視覺數(shù)據(jù)庫"VizWiz"，并發(fā)起全球多模態(tài)視覺問答挑戰(zhàn)賽。挑戰(zhàn)賽是給定一張盲人拍攝的圖片和問題，然后要求給出相應的答案，解決盲人的求助。

另外，盲人的視覺問答還會遭遇到噪聲干擾的衍生問題。比如說，盲人逛超市，由于商品外觀觸感相似，很容易犯錯，他可能會拿起一瓶醋卻詢問醬油的成分表，拿起酸奶卻詢問牛奶的保質期等等。這種噪聲干擾往往會導致現(xiàn)有AI模型失效，沒法給出有效信息。

最后，針對不同盲人患者的個性化交互服務以及算法自有的反饋閉環(huán)機制，同樣也是現(xiàn)階段的研發(fā)難點。

多解法：浪潮信息AI助盲靶向消滅痛點

AI助盲哪怕形式百變，無一例外都是消滅痛點，逐光而行。浪潮信息多模態(tài)算法研發(fā)團隊正在推動多個領域的AI助盲研究，只為幫助盲人"看"到愈發(fā)精彩的世界。

在VizWiz官網(wǎng)上公布的2萬份求助中，盲人最多的提問就是想知道他們面前的是什么東西，很多情況下這些物品沒法靠觸覺或嗅覺來做出判斷，例如 "這本書書名是什么？"為此研發(fā)團隊在雙流多模態(tài)錨點對齊模型的基礎上，提出了自監(jiān)督旋轉多模態(tài)模型，通過自動修正圖像角度及字符語義增強，結合光學字符檢測識別技術解決"是什么"的問題。

盲人所拍攝圖片模糊、有效信息少？研發(fā)團隊提出了答案驅動視覺定位與大模型圖文匹配結合的算法，并提出多階段交叉訓練策略，具備更充分的常識能力，低質量圖像、殘缺的信息，依然能夠精準的解答用戶的求助。

目前浪潮信息研發(fā)團隊在盲人視覺問答任務VizWiz-VQA上算法精度已領先人類表現(xiàn)9.5個百分點，在AI助盲領域斬獲世界冠軍兩項、亞軍兩項。

真實場景中的盲人在口述時往往會有口誤、歧義、修辭等噪聲。為此，研發(fā)團隊首次提出視覺定位文本去噪推理任務FREC，F(xiàn)REC提供3萬圖片和超過25萬的文本標注，囊括了口誤、歧義、主觀偏差等多種噪聲，還提供噪聲糾錯、含噪證據(jù)等可解釋標簽。同時，該團隊還構建了首個可解釋去噪視覺定位模型FCTR，噪聲文本描述條件下精度較傳統(tǒng)模型提升11個百分點。上述研究成果已發(fā)表于ACM Multimedia 2022會議，該會議為國際多媒體領域最頂級會議、也是該領域唯一CCF推薦A類國際會議。

在智能交互研究方面上，浪潮信息研發(fā)團隊構建了可解釋智能體視覺交互問答任務AI-VQA，同時給出首個智能體交互行為理解算法模型ARE。該研究成果已發(fā)表于ACM Multimedia 2022會議。該研究項目的底層技術未來可廣泛應用于AI醫(yī)療診斷、故事續(xù)寫、劇情推理、危情告警、智能政務等多模態(tài)交互推理場景。

眼球雖然對溫度并不敏感，但浪潮信息的研發(fā)團隊，卻在努力讓盲人能"看"到科技的溫度，也希望吸引更多人一起推動人工智能技術在AI助盲、AI反詐、AI診療、AI災情預警等更多場景中的落地。有AI無礙，跨越山海?？萍嫉膫ゴ笾幉粌H僅在于改變世界，更重要的是如何造福人類，讓更多的不可能變成可能。當科技成為人的延伸，當AI充滿人性光輝，我們終將在瞬息萬變的科技浪潮中感受到更加細膩溫柔的善意，見證著更加光明宏大的遠方。

消息來源：浪潮信息