悉尼和舊金山2021年4月22日 /美通社/ -- 近期,澳鵬Appen與一家語(yǔ)音識(shí)別技術(shù)公司 -- MediaInterface達(dá)成合作,填補(bǔ)了其關(guān)鍵的數(shù)據(jù)空白,助力其實(shí)現(xiàn)快速部署新市場(chǎng)。
語(yǔ)音識(shí)別技術(shù)在醫(yī)療領(lǐng)域的應(yīng)用
幾年前,北京協(xié)和醫(yī)院曾開(kāi)展過(guò)一項(xiàng)關(guān)于文檔錄入工作量的調(diào)研。結(jié)果顯示,我國(guó)超過(guò)40%的醫(yī)生每天在計(jì)算機(jī)前進(jìn)行文字錄入的時(shí)間約為4小時(shí),超過(guò)一半的醫(yī)生每天進(jìn)行文字錄入的時(shí)間占工作總時(shí)間的40%。醫(yī)生們普遍對(duì)于提高病歷錄入效率有著強(qiáng)烈需求。
語(yǔ)音識(shí)別技術(shù)是一種相對(duì)成熟的解決方案。在許多歐美國(guó)家,語(yǔ)音識(shí)別技術(shù)在醫(yī)療領(lǐng)域的應(yīng)用已超過(guò)10年。近年來(lái),美國(guó)臨床中語(yǔ)音識(shí)別錄入的應(yīng)用比例更是已近20%。MediaInterface便是其中一家頗具代表性的語(yǔ)音識(shí)別技術(shù)公司。
更高效的醫(yī)療文檔工作流程
以德國(guó)為中心發(fā)散,MediaInterface已經(jīng)為歐洲許多國(guó)家的醫(yī)療機(jī)構(gòu)提供語(yǔ)音技術(shù)解決方案長(zhǎng)達(dá)20余年。如同它的名字一樣,其核心產(chǎn)品SpeaKING便是利用語(yǔ)音識(shí)別AI技術(shù)支持醫(yī)療文檔的高效工具。目前,該產(chǎn)品已幫助600+家醫(yī)院、700+家醫(yī)療機(jī)構(gòu)、75,000+名用戶(hù)實(shí)現(xiàn)速度更快、質(zhì)量更高的醫(yī)療文檔工作流程。
憑借20多年來(lái)在歐洲多個(gè)國(guó)家的成功經(jīng)驗(yàn),MediaInterface希望將業(yè)務(wù)拓展至法國(guó)。然而,在業(yè)務(wù)拓展的過(guò)程中,他們遇到了法語(yǔ)數(shù)據(jù)資源不足的問(wèn)題。
從德國(guó)到法國(guó)
盡管擁有20余年的行業(yè)經(jīng)驗(yàn),MediaInterface擁有的法語(yǔ)數(shù)據(jù)卻并不多。要想拓展法國(guó)市場(chǎng),MediaInterface必須建立全面的法語(yǔ)詞匯基礎(chǔ)。他們迫切需要具有高質(zhì)量語(yǔ)音轉(zhuǎn)錄功能的專(zhuān)業(yè)法語(yǔ)“詞典”。
這本“詞典”中,最大的數(shù)據(jù)空白是患者健康信息中經(jīng)常引用的法語(yǔ)姓名和地點(diǎn)。但這些數(shù)據(jù)卻難以獲?。骸稓W洲通用數(shù)據(jù)保護(hù)條例》規(guī)定,可供收集的健康數(shù)據(jù)必須匿名處理,因此不包括人名和地名。MediaInterface必須尋求專(zhuān)業(yè)的外部資源,在遵守當(dāng)?shù)財(cái)?shù)據(jù)法規(guī)的前提下,幫助他們填補(bǔ)這些重要的數(shù)據(jù)空白。
MediaInterface產(chǎn)品經(jīng)理Ines Wendler表示:“我們當(dāng)時(shí)正在向新市場(chǎng)拓展。盡管我們擁有先進(jìn)的技術(shù)和軟件,但數(shù)據(jù)資源的缺乏讓我們的產(chǎn)品難以在當(dāng)?shù)赝菩?。Appen的法語(yǔ)數(shù)據(jù)資源及時(shí)幫助了我們?!?/p>
快速部署新市場(chǎng)
MediaInterface與澳鵬Appen結(jié)緣于2015年的INTERSPEECH語(yǔ)音技術(shù)大會(huì)。此次法國(guó)市場(chǎng)的拓展則促成了雙方的合作。目前,MediaInterface已通過(guò)澳鵬獲取到約21,000個(gè)法國(guó)人名和14,000個(gè)法國(guó)地名,從而填補(bǔ)了最關(guān)鍵的數(shù)據(jù)空白。
澳鵬Appen通過(guò)種類(lèi)豐富的OTS成品數(shù)據(jù)集助力MediaInterface針對(duì)某一集中需求的產(chǎn)品開(kāi)發(fā),從而拓展到全新的市場(chǎng),并增強(qiáng)未來(lái)進(jìn)入更多市場(chǎng)的可能性。目前,MediaInterface已在法國(guó)全面覆蓋了醫(yī)療機(jī)構(gòu)對(duì)基本口述語(yǔ)音識(shí)別的需求,為法國(guó)客戶(hù)提供了較高的可信度。憑借數(shù)據(jù)資源的豐富,SpeaKING中的SmartLearning功能還可以讓用戶(hù)在其中添加自己的文本,以個(gè)性化現(xiàn)有詞匯,從而通過(guò)向基礎(chǔ)AI模型中添加數(shù)據(jù)的方式來(lái)提高語(yǔ)音識(shí)別的效果。
就MediaInterface而言,澳鵬數(shù)據(jù)集為其配備了工具,在開(kāi)拓客戶(hù)群的同時(shí),亦改善了數(shù)據(jù)質(zhì)量和客戶(hù)體驗(yàn)。不僅僅是MediaInterface,澳鵬Appen成品數(shù)據(jù)集已幫助許多企業(yè)以更高的產(chǎn)品準(zhǔn)確性實(shí)現(xiàn)了快速的部署。
澳鵬OTS成品數(shù)據(jù)集上新
澳鵬本次更新的OTS成品數(shù)據(jù)集*,包括人體運(yùn)動(dòng)和嬰兒啼哭聲,以及市場(chǎng)需求量高但通常難以獲得的語(yǔ)言(如阿拉伯語(yǔ)、克羅地亞語(yǔ)、希臘語(yǔ)、匈牙利語(yǔ)、泰語(yǔ)等)的腳本化語(yǔ)音和帶有可識(shí)別文本的圖像。全新數(shù)據(jù)集的加入使澳鵬Appen的OTS數(shù)據(jù)集總數(shù)達(dá)到250+個(gè),包括11,000+小時(shí)的音頻、25,000+張圖像以及涵蓋80+種語(yǔ)言及方言的870萬(wàn)+個(gè)單詞。
其中主要包括:
所有澳鵬Appen數(shù)據(jù)集都采用完全透明的方式進(jìn)行開(kāi)發(fā),確保數(shù)據(jù)安全且合規(guī),從而助力高質(zhì)量、負(fù)責(zé)任的AI部署。
*成品數(shù)據(jù)集(也稱(chēng)OTS數(shù)據(jù)集)是一種高效、低成本的工具,可通過(guò)高質(zhì)量的訓(xùn)練數(shù)據(jù)快速啟動(dòng)人工智能或機(jī)器學(xué)習(xí)項(xiàng)目。OTS數(shù)據(jù)集通常的交付時(shí)間在一周之內(nèi),而全新的數(shù)據(jù)集采集和標(biāo)注項(xiàng)目根據(jù)其復(fù)雜程度,則通常需要8到12周的交付時(shí)間。與傳統(tǒng)方法相比,OTS數(shù)據(jù)集縮短了實(shí)現(xiàn)價(jià)值的時(shí)間,并以較低的總成本提供了對(duì)高質(zhì)量數(shù)據(jù)的使用權(quán)。 |