速記行業正在迎來一場巨大變革,手指翻飛的速記員將與一款網頁應用成為“同事”。近日,中國人工智能領導者百度宣布推出SwiftScribe網頁應用,將改變完全依賴人工的速記行業現狀。該網頁應用背靠百度深度語音識別系統,將音頻文件轉為文本,轉化效率較人工速記快1.67倍。
百度首席科學家吳恩達認為這一應用將改變采訪和視頻字幕生成,他在Facebook評論稱:“該應用非常適合將長語音轉換為文本的人士,人工智能將實現1+1大于二的效果?!?/p>
用戶可在PC端打開SwiftScribe網頁應用,選取wav和mp3格式的文件上傳,系統就能馬上進行處理,時長1分鐘的音頻文件可以在30秒內轉換完成。用戶可使用鍵盤快捷鍵就能進行加快播放、后退和添加換行符等操作,處理完成后,只需人工調整大小寫、標點及部分拼寫細節即可快捷、準確的完成音頻轉換。
從使用效果看,SwiftScribe可為速記員帶來1.67倍的效率提升,縮短40%的工作時間。目前該系統可處理1小時內的音頻文件,而這一時長正在開發團隊的努力下逐步延展,未來會增加視頻文件的語音識別及自動添加標點符號等功能,并支持更多文件格式,降低用戶使用門檻。
此次推出的SwiftScribe網頁應用,依托于百度新一代深度語音識別系統Deep Speech 2——曾被《麻省理工科技評論》評為“2016年十大突破技術”之一。通過利用長達數千小時的語音數據訓練,Deep Speech 2可以不斷“學習”從語音中識別特定的字或詞。MIT評論其:在識別漢語語音片段方面,要比人為識別更加準確。目前,百度語音識別準確率已達到97%,成為行業領先者。
作為非英語母語者,百度SwiftScribe項目經理吳田也曾深受長語音記錄的困擾“要整理一段1小時錄音對我來說要花上10個小時,”而這也是這一應用的靈感來源。百度在去年也推出了應用DeepSpeech2的安卓輸入法TalkType,讓用戶能夠用語音快速輸入文字。百度硅谷人工智能實驗室項目領導人Bijit Halder在公告中稱:“TalkType是首款智能語音優先輸入法?!?/p>
對話機器將成為2017人工智能的發展風口,百度吳恩達曾在《華爾街日報》的采訪中表示,隨著準確率的提高和用戶體驗的提升,百度的語音產品已度過用戶心目中的“試用期”。在語音產品迅猛發展的大環境下,亞馬遜、蘋果、谷歌和微軟等科技巨頭都在加緊研發各自的語音識別技術,然而在長文本音頻轉化技術上,百度仍然是行業最高水平的標桿。
目前,百度SwiftScribe音頻轉換服務免費對外開放,但該應用背后的商業前景不可小覷。據百度人士透露,未來希望能夠向商業化應用轉變。