把手機攝像頭對準菜單上的法語菜名,屏幕上實時顯示出翻譯好的中文菜名;將全世界圖書館的藏書轉化為電子書;街景車游走于大街小巷,拍攝街景的同時也從街景 圖像中自動提取文字標識,讓地圖信息更豐富更準確……這些場景的背后有一個共同的關鍵技術——OCR (Optical CharacterRecognition),光學字符識別。
鼠標發明人Douglas Engelbart曾經針對人工智能的簡稱AI提出了另一個理念——Augmented Intelligence,增強智能。在他看來,人已經足夠聰明,我們無需再去復制人類,而是可以從更加實用的角度,將人類的智能進一步延伸,讓機器去增強人的智能。
智能眼鏡就是這樣的產品,去超市的時候帶上一副,看到心儀商品上的文字,自動搜索出詳細信息:生產商情況、在不同電商平臺的價格等等。讓智能眼鏡讀懂文字的正是OCR技術。OCR本質上是利用光學設備去捕獲圖像,今天可以是手機、照相機,未來可以是智能眼鏡、可穿戴設備等,就像人的眼睛一樣,只要有文字,就去認出來。
我們也可以設想一下OCR在未來工作中的應用場景:每次工作會議后,無需再把白板上的討論內容抄寫下來,然后群發郵件布置任務,只要將白板用手機等智能設備拍照留存,系統便能自動識別并分檢出相關人員的后續工作,并將待辦事項自動存放到各自的電子日歷中。
事實上,我們已經向這個場景邁進了一步,微軟前不久推出的Office Lens應用,已經可以通過視覺計算技術自動對圖像進行清理并把它保存到OneNote,而OneNote中基于云端的OCR技術將對圖片進行文字識別,隨后你就可以擁有一個可編輯、可搜索的數字文件,為上述未來應用場景打下基礎。微軟幾年前推出的手機應用Translator,除了支持文本和語音翻譯外,還能用手機拍攝不同語言的菜單或指示牌,翻譯結果立即浮現于原文之上。
回過頭來看,OCR技術經歷了怎樣的發展歷程呢?早在20世紀50年代,IBM就開始利用OCR技術實現各類文檔的數字化,早期的OCR設備龐大而復雜,只能處理干凈背景下的某種印刷字體。20世紀80年代,平板掃描儀的誕生讓OCR進入商用階段,設備更為輕便靈巧,可以處理的字體數量也增多,但對文字的背景要求仍然很高,需要很好的成像質量。
平板掃描儀對印刷體文本的識別率在20世紀90年代就已經達到99%以上,可謂OCR應用迎來的第一個高潮。當時最著名事件是谷歌數字圖書館,谷歌還申請了圖書掃描專利,實現了批量化的高速掃描。在此期間,手寫字體的識別也在并行發展,被廣泛用于郵件分揀、支票分類、手寫表格數字化等領域。
這樣的成就一度讓大家誤以為OCR技術已經登峰造極,但從21世紀開始,準確地說是自從2004年擁有300萬像素攝像頭的智能手機誕生之日起,這一情況發生了根本改變。越來越多的人隨手拿起手機拍攝所看到的事物和場景,而此類自然場景中的文字識別難度遠遠高于平板掃描儀時期,即便是印刷字體,也不能得到很高的識別率,更別說手寫體了。學術界因此將自然場景中的文字識別作為全新的課題來對待。
與此同時,云計算、大數據以及通訊網絡的快速發展,實現了智能手機的24小時在線,前端采用手機攝像頭進行文字捕捉,后端可以對其進行實時分析和處理,二者的結合讓OCR的未來應用模式充滿想象。因此,對OCR的研究再度成為學術界的焦點,無論是前端識別技術還是后端的關聯應用領域,都有著無限可能。