在傳統(tǒng)OCR的領(lǐng)域之內(nèi),作為人工智能基礎(chǔ)之一、計算機視覺分支之一的自然環(huán)境OCR的應(yīng)用范圍并沒有進行太多的擴充。

從古至今,文字經(jīng)歷了數(shù)代變革,最終發(fā)展成為現(xiàn)在的簡體字。近來以來,隨著科技的發(fā)展,人類變得越來越“懶”,從拋棄紙筆投入電腦的懷抱,再到現(xiàn)在從鍵盤到語音的轉(zhuǎn)移。雖然不管如何發(fā)展,文字依然是人們不可丟棄的東西,但是出于讓生活更便利的目的,它也在隨著科技而發(fā)生變化,比如擔(dān)當(dāng)著人工智能基礎(chǔ)之一的文字識別技術(shù)(OCR)。
自然環(huán)境光學(xué)設(shè)備+機器人 讓人機交互更自然
OCR是指光學(xué)設(shè)備(掃描儀、數(shù)碼相機等)檢查紙上打印的字符,通過檢測暗、亮的模式確定其形狀,然后用字符識別方法將形狀翻譯成計算機文字的過程,其本質(zhì)就是利用光學(xué)設(shè)備去捕獲圖像并識別文字,將人眼的能力延伸到機器上。此概念是在1929年由德國科學(xué)家Tausheck最先提出來的,后來美國科學(xué)家Handel也提出了利用技術(shù)對文字進行識別的想法。
到目前為止,已經(jīng)有不少專注于文字識別的公司,并且也推出了相關(guān)系列的產(chǎn)品,比如漢王的名片王、國外的abbYY、Google等。不過,由于人類多方面需求的進一步擴大與提升,傳統(tǒng)OCR已經(jīng)不能填補這些空洞,而自然場景OCR就在這樣的需求下應(yīng)運而生。如此,自然場景OCR都用到了哪些領(lǐng)域?

說到人機交互,大多人想到的都是語音交互,畢竟這是人類之間運用率最高的交流方式。但是,縱然現(xiàn)在語音識別的技術(shù)已經(jīng)發(fā)展的相當(dāng)成熟,可交互方式并不能僅僅局限于這一種,肢體、眼睛等等都是一個交互過程中必不可少的東西。
出于天性,人們喜歡與他人分享自己喜歡的東西,比如一部影片、一本書、一個活動等等,在這其中,文字的存在理所當(dāng)然,眼睛的作用也就顯得不容忽視。以陪護機器人為例,孩子們都喜歡色彩斑斕、嵌有圖片的書籍,而在閱讀的過程中,他們總會碰到不認識的字,這時候,陪護機器人需要通過眼睛掃描書頁,再經(jīng)過算法識別出其中的文字,從而才能從物聯(lián)網(wǎng)中找出相關(guān)的答案。如果是傳統(tǒng)的OCR,此時文字周邊的色彩就會對文字識別產(chǎn)生一定的干擾,而這是自然環(huán)境OCR所解決的問題之一,目前相關(guān)機構(gòu)也取得了相當(dāng)大的進展。
另外,當(dāng)機器人普及,不管是生活還是辦公,人們也會要求陪護機器人去取一些東西。如果只是依靠圖像識別的話,預(yù)計機器人有八成的可能會拿錯東西,畢竟圖像識別僅能識別出形狀、顏色等因素,而這番套路在同種包裝的番茄醬與草莓醬的面前是沒有用武之地的。若要求機器人在拿取物品方面能夠達到技改的準確率,自然環(huán)境OCR是必然選擇(傳統(tǒng)OCR難以識別曲面字體)。
對于大多國內(nèi)觀眾而言,等待國外劇集的熟肉是一個劇迷的必經(jīng)過程;出國旅游時,我們最怕的就是孤身一人……這種種現(xiàn)象的出現(xiàn)只因為一個原因——語言不通。
外面的世界是一個多樣的世界,文字也被人們以多種形式呈現(xiàn)出來,像多個字一筆帶過的,與背景幾乎融為一體的,抽象字體等等,這些都是出門在外經(jīng)常碰得到的。為了解決這個問題,Google、百度等科技企業(yè)都推出了翻譯軟件,不過,經(jīng)過鎂客君親身測試,對于光線明亮的方正字體,這些軟件的翻譯效果還是不錯的,但是一旦涉及藝術(shù)字,結(jié)果就悲劇了,可能字都識別不出來,更何談翻譯。
對于此類自然環(huán)境之中的文字,目前的自然環(huán)境OCR雖然不能達到完美的效果,但基于出國游旅客人數(shù)的日益增長,此類翻譯軟件必然是未來的一個趨勢。既然翻譯軟件的勢頭如此之好,作為其中關(guān)鍵技術(shù)的自然環(huán)境OCR,理所當(dāng)然的將受到人們的關(guān)注。
從當(dāng)前的情況來看,在傳統(tǒng)OCR的領(lǐng)域之內(nèi),作為人工智能基礎(chǔ)之一、計算機視覺分支之一的自然環(huán)境OCR的應(yīng)用范圍并沒有進行太多的擴充。作為一項技術(shù)而言,這也是一個好現(xiàn),在技術(shù)尚未提升到滿意的高度、沒有挖到消費者更深層次的需求時,過快的市場占領(lǐng)只會根基不穩(wěn),比如現(xiàn)在的智能手環(huán),火的很快,臨了卻因為雞肋而遭到廣大消費者的不滿,面臨著眾多廠商退出的尷尬。
不過,雖然沒有過多的擴充,但機器人與翻譯是自然環(huán)境OCR目前來講最容易進入的兩大領(lǐng)域,其中,機器人更是目前最具前景的領(lǐng)域。單單在陪護機器人方面,根據(jù)ZDC互聯(lián)網(wǎng)調(diào)研中心截止2016年9月的數(shù)據(jù)顯示,在機器人產(chǎn)品用戶關(guān)注度分布占比中,陪護機器人用戶關(guān)注度高達32.2%,如果算上服務(wù)機器人,總關(guān)注度達到了51%,而此前根據(jù)IFR的統(tǒng)計,到2017年,全球服務(wù)機器人市場容量將接近500億元。在如此利好情形之下,若自然環(huán)境OCR能夠完善技術(shù),狠抓用戶需求,其市場必然也很有看頭。