国产精品久久久久久久小说,国产国产裸模裸模私拍视频,国产精品免费看久久久无码,风流少妇又紧又爽又丰满,国产精品,午夜福利

熱搜: 佳士科技  irobot  工業(yè)機器人  機器人  ABB  機器人產業(yè)聯盟  發(fā)那科  機械手  碼垛機器人  庫卡 

不一樣的科大訊飛,他們把計算機視覺踢進“世界杯”

   日期:2021-11-02     來源:AI科技評論     評論:0    
標簽:
人工智能技術從開始到真實產生應用的突破是以時間為代價的。需要無數的科學家?guī)е首隼浒宓实臎Q心潛心鉆研,一坐就是十年、二十年。
 
而技術一旦突破,便有了改變世界的力量。
 
從1965年Dartmouth會議上第一次提出人工智能的概念到2006年深度學習概念首次問世,神經網絡從誕生到真正意義上擁有了深度,經過了超40年的時間。
 
隨著大數據和算力發(fā)展的助推,深度學習爆發(fā)出巨大的威力,一輪又一輪的研究熱點在各項領域開花結果,全社會都熱血澎湃地張望未來。
 
2010年,人類嘗試復刻人腦聆聽和處理人類語音的方式,DNN(深度神經網絡)在語音識別方面出現革命性的突破。2012年,CNN(卷積神經網絡)在圖像識別上大獲成功。至此,人工智能多項技術到達真正意義上“可用”的階段。
 
從技術轉向產業(yè),2010年前后同樣是個值得書寫的年份:移動互聯網時代來到發(fā)展的沸騰臨界點,BAT格局已然成形,而后被無數資本追捧的AI四小龍,也都在2010年后相繼成立。
 
而彼時,殷保才和吳嘉嘉還是兩名就讀人工智能相關專業(yè)的學生,在代碼、公式和論文交錯的實驗室里,癡迷地探索著計算機視覺領域里一切可能的方向。
 
從校招入職,到如今成為科大訊飛AI研究院計算機視覺方向(CV)的領跑者,吳嘉嘉正帶領著團隊攻克圖文識別領域內喜馬拉雅山式的挑戰(zhàn)——篇章級公式識別,并不斷將技術擴展到更加復雜和深入的應用場景;殷保才牽頭視覺領域的最前瞻技術探索,從視覺交互、遙感圖像到多模態(tài)感知、3D感知,用自由的眼光看更遠的未來。
 
因名字中的“才”和“嘉”,在科大訊飛研究院里,大家都津津樂道地稱他們?yōu)?ldquo;才”子“嘉”人。和他們一起的,是科大訊飛超百人規(guī)模的計算機視覺團隊的研究員們,帶領著科大訊飛計算機視覺多項技術保持著國際領先水平。
 
后來被問到,為什么在那個計算機視覺領域風起云涌的時代選擇加入一家以人工智能“語音”技術而聞名的公司時,他們都給出了相似的答案:“發(fā)揮自己的作用,讓科大訊飛的計算機視覺技術也達到國際領先水平。”
 
如今,從國際醫(yī)學影像領域權威評測LUNA上刷新世界紀錄、在計算機視覺頂級會議CVPR 2019和文檔分析與識別頂級會議ICDAR 2019上的多項評測任務中獲得冠軍、到刷新目前公認自動駕駛領域內最具權威性的圖像語義分割評測集Cityscapes全部兩項子任務的世界紀錄,無一不在向世界宣示著,科大訊飛早已不是那個只做“語音”的公司了。
 
而這一切的背后,是這群對技術無比熱愛之人的初心堅守。
 
1
 
AI研究院計算機視覺的“才”子“嘉”人
 
因為從小就是典型的理科生,殷保才自覺對文字表達不感興趣,思維比較發(fā)散,難以集中注意力,連小說都讀不進去。在他的大腦里,似乎只有數學符號和圖像是可理解的,“算是一種空間型思維吧”。
 
就連在職期間繼續(xù)攻讀中科大的博士學位也是院長費了好大力氣勸說后才去的,因為“就是不想寫論文”。
 
同樣,在與吳嘉嘉交流的過程中,我們也發(fā)現了類似的特點。
 
只要我們說出文本行識別、公式識別這些詞,他立馬會連珠炮彈般把整個技術鏈路里里外外介紹一遍,盡管我們當時問的是“這項技術背后有什么故事?”。多次提醒后,他依然沉浸在分享這些細節(jié)中。這些精微的技術細節(jié),仿佛才是他眼中的事件記憶。
 
“不想寫論文”、“不會講故事”的他們癡迷于技術本身。在他們的思維里,故事不是被抹殺了,而是在一個抽象空間里,將所有的累積匯聚成一體。在思維成形之前,空間里只有無邏輯關聯的碎片。一旦關鍵的碎片找到后,思維成形,便是“靈感爆發(fā)”時刻。
 
這種空間型思維,讓他們與計算機視覺結緣。
 
盡管都是空間型思維,但這對“才”子“嘉”人也有著不同的思維習慣。
 
殷保才偏好直覺,比如在帶領團隊參加LUNA比賽時,創(chuàng)新性地采用了3D框架,“幾乎是一瞬間就想到了。”
 
吳嘉嘉則偏好邏輯,比如在解釋技術的時候,每一次都像是在發(fā)送邏輯縝密的文檔,還是當場生成的。
 
接下來,就讓我們深入科大訊飛這對計算機視覺領域“才”子“嘉”人的更多親身經歷,一探科大訊飛計算機視覺技術之究竟。
 
2
 
探索與投入
 
或許是語音的標簽太過耀眼,科大訊飛在計算機視覺方向上的發(fā)展并不為外界所熟知。
 
2008年以前,科大訊飛的技術儲備還是集中在與語音相關的技術方向上,從語音合成、語音評測到語音識別技術,科大訊飛在全球語音技術領域內已是全面領先地位。
 
而2008年,幾位探索計算機視覺領域內圖文識別(OCR)技術方向的研究員們已默默的開始了漫長的征程。從探索、沉淀、到全面爆發(fā),一等就是十年。
 
“OCR一開始在研究院是一個很小的方向。當時很多人不理解,大家覺得OCR就是識別字符,落地的場景就是類似街邊的街景字符的識別?;仡^來看,隨著信息化時代的到來,OCR應用的場景非常廣泛,帶來的社會價值是巨大的。”吳嘉嘉說道。
 
比如在教育領域,差不多也就在2013、2014年左右,我們非常清楚地看到了人工智能在教育里應用的潛力,從智能閱卷、評分測評、到現在“因材施教”的個性化教育,OCR技術幾乎是所有教育應用的入口。
 
“OCR技術一定要結合實際場景的需求,定義OCR技術問題也必須來自于實際場景的重大剛需問題,只做技術是不行的,這也是人工智能落地里科大訊飛探索出來的方法論。”
 
2014年,吳嘉嘉開始攻關文本行識別技術,在此之前,吳嘉嘉已率先嘗試用深度學習的CNN技術來做孤立字識別,識別精度相對基線版本大幅提升了30%,并在訊飛輸入法上得到了很好的落地。
 
但后來他發(fā)現,孤立字識別技術根本不適應文本行識別問題,文本行識別的一個常規(guī)思路是首先對字符進行切分,然后進行單字符識別。由于涉及手寫字體,很多人寫字會習慣性地連筆,這就讓切分變得困難了。
 
也許,圖像識別的答案要在計算機視覺之外去尋找。
 
技術的創(chuàng)新常源于靈感的瞬間爆發(fā)。
 
在投入語音識別技術的時候,很少有人能想到語音識別技術的邏輯和方式能夠被同為模式識別分支的字符識別所借鑒。
 
語音技術深厚的積累給團隊帶來了無盡的寶藏,在文本行識別的研究中,他們找到了融合的契機——語音識別要將連續(xù)的波形轉化出分離的字符,而波形和手寫字類似,也是無法拆分的。
 
這幾乎是完美的答案。
 
AI研究院的小伙伴們快速完成了語音識別到計算機視覺之間的算法框架遷移和借鑒,將語音識別中的HMM模型框架引入到文本行識別,精度大幅提升。
 
吳嘉嘉開始形成自己的方法論——他山之石,可以攻玉。
 
技術的進步常比想象中走得更快,而在發(fā)展之前,則是默默耕耘與長期投入。
 
在OCR生根發(fā)芽之際,科大訊飛又開啟了計算機視覺領域其他技術方向探索的征程,從人臉識別、醫(yī)學影像到輔助駕駛、虛擬形象。
 
科大訊飛對于新方向的探索多是從參與國際頂尖比賽開始的,探索技術的可達性。
 
2016年,人工智能+醫(yī)療概念逐步興起,作為醫(yī)療影像領域最具代表性、最受關注的國際測評任務之一,LUNA(LUng Nodule Analysis)測評吸引了大批國內外學術界和產業(yè)界的團隊參與。但 LUNA任務的難度系數極高,核心原因在于肺結節(jié)檢測輸入的信息量巨大,而目標非常小。
 
參與LUNA比賽是殷保才投身醫(yī)療后的第一個任務。
 
幾乎所有參賽團隊都采用了2D或2.5D的解決方案,其中2D方案就是只處理單張影像;2.5D則是通過縱向、斜向地對整個影像序列切割出2D數據,再進行處理。
 
“但這些方案都不可避免導致原始信息的丟失,必須用3D模型。”
 
因為LUNA所要處理的數據是3D數據。所謂3D數據,即CT影像是一個數百張影像的集合,每一張通過掃描身體部位的一個斷層得到。所謂3D框架,指的是其專門用于處理3D形式的數據。在競爭榜單上,殷保才是少有的熟知尚不成熟的3D圖像識別技術的人。
 
不難看出,這種解決方案簡單直接,與問題本身天然匹配。
 
在這場比賽中,殷保才團隊開發(fā)的框架最終獲得了94.1%的召回率(召回率高意味著對陽性患者的漏診率低),這一成績也刷新了當時的榜單世界紀錄。
 
“才子”的這種源源不斷的直覺,其實離不開長期的技術積累沉淀。
 
3
 
深度融合與厚積薄發(fā)
 
時間到了2017年。
 
吳嘉嘉團隊此時已解決了文本行識別,正在為突破公式識別而努力。傳統(tǒng)文本行識別都是非常定式的從左到右、從上到下的識別順序,模式比較單一。而公式會有各種嵌套結構、左右上下的雜糅。
 
分數加法算式就是一個左右上下混合的簡單例子,比如1/5是一個上下結構,1/5+2/5又是一個左右結構。
 
 
嵌套結構則包括指數、連根式、連分式等等,“這種式子沒有最復雜,只有更復雜,比如連分式可以是無窮嵌套的。”
 
比起文本行識別,問題難度又上升了一階。團隊在起初用了很多傳統(tǒng)方法去做結構的分析。比如在兩個分數的加法中,先將字符單獨識別出來,再分析字符間的空間關系等等,“一般就是多階段模型,最后會變成非常復雜的系統(tǒng)工程,泛化性也不好。”
 
后來源于科大訊飛研究院在機器翻譯上的技術積累,他們發(fā)現公式識別任務和機器翻譯任務很像,因此可以把基于注意力機制的Encoder-Decoder模型運用到公式識別上來。
 
在語音識別技術和自然語言理解技術領域所使用的序列建模和神經網絡中的注意力機制,成為OCR技術“靈感的繆斯”。進一步地,團隊聯合NELSLIP基于Encoder-Decoder模型構建了新的無切分公式識別算法。
 
不到一年的時間,吳嘉嘉團隊在公式識別上已經達到了96%的準確率。
 
隨后,在國際頂級手寫公式識別挑戰(zhàn)賽中,團隊先后獲得2019年ICDAAR CROHME、2020年ICFHR OffRaSHME多個國際冠軍。
 
 
同樣地,在OCR技術應用在教育領域的過程中,這對“才”子“嘉”人也發(fā)現圖文分析任務與其他計算機視覺任務的一致性,殷保才基于早期在計算機視覺任務上的積累,很快將多種技術方案應用到了文檔圖像處理及版面分析任務中。
 
現在這對“才”子“嘉”人也正在聯手打造全鏈路的圖文識別技術,實現Read Anything的目標。
 
OCR的不斷突破,來自于技術間的跨領域創(chuàng)新式與交匯融合式的思想遷移。而人工智能助力行業(yè)的發(fā)展,則來源于厚積薄發(fā)式的積累和沉淀。
 
2020年疫情爆發(fā)初期,殷保才接到了緊急通知,要針對新冠疫情開發(fā)醫(yī)療輔助系統(tǒng),幫助醫(yī)生診斷肺炎癥狀。
 
疫情期間影像科醫(yī)生的壓力是巨大的。每診斷一個病例,影像科醫(yī)生需要對CT的數百張切片逐層分析,需要大約為5至15分鐘時間。而針對新冠確診患者,醫(yī)生還需要回顧患者歷史影像,閱片量至少再翻一倍。
 
三天后,第一個版本的系統(tǒng)正式上線。之后一個月,殷保才團隊每天都會將系統(tǒng)更新一個版本。通過系統(tǒng)可在3秒內完成一例病例輔助診斷,極大提高了醫(yī)生工作效率,也有效降低漏診誤診。
 
與時間賽跑,與病毒較量,殷保才團隊也充分發(fā)揮技術優(yōu)勢,為疫情防控貢獻科技力量。
 
殷保才做事雷厲風行,擅長突發(fā)式攻關。
 
但突發(fā)式攻關的背后,殷保才直覺的來源,是多年的經驗與知識的積累,是那段少有人知的刻苦經歷。
 
曾為落地胸科診斷技術,殷保才多次登門拜訪向專業(yè)醫(yī)生尋求數據標注的建議。“結合專業(yè)知識在AI醫(yī)療影像中是非常關鍵的部分,耗費成本也很高。同時,3D數據標注更為復雜,不同醫(yī)生的標注也有方差。”奈何醫(yī)生太忙,每次只落下零星幾句話,然后甩給他一本上千頁的胸科診斷指南。
 
殷保才只能自學醫(yī)療知識,開始探索這條少有人走的路,“不僅數據少,現有的代碼也少。”如今,他早已成為了人工智能領域里的半個醫(yī)學專家。
 
但有厚積,才有薄發(fā)。
 
無論是交匯融合式的思想遷移,還是厚積薄發(fā)式的靈感閃現,殷保才和吳嘉嘉都在一步一個腳印,在正確的方向長期投入和無悔堅持。
 
4
 
AI研究院:頂天是為了立地
 
這份熱愛,既源于他們自身,也在科大訊飛AI研究院的支撐下,源源不絕。
 
科大訊飛AI研究院分為計算機視覺、認知、語音三個大方向,"但在這里,你可以隨意和任何一個方向的人聊技術,每個人都很樂于分享,只要你夠主動。"
 
“我們內部有很多基于深度學習為主的研究方向,這些不同的領域之間可借鑒性很強,不同方向之間互相借鑒然后做一些跨領域、融合式的創(chuàng)新是我們AI研究院所擅長的。”殷保才說道。“比如我們首席科學家魏思在多年前就發(fā)起了'王牌飛行員'計劃,加強不同團隊的溝通交流,促進內部的信息交流和技術遷移應用,當然也為了培養(yǎng)一批批的'科學家'。”
 
研究院簡單真誠的氛圍"就和在學校里差不多,大家都非常純粹。"
 
這份純粹讓他們自由而一往無前,技術水平更具前瞻性,使得公司不受外界干擾而保持戰(zhàn)略的定力。
 
科大訊飛AI研究院首席科學家魏思曾經說過,"在整個工業(yè)界里去做研究這一塊的工作,科大訊飛AI研究院不輸于世界上任何一家研究機構。"
 
他們也并不害怕承認——研究院并不對發(fā)論文有狂熱的偏愛。
 
殷保才說道,"在我們看來,技術核心在于能不能為社會真正創(chuàng)造價值,能否立足場景解決剛需問題。"
 
這與李開復在《AI未來》一書中的觀察不謀而合:
 
西方國家點燃了深度學習的火炬,但最大的受益者將會是中國,這種全球性的變化是由兩方面的轉變引起的:從發(fā)明的年代轉變?yōu)閷嵏傻哪甏?;從專家的年代轉變?yōu)閿祿哪甏?/div>
 
此外,一位ACM高級科學家曾經告訴我們,現在AI學界研究的風氣大變,灌水現象也特別嚴重,"將從學界拿到的論文用于技術落地時,對其結論首先都要打一個問號。"
 
業(yè)界做AI學術被質疑理論不夠扎實,學界在缺少資源的情況下,亦難以研究大規(guī)模的問題。或許兩者匯集之后我們才能提出更好的基礎研究問題。
 
"我們也發(fā)現了一個現象:在企業(yè)研究院發(fā)論文對于學生而言很有吸引力,能為他們的簡歷增光。但這個現象持續(xù)下去,是否對整個行業(yè)有促進作用,值得探討。"殷保才補充道。
 
企業(yè)研究不僅需要在技術水平上"頂天",又要在技術價值上"立地"。這其實也正是科大訊飛AI研究院一直秉承的價值觀——頂天立地。
 
在資源投入上,科大訊飛以市場導向分配"彈藥",遵循"721研發(fā)投入模式"。
 
"我們每年拿出20%以上的營收投入到研發(fā)中,其中70%的資源投入當前的主導產品,20%投入戰(zhàn)略新產品,10%投入探索型的、不追求一定要有回報的方向,它可以很自由地探索未來。”而殷保才主要就在負責2和1的部分。
 
指尖交互、手勢交互、多模態(tài)識別、遙感方向、智慧畜牧等都是他將投入的方向。
 
"視覺前瞻的每一個嘗試,基于我們的業(yè)務需求、未來趨勢判斷以及擴展研究院的能力建設,但最終都是為了能夠拓寬整個視覺領域的應用邊界。"殷保才補充道。
 
吳嘉嘉則將繼續(xù)深耕OCR,打通OCR技術鏈路。在整個職業(yè)生涯中,吳嘉嘉前三、四年聚焦于鉆研技術,帶團隊之后,開始思考整個技術鏈路的問題。
 
從孤立字識別到文本行識別,是從1到10的階段跨越;而從文本行識別到公式識別,則是從10到100的飛躍。
 
如今,團隊正在攻關一個“300”難度的任務——篇章級公式識別,"當然,說不定是1000。"
 
從孤立字識別、文本行識別、公式識別到篇章級識別,是一場從點到線到面再到網絡的升維進化,科大訊飛亦在OCR領域建立起了較高的技術壁壘。在實際應用中,以教育為例,學生作業(yè)試卷文檔存在版面結構復雜、書寫風格差異顯著等難點問題也變得可解。
 
如今作為OCR條線的負責人,面對團隊日漸增長的團隊規(guī)模,他也有了新的夢想,“保持核心技術的領先水平,屹立于世界的前沿。同時讓人工智能技術應用到更多的領域內,讓科技所帶來的改變惠及大眾。”
 
 
5
 
科大訊飛——自成神經網絡
 
這對“才”子“嘉”人在科大訊飛的成長故事,也是科大訊飛不斷擴展的縮影。
 
專注AI多年的科大訊飛,自身已成一個神經網絡——很寬、很深的生成式神經網絡。
 
一個典型的生成式神經網絡包括了輸入層、編碼層、輸出層。對于一個AI企業(yè)而言,輸入是AI三要素:算力、數據、算法,輸出是技術和產品,編碼層則是企業(yè)的組織方式和技術方法論,以及企業(yè)的人才。
 
各個節(jié)點并非孤立,緊密鏈接,由此在“技術頂天”與“應用落地”這一天地兩端,用人工智建設美好世界。
 
 
聲明:凡資訊來源注明為其他媒體來源的信息,均為轉載自其他媒體,并不代表本網站贊同其觀點,也不代表本網站對其真實性負責。您若對該文章內容有任何疑問或質疑,請立即與中國機器人網(www.baoxianwx.cn)聯系,本網站將迅速給您回應并做處理。
電話:021-39553798-8007
更多>相關資訊
0相關評論

推薦圖文
推薦資訊
點擊排行
?