国产精品久久久久久久小说,国产国产裸模裸模私拍视频,国产精品免费看久久久无码,风流少妇又紧又爽又丰满,国产精品,午夜福利

熱搜: 發(fā)那科機器人  工業(yè)  機器人  上海  ABB機器人  自動化  工業(yè)機器人  工業(yè)機器人展  機器  展會 

人工智能大火,BasicFinder要做數(shù)據(jù)采集、加工的“送水人”

   日期:2017-09-04     來源:36氪    作者:dc136     評論:0    
 人工智能大火,BasicFinder要做數(shù)據(jù)采集、加工的“送水人”
   眼前的女員工,正把手寫體的古德文轉(zhuǎn)錄為印刷體字母,經(jīng)過培訓,她已經(jīng)可以熟練操作,每秒鐘至少轉(zhuǎn)換1個字母,要知道,即便是在德國,完全認識這種古老字體的人也寥寥無幾。之后,轉(zhuǎn)錄出的文字會發(fā)給OCR(Optical Character Recognitio n,光學字符識別)公司,做為機器訓練的數(shù)據(jù)材料。
 
  另一邊,員工在標記圖片中汽車的可行駛區(qū)域,之后會用于無人駕駛場景的訓練。
 
  就像傳統(tǒng)工廠一樣,數(shù)據(jù)正在流水線上處理,被分塊加工。這一切都源于人工智能行業(yè)的崛起。Tractica預測,2024年人工智能市場規(guī)模將增長至111億美元。但AI要真正發(fā)揮作用,優(yōu)質(zhì)的數(shù)據(jù)必不可少,所以,前端的數(shù)據(jù)采集、加工環(huán)節(jié)單拎出來成為了新的機會點。
 
  其實,數(shù)據(jù)標注并不算一個完全新興的產(chǎn)業(yè),成立于1998年的“海天瑞聲”已在語音領(lǐng)域耕耘近20年,因為人工智能一詞的提出,最早可以追溯到20世紀50年代,不過此前主流技術(shù)沒有到“深度學習”的階段,所以數(shù)據(jù)用的相對較少。目前這個賽道上,成立久的有“數(shù)據(jù)堂”,早期公司有獲得明勢資本Pre-A輪融資的“愛數(shù)智慧”,完成天使輪融資的“泛涵科技”,獲得合力投資數(shù)百萬天使的“丁火智能”,今天要講的BasicFinder也是賽道上一員。
 
  正如上面的場景,數(shù)據(jù)標記是個重人力的勞動密集型行業(yè)。這類公司的關(guān)鍵點就在于——人員效率、交付質(zhì)量。
 
  “市面上很多公司都采用眾包模式,找人兼職做標記,亞馬遜每天會發(fā)布任務(wù)給墨西哥以及印度兼職人員,但很多高精度工作是不適合眾包的。”BasicFinder創(chuàng)始人杜霖告知,BasicFinder采用的是“自營”模式,目前擁有12家下轄數(shù)據(jù)工廠及2000余名數(shù)據(jù)操作員,為了保證質(zhì)量,這些數(shù)據(jù)工廠有些是參與投資,有些是深度合作,操作員大多是經(jīng)過培訓的打字員,她們技能相對匹配、標記效率又高。杜霖補充,若是音頻數(shù)據(jù),BasicFinder會挑選聽力較好的技術(shù)員,篩選通過率僅在30%。
人工智能大火,BasicFinder要做數(shù)據(jù)采集、加工的“送水人”
  具體到標記過程,BasicFinder都是流水線式的,從最前端的任務(wù)定義、采集數(shù)據(jù),到中間的清洗、加工,以及后端的質(zhì)量檢測、訓練迭代等全部環(huán)節(jié)分開作業(yè),并開發(fā)了一套系統(tǒng)輔助人工提高效率。
 
  舉幾個例子,拿視頻標記骨骼來說,系統(tǒng)首先將視頻的每幀切成畫面,然后把沒有人或者身體不全的畫面去掉,這就完成了清洗過程。接下來,工人打點標記,若圖中人物較多,系統(tǒng)會分割后派給不同標記員,以防單人作業(yè)眼花標亂。再比如,無人便利店的項目要求是框出商品,BasicFinder系統(tǒng)會提供輔助線幫人工標記,比無線情況下,至少提升1倍的效率。
 
  加工完的數(shù)據(jù),還面臨一道不可缺少的步驟就是校驗。相對而言,這是不能標準化的事情,BasicFinder目前用人工復查,跟標記的耗時相比,在1:1——1:3之間。
 
  最后就是安全層面,杜霖告知,對于客戶提供的數(shù)據(jù)素材,BasicFinder實行“交付即焚”,保證數(shù)據(jù)不會復用。若企業(yè)有非常嚴格的需求,BasicFinder還提供隔離標記房,數(shù)據(jù)不會經(jīng)過BasicFinder服務(wù)器,并且房內(nèi)有監(jiān)控,客戶可隨時查看員工作業(yè)過程,以及每一臺設(shè)備的標記情況。
 
  不僅如此,在前端的采集,BasicFinder也不主張數(shù)據(jù)復用。“在人臉識別場景中,批量購買超市等攝像頭的數(shù)據(jù)成本很低,但有法律風險,其實侵犯了個人肖像權(quán),BasicFinder的解決方案是,跟每一個員工或者被采集人簽訂授權(quán)協(xié)議,即便有公司提出同樣的需求,我們會用同樣的方法再采集一遍,也不會私下復用。”杜霖強調(diào),BasicFinder的定位不是數(shù)據(jù)買賣公司,而是在加工的質(zhì)量上。
 
  當然,對于一些公開的數(shù)據(jù)集,比如說景物的識別,BasicFinder也會自建數(shù)據(jù)庫,供企業(yè)采購。但實際在人工智能行業(yè)里,數(shù)據(jù)素材可復用的機率相對較低,杜霖補充,“因為每家公司的要求都不一樣,同是標記商品,有的公司會要求勾勒輪廓,有的會要求貼邊打框,有的精度在10%的誤差,有的在5%……”
 
  值得一提的是,BasicFinder的工具平臺正在內(nèi)部試用中,并將于近期正式對外公布。客戶在平臺上直接簡單組合,填寫相關(guān)參數(shù),即可以相對精準的定義任務(wù)。平臺接受到任務(wù)后,會按照要求把數(shù)據(jù)任務(wù)輕松分配到數(shù)據(jù)工廠甚至個人,數(shù)據(jù)工廠的工人在平臺上進行操作,并借助相關(guān)的工具提升作業(yè)效率,客戶在后臺就能及時來監(jiān)控這些信息,不合格的數(shù)據(jù)也可以及時返工,最后保證會輸出質(zhì)量較高的數(shù)據(jù)。
 
  系統(tǒng)之后會不斷迭代,無非就是提高效率,問及是否會用機器替代人力進行標記,杜告表示不會,因為人工標記出得數(shù)據(jù)在誤差層面符合正態(tài)分布,而機器標記的都是同一水平,用機器生產(chǎn)的數(shù)據(jù)再訓練機器,并不利于AI最后的訓練效果。
 
  至于收費模式,BasicFinder會根據(jù)樣本耗時估算一個人力成本,走項目制。
 
  據(jù)悉,現(xiàn)階段,BasicFinder的訂單多為數(shù)據(jù)標注,國內(nèi)外客戶占比接近1:1,包括中科院、搜狗、中國移動、華為、創(chuàng)新工場、云知聲、國外知名科研院所等。這些客戶多在使用深度學習相關(guān)的框架進行研發(fā),因此對數(shù)據(jù)的需求量較大,客戶的算法相對比較成熟,因此任務(wù)往往為個性化任務(wù)??蛻糁?,最高訂單定價在百萬元,不少用戶會多次下達不同的訂單。
 
  其實對于這一波因為深度學習而興起的數(shù)據(jù)服務(wù)商來說,最大的潛在威脅很可能并非來自競品,而是來自于增強學習、遷移學習等算法,后者僅需要少量的數(shù)據(jù)即可以達到一定的效果。杜霖表示,這方面公司也在密切關(guān)注,一方面目前增強學習、遷移學習等算法還不成熟,很難大規(guī)模應(yīng)用;另一方面,這些算法也需要基礎(chǔ)的學習數(shù)據(jù),同時公司也有可能提供包含人工操作的數(shù)據(jù)以提供給這些算法。
 
  BasicFinder注冊成立于2015年,目前核心研發(fā)團隊在20人左右。創(chuàng)始人杜霖是一個連續(xù)創(chuàng)業(yè)者,在上海交通大學計算機系讀大二的時候,就開始了第一次創(chuàng)業(yè)經(jīng)歷,當時開發(fā)了一款SEM搜索引擎自動化營銷工具,后以300萬美元的價格打包賣給了一家土耳其電子商務(wù)網(wǎng)站。2010年大學畢業(yè)后,杜霖從事了數(shù)年TMT創(chuàng)投工作。2015年預感到深度學習的潛力及對數(shù)據(jù)的需求,成立了BasicFinder。公司已經(jīng)獲得過兩輪融資,天使輪由個人投資數(shù)百萬元,2017年3月份,完成了一千多萬元pre-A輪融資,計劃今年底或明年初再進行A輪融資。
 
 
聲明:凡資訊來源注明為其他媒體來源的信息,均為轉(zhuǎn)載自其他媒體,并不代表本網(wǎng)站贊同其觀點,也不代表本網(wǎng)站對其真實性負責。您若對該文章內(nèi)容有任何疑問或質(zhì)疑,請立即與中國機器人網(wǎng)(www.baoxianwx.cn)聯(lián)系,本網(wǎng)站將迅速給您回應(yīng)并做處理。
電話:021-39553798-8007
更多>相關(guān)專題
0相關(guān)評論

推薦圖文
推薦專題
點擊排行
?