国产精品久久久久久久小说,国产国产裸模裸模私拍视频,国产精品免费看久久久无码,风流少妇又紧又爽又丰满,国产精品,午夜福利

熱搜: 佳士科技  irobot  工業(yè)機(jī)器人  機(jī)器人  ABB  機(jī)器人產(chǎn)業(yè)聯(lián)盟  發(fā)那科  庫卡  碼垛機(jī)器人  機(jī)械手 

人工智能大火,BasicFinder要做數(shù)據(jù)采集、加工的“送水人”

   日期:2017-09-04     來源:36氪    作者:dc136     評論:0    
人工智能大火,BasicFinder要做數(shù)據(jù)采集、加工的“送水人”
   眼前的女員工,正把手寫體的古德文轉(zhuǎn)錄為印刷體字母,經(jīng)過培訓(xùn),她已經(jīng)可以熟練操作,每秒鐘至少轉(zhuǎn)換1個(gè)字母,要知道,即便是在德國,完全認(rèn)識(shí)這種古老字體的人也寥寥無幾。之后,轉(zhuǎn)錄出的文字會(huì)發(fā)給OCR(Optical Character Recognitio n,光學(xué)字符識(shí)別)公司,做為機(jī)器訓(xùn)練的數(shù)據(jù)材料。
 
  另一邊,員工在標(biāo)記圖片中汽車的可行駛區(qū)域,之后會(huì)用于無人駕駛場景的訓(xùn)練。
 
  就像傳統(tǒng)工廠一樣,數(shù)據(jù)正在流水線上處理,被分塊加工。這一切都源于人工智能行業(yè)的崛起。Tractica預(yù)測,2024年人工智能市場規(guī)模將增長至111億美元。但AI要真正發(fā)揮作用,優(yōu)質(zhì)的數(shù)據(jù)必不可少,所以,前端的數(shù)據(jù)采集、加工環(huán)節(jié)單拎出來成為了新的機(jī)會(huì)點(diǎn)。
 
  其實(shí),數(shù)據(jù)標(biāo)注并不算一個(gè)完全新興的產(chǎn)業(yè),成立于1998年的“海天瑞聲”已在語音領(lǐng)域耕耘近20年,因?yàn)槿斯ぶ悄芤辉~的提出,最早可以追溯到20世紀(jì)50年代,不過此前主流技術(shù)沒有到“深度學(xué)習(xí)”的階段,所以數(shù)據(jù)用的相對較少。目前這個(gè)賽道上,成立久的有“數(shù)據(jù)堂”,早期公司有獲得明勢資本Pre-A輪融資的“愛數(shù)智慧”,完成天使輪融資的“泛涵科技”,獲得合力投資數(shù)百萬天使的“丁火智能”,今天要講的BasicFinder也是賽道上一員。
 
  正如上面的場景,數(shù)據(jù)標(biāo)記是個(gè)重人力的勞動(dòng)密集型行業(yè)。這類公司的關(guān)鍵點(diǎn)就在于——人員效率、交付質(zhì)量。
 
  “市面上很多公司都采用眾包模式,找人兼職做標(biāo)記,亞馬遜每天會(huì)發(fā)布任務(wù)給墨西哥以及印度兼職人員,但很多高精度工作是不適合眾包的。”BasicFinder創(chuàng)始人杜霖告知,BasicFinder采用的是“自營”模式,目前擁有12家下轄數(shù)據(jù)工廠及2000余名數(shù)據(jù)操作員,為了保證質(zhì)量,這些數(shù)據(jù)工廠有些是參與投資,有些是深度合作,操作員大多是經(jīng)過培訓(xùn)的打字員,她們技能相對匹配、標(biāo)記效率又高。杜霖補(bǔ)充,若是音頻數(shù)據(jù),BasicFinder會(huì)挑選聽力較好的技術(shù)員,篩選通過率僅在30%。
人工智能大火,BasicFinder要做數(shù)據(jù)采集、加工的“送水人”
  具體到標(biāo)記過程,BasicFinder都是流水線式的,從最前端的任務(wù)定義、采集數(shù)據(jù),到中間的清洗、加工,以及后端的質(zhì)量檢測、訓(xùn)練迭代等全部環(huán)節(jié)分開作業(yè),并開發(fā)了一套系統(tǒng)輔助人工提高效率。
 
  舉幾個(gè)例子,拿視頻標(biāo)記骨骼來說,系統(tǒng)首先將視頻的每幀切成畫面,然后把沒有人或者身體不全的畫面去掉,這就完成了清洗過程。接下來,工人打點(diǎn)標(biāo)記,若圖中人物較多,系統(tǒng)會(huì)分割后派給不同標(biāo)記員,以防單人作業(yè)眼花標(biāo)亂。再比如,無人便利店的項(xiàng)目要求是框出商品,BasicFinder系統(tǒng)會(huì)提供輔助線幫人工標(biāo)記,比無線情況下,至少提升1倍的效率。
 
  加工完的數(shù)據(jù),還面臨一道不可缺少的步驟就是校驗(yàn)。相對而言,這是不能標(biāo)準(zhǔn)化的事情,BasicFinder目前用人工復(fù)查,跟標(biāo)記的耗時(shí)相比,在1:1——1:3之間。
 
  最后就是安全層面,杜霖告知,對于客戶提供的數(shù)據(jù)素材,BasicFinder實(shí)行“交付即焚”,保證數(shù)據(jù)不會(huì)復(fù)用。若企業(yè)有非常嚴(yán)格的需求,BasicFinder還提供隔離標(biāo)記房,數(shù)據(jù)不會(huì)經(jīng)過BasicFinder服務(wù)器,并且房內(nèi)有監(jiān)控,客戶可隨時(shí)查看員工作業(yè)過程,以及每一臺(tái)設(shè)備的標(biāo)記情況。
 
  不僅如此,在前端的采集,BasicFinder也不主張數(shù)據(jù)復(fù)用。“在人臉識(shí)別場景中,批量購買超市等攝像頭的數(shù)據(jù)成本很低,但有法律風(fēng)險(xiǎn),其實(shí)侵犯了個(gè)人肖像權(quán),BasicFinder的解決方案是,跟每一個(gè)員工或者被采集人簽訂授權(quán)協(xié)議,即便有公司提出同樣的需求,我們會(huì)用同樣的方法再采集一遍,也不會(huì)私下復(fù)用。”杜霖強(qiáng)調(diào),BasicFinder的定位不是數(shù)據(jù)買賣公司,而是在加工的質(zhì)量上。
 
  當(dāng)然,對于一些公開的數(shù)據(jù)集,比如說景物的識(shí)別,BasicFinder也會(huì)自建數(shù)據(jù)庫,供企業(yè)采購。但實(shí)際在人工智能行業(yè)里,數(shù)據(jù)素材可復(fù)用的機(jī)率相對較低,杜霖補(bǔ)充,“因?yàn)槊考夜镜囊蠖疾灰粯?,同是?biāo)記商品,有的公司會(huì)要求勾勒輪廓,有的會(huì)要求貼邊打框,有的精度在10%的誤差,有的在5%……”
 
  值得一提的是,BasicFinder的工具平臺(tái)正在內(nèi)部試用中,并將于近期正式對外公布。客戶在平臺(tái)上直接簡單組合,填寫相關(guān)參數(shù),即可以相對精準(zhǔn)的定義任務(wù)。平臺(tái)接受到任務(wù)后,會(huì)按照要求把數(shù)據(jù)任務(wù)輕松分配到數(shù)據(jù)工廠甚至個(gè)人,數(shù)據(jù)工廠的工人在平臺(tái)上進(jìn)行操作,并借助相關(guān)的工具提升作業(yè)效率,客戶在后臺(tái)就能及時(shí)來監(jiān)控這些信息,不合格的數(shù)據(jù)也可以及時(shí)返工,最后保證會(huì)輸出質(zhì)量較高的數(shù)據(jù)。
 
  系統(tǒng)之后會(huì)不斷迭代,無非就是提高效率,問及是否會(huì)用機(jī)器替代人力進(jìn)行標(biāo)記,杜告表示不會(huì),因?yàn)槿斯?biāo)記出得數(shù)據(jù)在誤差層面符合正態(tài)分布,而機(jī)器標(biāo)記的都是同一水平,用機(jī)器生產(chǎn)的數(shù)據(jù)再訓(xùn)練機(jī)器,并不利于AI最后的訓(xùn)練效果。
 
  至于收費(fèi)模式,BasicFinder會(huì)根據(jù)樣本耗時(shí)估算一個(gè)人力成本,走項(xiàng)目制。
 
  據(jù)悉,現(xiàn)階段,BasicFinder的訂單多為數(shù)據(jù)標(biāo)注,國內(nèi)外客戶占比接近1:1,包括中科院、搜狗、中國移動(dòng)、華為、創(chuàng)新工場、云知聲、國外知名科研院所等。這些客戶多在使用深度學(xué)習(xí)相關(guān)的框架進(jìn)行研發(fā),因此對數(shù)據(jù)的需求量較大,客戶的算法相對比較成熟,因此任務(wù)往往為個(gè)性化任務(wù)。客戶中,最高訂單定價(jià)在百萬元,不少用戶會(huì)多次下達(dá)不同的訂單。
 
  其實(shí)對于這一波因?yàn)樯疃葘W(xué)習(xí)而興起的數(shù)據(jù)服務(wù)商來說,最大的潛在威脅很可能并非來自競品,而是來自于增強(qiáng)學(xué)習(xí)、遷移學(xué)習(xí)等算法,后者僅需要少量的數(shù)據(jù)即可以達(dá)到一定的效果。杜霖表示,這方面公司也在密切關(guān)注,一方面目前增強(qiáng)學(xué)習(xí)、遷移學(xué)習(xí)等算法還不成熟,很難大規(guī)模應(yīng)用;另一方面,這些算法也需要基礎(chǔ)的學(xué)習(xí)數(shù)據(jù),同時(shí)公司也有可能提供包含人工操作的數(shù)據(jù)以提供給這些算法。
 
  BasicFinder注冊成立于2015年,目前核心研發(fā)團(tuán)隊(duì)在20人左右。創(chuàng)始人杜霖是一個(gè)連續(xù)創(chuàng)業(yè)者,在上海交通大學(xué)計(jì)算機(jī)系讀大二的時(shí)候,就開始了第一次創(chuàng)業(yè)經(jīng)歷,當(dāng)時(shí)開發(fā)了一款SEM搜索引擎自動(dòng)化營銷工具,后以300萬美元的價(jià)格打包賣給了一家土耳其電子商務(wù)網(wǎng)站。2010年大學(xué)畢業(yè)后,杜霖從事了數(shù)年TMT創(chuàng)投工作。2015年預(yù)感到深度學(xué)習(xí)的潛力及對數(shù)據(jù)的需求,成立了BasicFinder。公司已經(jīng)獲得過兩輪融資,天使輪由個(gè)人投資數(shù)百萬元,2017年3月份,完成了一千多萬元pre-A輪融資,計(jì)劃今年底或明年初再進(jìn)行A輪融資。
 
 
更多>相關(guān)資訊
0相關(guān)評論

推薦圖文
推薦資訊
點(diǎn)擊排行