
智慧安防、智慧物流、智能交通……人工智能技術正讓我們的生活更便利。而讓人工智能(AI)“更懂”人類的新職業(yè)——人工智能訓練師在當中起到十分重要的作用,相當于人工智能的教練。
人工智能訓練師在2020年正式成為新職業(yè)并納入國家職業(yè)分類目錄。隨著去年底該職業(yè)的國家職業(yè)技能標準頒布,業(yè)內(nèi)開展職業(yè)培訓和人才技能評價有了基本依據(jù)。人社部發(fā)布的報告顯示,經(jīng)測算我國人工智能人才缺口超過500萬。近日記者采訪了解到,在廣東,人工智能訓練師的需求旺盛,“現(xiàn)在有做AI的公司基本都有自己的人工智能訓練師,隨著人工智能在各個應用領域的不斷拓展,數(shù)據(jù)標注員等工種存在較大的人才缺口。”業(yè)內(nèi)人士說道。
新職業(yè)檔案:人工智能訓練師
使用智能訓練軟件,在人工智能產(chǎn)品實際使用過程中進行數(shù)據(jù)庫管理、算法參數(shù)設置、人機交互設計、性能測試跟蹤及其他輔助作業(yè)的人員。
主要工作任務:
1.標注和加工圖片、文字、語音等業(yè)務的原始數(shù)據(jù);
2.分析提煉專業(yè)領域特征,訓練和評測人工智能產(chǎn)品相關算法、功能和性能;
3.設計人工智能產(chǎn)品的交互流程和應用解決方案;
4.監(jiān)控、分析、管理人工智能產(chǎn)品應用數(shù)據(jù);
5.調(diào)整、優(yōu)化人工智能產(chǎn)品參數(shù)和配置。
訓練:“喂數(shù)據(jù)”圖片數(shù)以萬計還要避免AI“背題”
給人工智能“喂數(shù)據(jù)”,讓其“長智慧”是人工智能訓練師的主要工作。日前,記者在天翼數(shù)字生活科技有限公司見到了正在給人工智能“喂數(shù)據(jù)”的張力文,研究生畢業(yè)后他便進入公司從事機器視覺相關的算法研發(fā)工作,至今已有七年時間。
“我的日常工作主要包括人工智能需求分析、數(shù)據(jù)標注、算法開發(fā)以及算法調(diào)優(yōu)等,其中數(shù)據(jù)標注和算法開發(fā)是最主要的工作。”電腦前,張力文向記者演示了一個火情識別算法模型的數(shù)據(jù)標注及模型訓練的過程。只見他在電腦用標注工具將圖片中的火焰逐一圈出來,并標注為“fire”,標注一定數(shù)量后將這些圖片數(shù)據(jù)“喂”給人工智能學習,學習后進行測試,再逐張查看人工智能識別火焰的結果是否正確。張力文發(fā)現(xiàn),人工智能將圖片里的黃色盒子誤判成“火焰”了,于是他把該黃色盒子重新標注為“非火焰”,對算法進行調(diào)優(yōu),再對人工智能進行迭代訓練,如此往復……
每訓練一次,系統(tǒng)會自動生成一次測試結果,在訓練兩三百次之后形成有多個指標結果的“loss曲線”圖,loss值是判斷“智能還是智障”的關鍵指標。“我們主要查看兩個指標來判斷人工智能是否需要重新學習。”張力文說,一般來說他們會查看人工智能“訓練集”和“測試集”的正確率,如果訓練集數(shù)據(jù)正確率高,但測試集的低,那么說明人工智能存在“背題”的情況,需要再次學習,如果兩者正確率都高,說明人工智能已經(jīng)“學會”。
張力文介紹,一個算法模型的訓練,少則需要5000-10000張圖片數(shù)據(jù),多則要幾萬張甚至幾十萬張圖片數(shù)據(jù),“像目標檢測一般一萬張圖片數(shù)據(jù)即可,但識別類算法,比如人臉識別,通常要幾十萬張圖片數(shù)據(jù)。”不過在數(shù)據(jù)標注階段,如今已有智能標注幫忙,訓練師在智能標注后再進行個別的人工標注即可,大大減輕人工標注的工作量。這些圖片數(shù)據(jù)如何來?張力文說,網(wǎng)上開源數(shù)據(jù)一般可滿足人工智能的基礎訓練,但針對性訓練的數(shù)據(jù)需要購買或搜集,有時候甚至需要他們自己拍攝。
經(jīng)驗:要有核心算法還要“走出去”
張力文從小對數(shù)學、物理十分感興趣,每天都會花很多時間鉆研相關理論。2012年,張力文大學本科畢業(yè),看到人工智能技術在國內(nèi)興起,誕生很多技術創(chuàng)新和應用創(chuàng)新,各種人工智能應用遍地開花,為此他決定繼續(xù)攻讀數(shù)字圖像處理方向的研究生。
視聯(lián)網(wǎng)明廚亮灶、平安慧眼、天翼應急、智慧商企……這些人工智能應用項目張力文都“經(jīng)手”過。讓張力文印象深刻的是他負責的第一個項目。當時他帶領一支應屆生團隊研發(fā)智能相冊,由于缺乏產(chǎn)品設計、架構設計以及算法工程化落地相關經(jīng)驗,盡管在啟動研發(fā)前技術方案已經(jīng)改了10個版本,但在研發(fā)過程中還是遇到了很多不可預知的漏洞及問題。“項目需要研發(fā)人臉識別以及事物分類算法,我們直接使用了開源算法,結果項目完成后發(fā)現(xiàn),人工智能分析的結果簡直不堪入目,相片分類有很多錯誤,可以說是‘人工智障’。”后來張力文跟團隊經(jīng)過多個版本的迭代優(yōu)化,才正式上線商用。“這個經(jīng)歷讓我刻骨銘心,這說明我們要不斷提升技術能力以及累積項目經(jīng)驗。商用項目不能過于依賴開源項目,我們要有自己的核心算法,才能做得更好,走得更遠。”張力文說道。
為了讓人工智能“學得更好”,訓練師有時候還要“走出去”調(diào)研具體的應用場景。比如明廚亮灶項目,要到廚房觀察攝像頭安裝的位置和角度,攝像頭拍攝的畫面質(zhì)量,廚房光線、擺放物品等。“我們都會做一些分析,分析會引起人工智能誤判的因素。”張力文說道。
建議:求職者除了懂技術更要懂行業(yè)
“一個新開發(fā)的算法模型需要大量數(shù)據(jù)訓練,這個時候就需要人工智能訓練師介入和參與。”天翼數(shù)字生活科技有限公司AI視聯(lián)及行業(yè)應用事業(yè)部副總經(jīng)理王藝指出,人工智能技術已經(jīng)滲透到各個行業(yè),包括工業(yè)、金融、教育、安防、市政、物流、交通等,這些行業(yè)對人工智能訓練師都有著很高的需求。“現(xiàn)在有做AI的公司基本都有自己的人工智能訓練師,隨著人工智能在各個應用領域的不斷拓展,數(shù)據(jù)標注和算法訓練等工種存在較大的人才缺口。”
人社部2020年發(fā)布的《人工智能工程技術人員就業(yè)景氣現(xiàn)狀分析報告》指出,經(jīng)測算我國人工智能人才缺口超過500萬,國內(nèi)的供求比例為1:10,供需比例嚴重失衡。不斷加強人才培養(yǎng),補齊人才短板,是當務之急。廣州市人工智能產(chǎn)業(yè)發(fā)展促進會執(zhí)行秘書長蔡遠塵介紹,協(xié)會連續(xù)四年進行廣州市人工智能大數(shù)據(jù)企業(yè)入庫工作,目前已累計入庫800多家,其中大部分企業(yè)都是應用型傳統(tǒng)企業(yè)轉(zhuǎn)型而來,對人工智能人才有大量的需求。
“找到合適的、了解某個應用領域的訓練師還是很難。”王藝指出,人工智能并非一個單一的產(chǎn)業(yè),而是一項跨行業(yè)的技術,“比如明廚亮灶的應用,需要針對廚房里不規(guī)范操作進行智能識別,這就需要了解食品安全相關規(guī)范的人員進行數(shù)據(jù)標注。所以,數(shù)據(jù)標注員要了解某個垂直行業(yè)的背景知識。”
作為企業(yè)管理人員,王藝建議求職者不僅要了解算法調(diào)優(yōu)、數(shù)據(jù)清洗、標注等基礎知識,還要了解不同應用行業(yè)的背景知識。“只有了解行業(yè),才能真正知道哪些數(shù)據(jù)需要標注。訓練師既需要有邏輯思維、理性分析,還要有敏銳感、發(fā)現(xiàn)數(shù)據(jù)的能力。”
“很多人認為人工智能可以完全替代人力解決所有的問題,但智能是一個不斷優(yōu)化的過程,需要人工輔助。”張力文建議,有意入行的求職者要注重提升自身基礎理論以及工程實踐能力,持續(xù)關注前沿技術的發(fā)展動態(tài);其次要做好個人的職業(yè)規(guī)劃,結合個人的興趣以及特長,定位從事人工智能的具體領域或模塊,比如機器視覺、自然語言處理、語音識別等,“做好定位后,要深入學習這些領域和分工涉及的軟件、基本技能、數(shù)據(jù)處理常用手段等。”