
一名成熟的數(shù)據(jù)標(biāo)注師,每天能標(biāo)出2000條信息。圖為騰訊云智服智能服務(wù)中心。記者吳聃攝
“你看,這是一個(gè)錯(cuò)別字。我們要讓機(jī)器人在用戶打錯(cuò)字的情況下,依然能明白對方要表達(dá)的意思。這就需要把它‘標(biāo)注’出來。”10月18日,在成都騰訊大廈的騰訊云智服智能服務(wù)中心,陳麗指著屏幕,讓記者把這句話標(biāo)注到“意圖識(shí)別錯(cuò)誤”一欄中去。
陳麗是一款手游的人工智能(AI)客服數(shù)據(jù)標(biāo)注師。標(biāo)注師的職責(zé),是提升智能客服的“聰明度”——讓它正確判斷用戶發(fā)送的每句話意圖的概率更高。
陳麗指出的這句話是“我的猴子(游戲角色名字)上綁了”。“榜”字被用戶錯(cuò)打成了“綁”,造成智能客服無法理解。她解釋:“我們標(biāo)注出來,告訴智能客服,這里的‘綁’可以直接理解為‘榜’,下次再遇到這個(gè)情況,它就能明白了。”
人工智能之所以“智能”,是無數(shù)標(biāo)注師在背后不斷對其進(jìn)行訓(xùn)練的結(jié)果。新手報(bào)到,記者按照陳麗的提示一步步執(zhí)行,當(dāng)了一天數(shù)據(jù)標(biāo)注師。
每天標(biāo)注2000條
這是一支200人頂4000人的“施工隊(duì)”
體驗(yàn)標(biāo)注師的工作,一上手,記者的眼睛就“麻”了。
記者面前的電腦屏幕上,左側(cè)是滿滿一豎行需要標(biāo)注的語句。右側(cè)是會(huì)話類型、標(biāo)記類型、主意圖等多個(gè)選項(xiàng),其中僅標(biāo)記類型就被分為10余個(gè)選項(xiàng)。
“我們對每個(gè)需要標(biāo)注的語句進(jìn)行精準(zhǔn)分類,這樣智能客服才能學(xué)得更精準(zhǔn)。”陳麗在一旁指導(dǎo)。
這是一個(gè)龐大的工作量——每天,陳麗需要對2000條識(shí)別不精準(zhǔn)的信息進(jìn)行校正標(biāo)注。
環(huán)顧周邊的“同事”,他們很多都是剛畢業(yè)不久的大學(xué)生。“平均年齡在26歲左右。”騰訊云智服智能服務(wù)中心負(fù)責(zé)人張超介紹。
記者被分配到的小組,有一個(gè)有趣的名字——“校外施工隊(duì)”。“大部分人都剛從學(xué)校畢業(yè)不久,所以用了‘校外’兩個(gè)字,同時(shí)也有‘校正’的意思;我們做的業(yè)務(wù)是人工智能中最基礎(chǔ)的部分,所以也把自己稱為‘施工隊(duì)’。”陳麗說。
為什么選擇標(biāo)注師這個(gè)行業(yè)?“興趣使然。生活中,我是一名游戲高手,自己也會(huì)在游戲中遇到各種問題需要咨詢客服。如果遇到的問題在智能客服這個(gè)環(huán)節(jié)就被解決,這對用戶來說是最便捷的。”她說。
這是一個(gè)厲害的團(tuán)隊(duì)。在他們的訓(xùn)練下,智能客服和人工客服相互配合,僅200人就能完成4000名人工客服的任務(wù)量。
消除“一字之差”的歧義
海量標(biāo)注讓人工智能越來越“善解人意”
作為新手,一個(gè)上午的時(shí)間,記者僅標(biāo)注了100余條。跟指導(dǎo)老師一天2000條的業(yè)務(wù)量相比,還有很大的提升空間。
在標(biāo)注師工位旁,是人工客服的坐席。在這里,標(biāo)注師們“培養(yǎng)”的智能客服和人工客服相互配合,解決用戶的各類訴求。人工客服所在的整個(gè)片區(qū),被隔成了很多小隔間,每個(gè)隔間的圍擋都比其他工位高出半米??头冇械耐ㄟ^文字進(jìn)行回復(fù),有的接聽電話與用戶進(jìn)行溝通。高出半米的圍擋,就是為了給他們提供一個(gè)相對獨(dú)立安靜的環(huán)境,互不打擾。
“智能客服是未來的大方向,我們必須朝這個(gè)方向走。”張超說,2017年開始,人工智能產(chǎn)業(yè)進(jìn)入爆發(fā)式發(fā)展,智能客服成為“主戰(zhàn)場”之一。
“這也是順應(yīng)市場需求。以騰訊客服微信公眾號(hào)為例,平均每天客服咨詢訴求量就有80萬條,每一條都靠人工來解答,怎么可能完成?”張超介紹,在標(biāo)注師們的努力下,智能客服的數(shù)據(jù)庫已有了數(shù)百萬的標(biāo)注量。90%左右的用戶訴求,都能通過智能客服自助解決。
剩下的10%,雖然智能客服不能直接解決,但也能大概梳理出問題所在及解決方向,此時(shí)再交給人工客服,效率將提升很多。“200人頂4000人,就是這樣完成的。”
長遠(yuǎn)來看,智能客服的最佳狀態(tài),是用戶在與其聊天時(shí),會(huì)錯(cuò)以為是在與真人聊天。
“這并不是那么容易能達(dá)到的,尤其是中文領(lǐng)域。”張超舉例介紹,“你要吃點(diǎn)什么?”和“你要吃點(diǎn)什么嗎?”兩句話僅一字之差,意思卻完全不同。
“機(jī)器人要成為‘中文通’,需要進(jìn)行海量標(biāo)注學(xué)習(xí),算法和系統(tǒng)也需要不斷優(yōu)化,這還有很長一段路要走。”他說。
而這段路途中,標(biāo)注師們將成為主要角色之一。
“雖然看起來工作比較枯燥,但我很有成就感。很多細(xì)枝末節(jié)的問題被我們解決了,會(huì)很有參與感。”陳麗說,看到機(jī)器人從很多問題都答不上來的狀態(tài),變得越來越聰明,就像看著自己的“學(xué)生”在慢慢成長。“我就是人工智能背后的‘人工’,我會(huì)盡全力去當(dāng)一位好‘語文老師’,讓它們越來越‘善解人意’。”
體驗(yàn)心得
希望有更多技術(shù)能夠“爛大街”
去年的中國人工智能大會(huì)上,一位清華大學(xué)專家的話讓我記憶猶新。他說,人工智能領(lǐng)域,“‘爛大街’的技術(shù)才是好技術(shù)”。
我們對人工智能的需求,是在工作生活中能實(shí)實(shí)在在幫我們解放大腦和雙手,帶來便捷,而不是聽著“酷炫”卻只能停留在實(shí)驗(yàn)室中的“PPT”。
現(xiàn)實(shí)情況是,能普及的技術(shù),往往是十分成熟的。而人工智能產(chǎn)品的成熟度,與其被訓(xùn)練的數(shù)據(jù)量息息相關(guān)。這群標(biāo)注師,是其快速成長的關(guān)鍵。
“雖然我的工作很基礎(chǔ),但我一點(diǎn)也不覺得自己‘渺小’——一個(gè)有價(jià)值的標(biāo)注,就能解決上萬個(gè)用戶的問題。想到這里就很興奮。”采訪結(jié)束時(shí),陳麗如是說。
希望陳麗的興奮勁兒,能傳播到更多人工智能相關(guān)崗位上去,大家一起努力,讓更多優(yōu)質(zhì)技術(shù)“爛大街”。