NLP領(lǐng)域權(quán)威賽事,網(wǎng)易云商一鳴驚人
CCF自然語(yǔ)言處理與中文計(jì)算國(guó)際會(huì)議(The CCF International Conference on Natural Language Processing and Chinese Computing,簡(jiǎn)稱NLPCC)是CCF-NLP(中國(guó)計(jì)算機(jī)學(xué)會(huì)自然語(yǔ)言處理技術(shù)委員會(huì),前身為中國(guó)計(jì)算機(jī)學(xué)會(huì)中文信息技術(shù)委員會(huì))的年度會(huì)議,也是自然語(yǔ)言處理(NLP)和中文計(jì)算 (CC)領(lǐng)域最為知名的國(guó)際學(xué)術(shù)會(huì)議之一。NLPCC專注于自然語(yǔ)言處理及中文計(jì)算領(lǐng)域的學(xué)術(shù)和應(yīng)用創(chuàng)新,致力于推動(dòng)該領(lǐng)域?qū)W術(shù)界和工業(yè)界研究、創(chuàng)新與應(yīng)用的發(fā)展,目前已發(fā)展成為覆蓋全國(guó)、具有國(guó)際影響力的學(xué)術(shù)與創(chuàng)新交流平臺(tái)。
NLPCC 2022沿襲了NLPCC大會(huì)傳統(tǒng),舉辦了若干自然語(yǔ)言處理任務(wù)的開放評(píng)測(cè),既涵蓋了經(jīng)典的自然語(yǔ)言處理任務(wù),也包括了時(shí)下頗受關(guān)注的前沿任務(wù),包括:用知識(shí)模型回答問(wèn)題、語(yǔ)音實(shí)體鏈接、多模態(tài)產(chǎn)品總結(jié)、多模態(tài)對(duì)話理解和生成、"多標(biāo)簽分類、命名實(shí)體識(shí)別、科學(xué)文獻(xiàn)內(nèi)容提取"、"對(duì)話文本分析、主題提取和對(duì)話總結(jié) "以及細(xì)粒度對(duì)話社會(huì)偏差測(cè)量等七大評(píng)測(cè)任務(wù)。
本次評(píng)測(cè)受到了學(xué)術(shù)界和工業(yè)界的廣泛關(guān)注。以網(wǎng)易云商AI團(tuán)隊(duì)報(bào)名參賽的評(píng)測(cè)任務(wù)(五)——多標(biāo)簽分類、命名實(shí)體識(shí)別、科學(xué)文獻(xiàn)內(nèi)容提取為例,共吸引了57支隊(duì)伍報(bào)名,包括清華大學(xué)、北京大學(xué)、哈爾濱工業(yè)大學(xué)、大連理工大學(xué)、華東師范大學(xué)、南京理工大學(xué)、北京郵電大學(xué)、中國(guó)科學(xué)院信息工程研究所等科研機(jī)構(gòu)和華為、騰訊、阿里巴巴、招商銀行等知名企業(yè),競(jìng)爭(zhēng)極其激烈。
網(wǎng)易云商AI團(tuán)隊(duì)首次在業(yè)內(nèi)公開賽事中亮相,并在命名實(shí)體識(shí)別子任務(wù)中一舉奪魁,展現(xiàn)了在自然語(yǔ)言處理,特別是命名實(shí)體識(shí)別領(lǐng)域的頂級(jí)技術(shù)能力。
創(chuàng)新NER算法模型,提升預(yù)測(cè)準(zhǔn)確率
命名實(shí)體識(shí)別(Named Entity Recognition,簡(jiǎn)稱NER),是自然語(yǔ)言處理中的一項(xiàng)基礎(chǔ)任務(wù),有著非常廣泛的應(yīng)用。命名實(shí)體通常指文本中具有特定意義或者指代性強(qiáng)的短語(yǔ),包括人名、地名、組織機(jī)構(gòu)名、時(shí)間日期、專有名詞等。NER系統(tǒng)就是要從非結(jié)構(gòu)化的自然文本中抽取出上述實(shí)體,并且可以按照業(yè)務(wù)需求識(shí)別出更多種類的實(shí)體,比如產(chǎn)品名稱、型號(hào)、大小等。同時(shí),NER技術(shù)也是關(guān)系抽取、事件抽取、知識(shí)圖譜、問(wèn)答系統(tǒng)等諸多NLP應(yīng)用的基石。
在傳統(tǒng)機(jī)器學(xué)習(xí)的方法中,通常以序列標(biāo)注方式對(duì)NER進(jìn)行建模,利用大規(guī)模語(yǔ)料來(lái)學(xué)習(xí)出標(biāo)注模型,從而對(duì)句子的各個(gè)位置進(jìn)行標(biāo)注。隨著深度學(xué)習(xí)的發(fā)展,深度神經(jīng)網(wǎng)絡(luò)可以有效處理眾多NLP任務(wù),對(duì)于NER來(lái)講,利用神經(jīng)網(wǎng)絡(luò)自動(dòng)完成特征提取,可以大幅提高NER的識(shí)別準(zhǔn)確率。尤其是近兩年,得益于BERT、GPT等大規(guī)模預(yù)訓(xùn)練語(yǔ)言模型的出現(xiàn),NER識(shí)別準(zhǔn)確率又得到了一次大幅度的提升。
在NLPCC 2022 命名實(shí)體識(shí)別評(píng)測(cè)任務(wù)中,參賽團(tuán)隊(duì)需要基于最先進(jìn)的NLP和深度學(xué)習(xí)技術(shù),設(shè)計(jì)命名實(shí)體識(shí)別模型對(duì)專業(yè)領(lǐng)域內(nèi)的文本內(nèi)容進(jìn)行識(shí)別。不同于以給定的文本內(nèi)容為基礎(chǔ)的傳統(tǒng)識(shí)別模型,網(wǎng)易云商AI團(tuán)隊(duì)通過(guò)爬蟲獲取給定文本的上下文,為給定的文本增加額外的領(lǐng)域相關(guān)知識(shí),從而進(jìn)行文本內(nèi)容層面的增強(qiáng),提高模型整體的識(shí)別能力。另外,為了解決訓(xùn)練語(yǔ)料稀缺的問(wèn)題,團(tuán)隊(duì)采用了相似實(shí)體替換以及遠(yuǎn)程監(jiān)督兩種方式對(duì)原始數(shù)據(jù)的數(shù)量進(jìn)行擴(kuò)增,將總訓(xùn)練語(yǔ)料提升至原來(lái)的5倍,整體提高了模型的性能。
網(wǎng)易云商冠軍算法采用了業(yè)界領(lǐng)先的W^2NER模型,突破了傳統(tǒng)序列標(biāo)注的建模方式,將實(shí)體識(shí)別問(wèn)題轉(zhuǎn)換為了詞與詞之間的關(guān)系分類問(wèn)題。通過(guò)這種建模方式,可以同時(shí)解決多種不同的實(shí)體識(shí)別,包括扁平實(shí)體、嵌套實(shí)體、非連續(xù)實(shí)體。該模型除了使用常見的TransformerEncoder結(jié)構(gòu)捕捉文本信息,還額外引入了多粒度的空洞卷積來(lái)挖掘詞與詞之間的關(guān)系,并在解碼階段采用了雙線性分類器和多層感知器共同解碼,提高了整體的預(yù)測(cè)準(zhǔn)確率。
落地實(shí)際業(yè)務(wù),冠軍算法加速任務(wù)處理
目前,本次比賽中所使用的命名實(shí)體識(shí)別技術(shù)已經(jīng)成功運(yùn)用在了網(wǎng)易云商的實(shí)際業(yè)務(wù)中。例如多輪對(duì)話機(jī)器人、外呼機(jī)器人等,在真實(shí)業(yè)務(wù)場(chǎng)景中實(shí)現(xiàn)機(jī)器人問(wèn)題匹配率和解決率的提升,進(jìn)一步加速任務(wù)處理。
多輪對(duì)話機(jī)器人能夠基于任務(wù)場(chǎng)景搭建任務(wù)流程,通過(guò)上下文追蹤明確訪客意圖,解決復(fù)雜場(chǎng)景,完美契合任務(wù)型場(chǎng)景。當(dāng)用戶在進(jìn)行退換貨、維修等售后問(wèn)題咨詢時(shí),大都會(huì)與機(jī)器人產(chǎn)生多輪對(duì)話,以幫助機(jī)器人獲取足夠的信息,快速提供精準(zhǔn)的答案。
比如,當(dāng)用戶詢問(wèn) “我的WN54洗衣機(jī)壞了,北京哪里可以修”時(shí),NER識(shí)別技術(shù)可以將 “WN54” 識(shí)別為具體的型號(hào),將“北京” 識(shí)別為地點(diǎn),由此快速找到對(duì)應(yīng)答案(例如此商品在北京的維修地點(diǎn))并推送給用戶。該場(chǎng)景中,NER識(shí)別技術(shù)的應(yīng)用輔助機(jī)器人提升了知識(shí)點(diǎn)的匹配率,也控制了一觸即達(dá)流程的跳轉(zhuǎn)。此外,在FAQ單輪問(wèn)答場(chǎng)景中,通過(guò)識(shí)別實(shí)體,也可以提供更好的答案。
NER識(shí)別技術(shù)不僅可以應(yīng)用在文本機(jī)器人中,在語(yǔ)音機(jī)器人的應(yīng)用中也發(fā)揮著巨大作用。傳統(tǒng)人工電話每人每天可撥打約120通,而外呼機(jī)器人可撥打近1200通,還可以通過(guò)語(yǔ)音識(shí)別理解用戶意圖,進(jìn)行自助任務(wù)辦理,因此當(dāng)下被廣泛應(yīng)用于批量通知或回訪的場(chǎng)景中。
以反詐案件處理場(chǎng)景為例,當(dāng)機(jī)器人詢問(wèn)“你給他們轉(zhuǎn)了多少錢”,用戶回復(fù):“第一次八十,第二次三百多,總共不到四百”,其中的“八十”、“三百多“ 以及 “不到四百”,都可被NER識(shí)別技術(shù)進(jìn)行抽取識(shí)別,在判定為詐騙金額后將結(jié)果記錄并反饋,按照預(yù)置的標(biāo)準(zhǔn)處理流程進(jìn)入到下一步,例如反詐中心工作人員介入處理等。得益于NER識(shí)別技術(shù)的應(yīng)用和高識(shí)別準(zhǔn)確率,反詐案件的信息搜集環(huán)節(jié)可以直接交給外呼機(jī)器人,使得有限的工作人員專注于重要案件處理,既實(shí)現(xiàn)了任務(wù)及時(shí)受理不遺漏,也節(jié)約了人力成本,提升處理效率。
未來(lái),網(wǎng)易云商將加大對(duì)前沿技術(shù)的研究力度,探索深度學(xué)習(xí)、自然語(yǔ)言處理等技術(shù)的新方向,打造更智能的服務(wù)營(yíng)銷一體化平臺(tái)。