
新聞評(píng)論區(qū)的不當(dāng)言論在每個(gè)網(wǎng)站上都可見(jiàn)到。到目前為止,解決這一問(wèn)題的關(guān)鍵在于,判斷什么樣的用語(yǔ)是不當(dāng)?shù)?。而即使人工識(shí)別也會(huì)有很多謬誤之處。
雅虎最新的計(jì)算機(jī)算法帶來(lái)了不同。在測(cè)試中,這一算法有90%的概率能識(shí)別出不當(dāng)用語(yǔ)。這一準(zhǔn)確率勝過(guò)了人工,以及其他強(qiáng)大的深度學(xué)習(xí)技術(shù)。
雅虎利用機(jī)器學(xué)習(xí)技術(shù)以及眾包的建議去設(shè)計(jì)這一算法,將其用于識(shí)別雅虎新聞和雅虎財(cái)經(jīng)中的不當(dāng)評(píng)論。這一算法識(shí)別的并非特定關(guān)鍵詞。以往的大部分技術(shù)會(huì)根據(jù)關(guān)鍵詞來(lái)判斷不當(dāng)言論,這造成了許多誤判,而真正的不當(dāng)言論卻又難以被發(fā)現(xiàn)。
雅虎的人工智能有所不同。這項(xiàng)技術(shù)并不搜索特定關(guān)鍵詞,而是會(huì)關(guān)注一系列因素,包括內(nèi)容的長(zhǎng)度和標(biāo)點(diǎn)等等。隨后,受過(guò)培訓(xùn)的員工也會(huì)對(duì)這些評(píng)論進(jìn)行評(píng)估,從而訓(xùn)練人工智能感受語(yǔ)言中的細(xì)微之處。
第三步,雅虎利用了 亞馬遜Mechanical Turk中眾包的額外評(píng)價(jià)。提供這些評(píng)價(jià)的并非專業(yè)的評(píng)論管理員。
目前,這一算法尚未被用在雅虎當(dāng)前的數(shù)據(jù)集以外。不過(guò)雅虎相信,這將會(huì)成為自然語(yǔ)言處理發(fā)展的重要一步。這項(xiàng)技術(shù)在雅虎內(nèi)部的應(yīng)用情況良好,但未來(lái)還需要接受其他數(shù)據(jù)集的檢驗(yàn)。