IT之家6月8日消息,今年早些時(shí)候美國(guó)田納西州健康科學(xué)中心的放射學(xué)家Som Biswas引起關(guān)注,因?yàn)樗凇斗派鋵W(xué)》雜志上發(fā)表了一篇由人工智能聊天機(jī)器人ChatGPT協(xié)助寫(xiě)作的文章,題為《ChatGPT與醫(yī)學(xué)寫(xiě)作的未來(lái)》。他表示,他使用并編輯了ChatGPT生成的文本,目的是提高人們對(duì)該技術(shù)的實(shí)用性的認(rèn)識(shí)。他還透露,之后他又在四個(gè)月內(nèi)利用ChatGPT發(fā)表了16篇期刊文章。有些期刊編輯也反映,他們收到了大量使用ChatGPT寫(xiě)作的文章。
為了應(yīng)對(duì)這種情況,堪薩斯大學(xué)的化學(xué)教授Heather Desaire和她的團(tuán)隊(duì)開(kāi)發(fā)了一種新的AI檢測(cè)工具,可以高效準(zhǔn)確地區(qū)分科學(xué)文本是由人類還是ChatGPT生成的,他們的研究結(jié)果發(fā)表在《細(xì)胞報(bào)告物理科學(xué)》雜志上。

Desaire教授說(shuō),她和她的團(tuán)隊(duì)首先分析了64篇《科學(xué)》雜志上的“觀點(diǎn)”文章,這些文章是對(duì)當(dāng)前研究進(jìn)行評(píng)論和評(píng)價(jià)的綜述性文章。然后,他們又分析了128篇由ChatGPT生成的關(guān)于同樣研究主題的文章。通過(guò)比較兩者,他們找出了20個(gè)特征,可以幫助判斷科學(xué)文本的作者身份。
他們發(fā)現(xiàn),人類科學(xué)家和ChatGPT在段落復(fù)雜度、句子長(zhǎng)度、標(biāo)點(diǎn)符號(hào)和詞匯使用等方面有明顯不同。例如,人類科學(xué)家更傾向于使用括號(hào)、破折號(hào)、問(wèn)號(hào)、分號(hào)和大寫(xiě)字母,而ChatGPT則不常用。人類科學(xué)家也更喜歡使用“模棱兩可的語(yǔ)言”,如“然而”、“盡管”、“但是”等。此外,人類科學(xué)家寫(xiě)作時(shí)既有很短的句子,也有很長(zhǎng)的句子,而ChatGPT則比較平均。
基于這20個(gè)特征,他們使用了一種現(xiàn)成的機(jī)器學(xué)習(xí)算法XGBoost來(lái)訓(xùn)練他們的AI檢測(cè)工具,他們測(cè)試了他們的AI檢測(cè)工具在180篇文章上的表現(xiàn),發(fā)現(xiàn)其非常擅長(zhǎng)判斷一篇科學(xué)文章是由人類還是ChatGPT寫(xiě)作的。“這種方法有超過(guò)99%的準(zhǔn)確率”,Desaire教授說(shuō),并補(bǔ)充說(shuō)這比現(xiàn)有的工具要好得多,因?yàn)楝F(xiàn)有的工具是在更廣泛的文本類型上進(jìn)行訓(xùn)練的,而不是專門針對(duì)科學(xué)文本的。
Desaire教授說(shuō),這種AI檢測(cè)工具可以幫助期刊編輯處理大量使用ChatGPT寫(xiě)作的文章,可以讓他們優(yōu)先考慮哪些文章值得送審。她還說(shuō),這種工具可以根據(jù)不同的領(lǐng)域進(jìn)行調(diào)整,比如用來(lái)檢測(cè)學(xué)生的剽竊行為,只要在適合的語(yǔ)言上進(jìn)行訓(xùn)練就行。“你可以把它改造用于你想要的任何領(lǐng)域,只要想好哪些特征是有用的。”
然而IT之家注意到,并非所有人都認(rèn)為這種AI檢測(cè)工具有多大用處。南澳大利亞大學(xué)變化與復(fù)雜性學(xué)習(xí)中心(C3L)的Vitomir Kovanovi?博士說(shuō),Desaire教授和她的團(tuán)隊(duì)所做的比較是不現(xiàn)實(shí)的,因?yàn)樗麄冎槐容^了100%由AI生成和100%由人類生成的文本,而沒(méi)有考慮到人類和AI之間的協(xié)作。他說(shuō),當(dāng)科學(xué)家使用ChatGPT時(shí),往往會(huì)有一定程度的人機(jī)合作,比如科學(xué)家會(huì)編輯AI生成的文本。這也是必要的,因?yàn)镃hatGPT有時(shí)會(huì)出錯(cuò),甚至?xí)商摌?gòu)的參考文獻(xiàn)。但是由于研究者只比較了兩種極端情況,他們的成功率就被提高了。
阿德萊德大學(xué)機(jī)器學(xué)習(xí)研究所的Lingqiao Liu博士也認(rèn)為,在真實(shí)世界中,這種AI檢測(cè)工具的準(zhǔn)確率可能會(huì)降低,導(dǎo)致更多的錯(cuò)誤分類。Liu博士是一位開(kāi)發(fā)算法來(lái)檢測(cè)AI生成圖像的專家,他說(shuō):“從方法論上講,這沒(méi)問(wèn)題,但使用它有一定風(fēng)險(xiǎn)。”
另一方面,Liu博士指出,人們也有可能指示ChatGPT以特定的方式寫(xiě)作,從而讓100%由AI寫(xiě)作的文本通過(guò)檢測(cè)。事實(shí)上,一些評(píng)論員甚至談到了一個(gè)“軍備競(jìng)賽”,指的是那些試圖讓機(jī)器更像人類和那些試圖揭露那些出于惡意目的使用這項(xiàng)技術(shù)的人之間的競(jìng)爭(zhēng)。
Kovanovi?博士認(rèn)為這是“沒(méi)有意義的競(jìng)賽”,因?yàn)檫@項(xiàng)技術(shù)有著強(qiáng)大的發(fā)展勢(shì)頭和潛在的積極影響。他說(shuō),AI檢測(cè)“沒(méi)有抓住重點(diǎn),我認(rèn)為我們最好把精力投入到如何有效地使用AI上。”他還反對(duì)使用反剽竊軟件來(lái)評(píng)估大學(xué)生是否使用了AI寫(xiě)作,并稱這給學(xué)生造成了不必要的壓力。