熱搜： 佳士科技 irobot 工業(yè)機(jī)器人機(jī)器人 ABB 機(jī)器人產(chǎn)業(yè)聯(lián)盟發(fā)那科機(jī)械手機(jī)器人展覽碼垛機(jī)器人

谷歌、OpenAI學(xué)者談AI：語言模型正在努力“攻克”數(shù)學(xué)

日期：2022-11-02 來源：機(jī)器之心評論：0

　　AI到底擅不擅長數(shù)學(xué)，還得具體問題具體分析。

　　如果問計(jì)算機(jī)擅長什么，在所有的答案里，數(shù)學(xué)必須榜上有名。在經(jīng)歷了漫長的研究之后，頂尖學(xué)者們在研究計(jì)算機(jī)關(guān)于數(shù)學(xué)計(jì)算方面的發(fā)展，取得了令人驚訝的成績。

　　就拿去年來說，來自加州大學(xué)伯克利分校、OpenAI和Google的研究人員在語言模型方面取得了長足的進(jìn)步，GPT-3、DALL·E 2等被開發(fā)出來。然而，直到現(xiàn)在，語言模型還無法解決一些簡單的、用語言描述的數(shù)學(xué)問題，例如「Alice比Bob多五個(gè)球，Bob在給Charlie四個(gè)球后有兩個(gè)球。問Alice有幾個(gè)球？」這對語言模型來說，想要給出正確答案，可能就有點(diǎn)「吃力」了。

　　「當(dāng)我們說計(jì)算機(jī)非常擅長數(shù)學(xué)時(shí)，意思是它們非常擅長特定的、具體的事情，」來自谷歌的機(jī)器學(xué)習(xí)專家Guy Gur-Ari表示。計(jì)算機(jī)擅長算術(shù)是不假，但在特定的模式之外，計(jì)算機(jī)就無能為力了，簡單的文字描述題都回答不了。

　　谷歌研究員Ethan Dyer曾經(jīng)表示：做數(shù)學(xué)研究的人有一套僵化的推理系統(tǒng)，對于他們熟知的和不了解的內(nèi)容，這兩者之間有著明顯的鴻溝。

　　解決文字問題或定量推理問題很棘手，因?yàn)椴煌谄渌麊栴}，這兩者需要魯棒性和嚴(yán)謹(jǐn)性。如果過程中的任何一步出現(xiàn)錯(cuò)誤，將會(huì)導(dǎo)致錯(cuò)誤的答案。DALL·E在繪畫方面令人印象深刻，盡管它生成的圖像有時(shí)會(huì)很奇怪，可能遺漏人的手指、眼睛長得奇怪……這些我們都能接受，但是它在數(shù)學(xué)方面出現(xiàn)了錯(cuò)誤，我們的容忍度就會(huì)非常小。來自O(shè)penAI的機(jī)器學(xué)習(xí)專家Vineet Kosaraju也曾表達(dá)過這種想法，「我們對語言模型所犯的數(shù)學(xué)錯(cuò)誤（比如將10誤解為1和0，而不是10）容忍性還是比較小的?！?/div>

　　「我們研究數(shù)學(xué)僅僅是因?yàn)槲覀儼l(fā)現(xiàn)它獨(dú)立且非常有趣，」OpenAI機(jī)器學(xué)習(xí)專家Karl Cobbe說。

　　隨著機(jī)器學(xué)習(xí)模型在更大的數(shù)據(jù)樣本上訓(xùn)練而成，它們的魯棒性更好、出錯(cuò)也更少。但擴(kuò)大模型規(guī)模似乎只能通過定量推理進(jìn)行。研究人員意識(shí)到，對于語言模型所犯的錯(cuò)誤似乎需要更有針對性的方法來解決。

　　去年，加州大學(xué)伯克利分校和OpenAI的兩個(gè)研究團(tuán)隊(duì)分別發(fā)布了數(shù)據(jù)集MATH和GSM8K，這兩個(gè)數(shù)據(jù)集包含幾何、代數(shù)、初等數(shù)學(xué)等數(shù)千個(gè)數(shù)學(xué)問題?！肝覀兿肟纯催@是否是數(shù)據(jù)集的問題，」從事數(shù)學(xué)工作的AI安全中心研究員Steven Basart說。眾所周知，語言模型不擅長單詞問題，在這個(gè)問題上它們表現(xiàn)的有多糟糕，是否可以通過引入格式更好、更大的數(shù)據(jù)集來解決？

　　在MATH數(shù)據(jù)集上，頂級語言模型的準(zhǔn)確率為7%，而人類研究生的準(zhǔn)確率為40%，奧林匹克冠軍的準(zhǔn)確率為90%。在GSM8K數(shù)據(jù)集上（小學(xué)級別的問題），模型達(dá)到了20%的準(zhǔn)確率。實(shí)驗(yàn)中OpenAI使用了微調(diào)和驗(yàn)證這兩種技術(shù)，結(jié)果表明模型可以看到很多自身錯(cuò)誤的例子，這一發(fā)現(xiàn)很有價(jià)值。

　　當(dāng)時(shí)，OpenAI的模型需要在100倍以上的數(shù)據(jù)上進(jìn)行訓(xùn)練，才能在GSM8K上達(dá)到80%的準(zhǔn)確率。但在今年6月，谷歌發(fā)布了Minerva，達(dá)到78%的準(zhǔn)確率。這一結(jié)果超出了預(yù)期，研究者表示，比預(yù)想的時(shí)間來的更快。

　　論文地址：https://arxiv.org/pdf/2206.14858.pdf

　　Minerva基于谷歌自研的Pathways語言模型(PaLM)，具有更多的數(shù)學(xué)數(shù)據(jù)集，包含arXiv、LaTeX等數(shù)學(xué)格式。Minerva還采用了其他策略，在思維鏈提示（chain-of-thought prompting）中，Minerva將更大的問題分解成小塊。此外，Minerva還使用多數(shù)投票（majority voting），不是要求模型給出一個(gè)答案，而是要求它提出100種答案。在這些答案中，Minerva選擇最常見的一種答案。

　　這些新策略的收益是巨大的，Minerva在MATH上的準(zhǔn)確率高達(dá)50%，在GSM8K以及MMLU（包括化學(xué)和生物學(xué)在內(nèi)的一組更通用的STEM問題）上的準(zhǔn)確率接近80%。當(dāng)Minerva被要求重做稍微調(diào)整過的問題時(shí)，它的表現(xiàn)同樣很好，這表明它的能力不僅僅是來自記憶。

　　Minerva可能有奇怪、混亂的推理，但仍然得出正確的答案。盡管像Minerva這樣的模型可能會(huì)得出與人類相同的答案，但它們所遵循的實(shí)際過程可能大不相同。

　　谷歌機(jī)器學(xué)習(xí)專家Ethan Dyer表示，「我認(rèn)為存在這樣一種觀念，即數(shù)學(xué)相關(guān)人士有一些嚴(yán)格的推理系統(tǒng)，了解某事和不了解某事之間存在明顯的區(qū)別?！沟藗兘o出的答案不一致，會(huì)犯錯(cuò)誤，也無法應(yīng)用核心概念。在機(jī)器學(xué)習(xí)前沿中，邊界是模糊的。

　　原文鏈接：https://spectrum.ieee.org/large-language-models-math

聲明：凡資訊來源注明為其他媒體來源的信息，均為轉(zhuǎn)載自其他媒體，并不代表本網(wǎng)站贊同其觀點(diǎn)，也不代表本網(wǎng)站對其真實(shí)性負(fù)責(zé)。您若對該文章內(nèi)容有任何疑問或質(zhì)疑，請立即與中國機(jī)器人網(wǎng)(www.baoxianwx.cn)聯(lián)系，本網(wǎng)站將迅速給您回應(yīng)并做處理。
電話：021-39553798-8007

更多>相關(guān)資訊

0 條相關(guān)評論

推薦圖文

加州大學(xué)科學(xué)家發(fā)明了	深圳又一制造業(yè)總部基
水下機(jī)器人在漁業(yè)中的	哈工程水下機(jī)器人再奪
里程碑！荊州市首臺(tái)機(jī)	超維科技精彩亮相電力

推薦資訊

點(diǎn)擊排行

?

• 管管狂轟亂炸的AI推銷	• 日本發(fā)布AI同傳技術(shù)：可同時(shí)翻譯成3種語言
• 科大訊飛人工智能產(chǎn)業(yè)園項(xiàng)目首棟樓主體結(jié)構(gòu)封頂	• 日本計(jì)劃使用AI挑戰(zhàn)諾貝爾獎(jiǎng)?lì)A(yù)估2030年AI能發(fā)頂
• AI機(jī)器人守護(hù)城市地下管網(wǎng) 深圳先進(jìn)院與博銘維	• “成都造”AI助力打造更多“無人之境”
• AI平臺(tái)發(fā)現(xiàn)全新靶點(diǎn)，“漸凍癥”創(chuàng)新療法邁入臨	• AI面試官上線，招聘亦需警惕“算法陷阱”
• AI產(chǎn)業(yè)助力中國經(jīng)濟(jì)高質(zhì)量發(fā)展（專家解讀）	• Nature：人工智能AI預(yù)測癌癥起源，改善復(fù)雜轉(zhuǎn)移

恰佩克獎(jiǎng)	機(jī)器人高峰論壇	北大機(jī)器人	金屬加工在線	AI中國網(wǎng)	機(jī)氣林	工博會(huì)
趕考網(wǎng)	中國機(jī)床網(wǎng)	ITES深圳工業(yè)展	電氣自動(dòng)化網(wǎng)	高壓電氣網(wǎng)	人工智能機(jī)器人	亞洲工業(yè)網(wǎng)
二手設(shè)備網(wǎng)	庫卡機(jī)器人	中國傳動(dòng)網(wǎng)	索比光伏網(wǎng)	數(shù)控機(jī)床市場網(wǎng)	國家標(biāo)準(zhǔn)化委員會(huì)

国产精品久久久久久久小说,国产国产裸模裸模私拍视频,国产精品免费看久久久无码,风流少妇又紧又爽又丰满,国产精品,午夜福利

谷歌、OpenAI學(xué)者談AI：語言模型正在努力“攻克”數(shù)學(xué)

谷歌、OpenAI學(xué)者談AI：語言模型正在努力“攻克”數(shù)學(xué)