人工智能公司Cohere首席執(zhí)行官Aiden Gomez近日透露,由于Reddit、Twitter等公司的數(shù)據(jù)采集要價(jià)太高,包括微軟、OpenAI和Cohere在內(nèi)的AI公司,已使用合成數(shù)據(jù)來(lái)訓(xùn)練AI模型。


Gomez表示合成數(shù)據(jù)可以適用于很多訓(xùn)練場(chǎng)景,只是目前尚未全面推廣。
IT之家在此附上Gomez舉的一個(gè)例子:如果某個(gè)企業(yè)想在高等數(shù)學(xué)中訓(xùn)練一個(gè)模型,可以創(chuàng)建兩個(gè)人工智能模型,分別扮演老師和學(xué)生的角色,并讓它們討論三角學(xué)之類(lèi)的話(huà)題。人工主要負(fù)責(zé)觀察,如果看到有什么錯(cuò)誤,可以進(jìn)行糾正。
IT之家注:
合成數(shù)據(jù)(synthetic data)是通過(guò)計(jì)算機(jī)技術(shù)人工生成的數(shù)據(jù),而不是由真實(shí)事件產(chǎn)生的數(shù)據(jù)。
但合成數(shù)據(jù)具備“可用性”,能夠在數(shù)學(xué)上或統(tǒng)計(jì)學(xué)上反映原始數(shù)據(jù)的屬性,因此可以作為原始數(shù)據(jù)的替代品來(lái)訓(xùn)練、測(cè)試并驗(yàn)證大模型。