熱搜： 佳士科技 irobot 工業(yè)機器人機器人機器人產業(yè)聯(lián)盟 ABB 發(fā)那科機械手碼垛機器人機器人展覽

用計算機訓練計算機，人工智能如何自我學習？

日期：2023-02-27 來源：根新未來評論：0

　　人工智能的發(fā)展應用離不開數據。比如，訓練當前大火的ChatGPT，就需要大量的數據——根據OpenAI披露，ChatGPT的訓練使用了45TB的數據、近1萬億個單詞，大概是1351萬本牛津詞典所包含的單詞數量。

　　基于龐大數據集訓練而成的ChatGPT獲得了前所未有的成功，而ChatGPT想要向前迭代，就需要更多的數據進行訓練。但真實世界的數據總歸是有限的，并且面臨著難以獲取、質量差、標準不統(tǒng)一等諸多問題。在這樣的情況下，計算機模擬技術或算法生成的合成數據受到了愈發(fā)廣泛的關注。作為真實世界數據的廉價替代品，合成數據正日益被用于創(chuàng)造精準的AI模型。

　　為什么需要合成數據？

　　顧名思義，合成數據就是通過計算機模擬或人工智能算法合成的數據，這樣的數據并不基于現實世界的現象和事件，但由于在數學上或統(tǒng)計學上，合成數據也能夠反映真實世界數據的屬性，因此，合成數據可以作為真實世界數據的替代品，來訓練、測試、驗證AI模型。

　　2022年以來，Forrester、埃森哲（Accenture）、Gartner、CBInsights等研究咨詢公司都已經將合成數據列為人工智能未來發(fā)展的核心要素，認為合成數據對于人工智能的未來而言是“必選項”和“必需品”。

　　比如，Forrester將合成數據和強化學習、Transformer網絡、聯(lián)邦學習、因果推理視為實現人工智能2.0的五項關鍵技術進展，可以解決人工智能1.0所面臨的一些限制和挑戰(zhàn)，諸如數據、準確性、速度、安全性、可擴展性等。

　　Gartner預測稱，到2024年，用于開發(fā)人工智能和分析項目的數據60%將是生成式合成數據，到2030年合成數據將徹底取代真實數據，成為AI模型所使用的數據的主要來源。MIT科技評論將AI合成數據列為2022年十大突破性技術之一，稱其有望解決AI領域的數據鴻溝問題。

　　數據對于人工智能發(fā)展的意義不言自明——如果說以深度學習為代表的智能算法是人工智能應用和發(fā)展的“引擎”，那么數據就是用于驅動“引擎”的“燃料”。而合成數據之所以在今天會受到關注，正是因為目前現實世界的數據已經難以滿足人工智能繼續(xù)迭代，并向前發(fā)展的數據需求。

　　要知道，現實世界的數據收集和處理是一種昂貴且緩慢的過程，公司通常無法在短時間內獲取大量的數據來訓練準確的模型，就算是獲取現實世界的數據也要符合隱私規(guī)定，然而，除去獲取成本高昂以外，特定領域的數據集還受限于用戶隱私，極難采集?？梢哉f，現實世界數據的稀缺性已經成為人工智能發(fā)展的最大瓶頸——如何高效、廉價并在不侵犯隱私的情況下獲取大量數據，成為當前人工智能領域的關鍵問題之一。

　　合成數據就是這個關鍵問題的解法。首先，合成數據能夠實現數據增強和數據模擬，解決數據匱乏、數據質量等問題，包括通過合成數據來改善基準測試數據的質量等；其次，避免數據隱私問題，利用合成數據訓練AI模型可以避免用戶隱私問題，這對于金融、醫(yī)療等領域而言尤其具有意義；第三，合成數據還能最大限度地確保數據多樣性，更多反映真實世界，提升AI的公平性，以及糾正歷史數據中的偏見，消除算法歧視；第四，合成數據能夠應對長尾、邊緣案例，提高AI的準確性、可靠性，因為通過合成數據可以自動創(chuàng)建、生成現實世界中難以或者無法采集的數據場景，更好確保AI模型的準確性。

　　不僅如此，合成數據還具有低成本的特點。合成數據服務商AI.Reverie指出，人工標注一張圖片可能需要6美元，但人工合成的話只需要6美分?？偟膩碚f，利用合成數據可以更廉價、更高效、更準確、更安全可靠地訓練AI模型，進而極大擴展AI的應用可能性，將人工智能推向新的發(fā)展階段。

　　用計算機訓練計算機

　　2021年，尼日利亞數據科學公司的研究人員就注意到，旨在訓練計算機視覺算法的工程師可以選用大量以西方服裝為特色的數據集，但卻沒有非洲服裝的數據集。于是，這個團隊通過人工智能算法成功實現了人為生成由非洲時尚服裝的圖像組成的數據來解決這一不平衡問題。

　　可以說，合成數據真正實現了用計算機訓練計算機，這也讓機器智能向前更進一步。實際上，人類的學習正是遵循著這樣的方式，一方面，我們可以從外部信息來源收集知識和觀點，比如，通過閱讀一本書。但我們也可以通過思考一個問題，自發(fā)產生想法和見解，換言之，我們能夠通過內部反思和分析來加深對世界的理解，而不直接依賴于任何新的外部輸入。

　　而人工智能通過合成數據來自我訓練，就像是人工智能也無需任何新的外部輸入，而是通過合成數據來有效地引導它們自己的智能。

　　試想一下，今天的人工智能大模型吸收了世界上存在的大量信息和數據，比如維基百科、書籍、新聞文章等。如果人工智能能夠根據這些數據合成新的數據，然后再將這些合成數據進一步訓練來改進自己，那人工智能就將不斷迭代，且功能愈發(fā)強大。換言之，AI在合成數據構建的虛擬仿真世界中自我學習、進化，這將極大擴展AI的應用可能性。

　　實際上，用計算機訓練計算機的想法并不新鮮，例如，無人駕駛汽車已經在虛擬街道上進行了許多訓練。要知道，由于實際道路交通場景千變萬化，因此，讓自動駕駛汽車通過實際道路測試來窮盡其在道路上可能遇到的每一個場景是不現實的，必須借助于合成數據才能更好地訓練、開發(fā)自動駕駛系統(tǒng)。

　　為此，許多自動駕駛企業(yè)都開發(fā)了復雜的仿真引擎來“虛擬地合成”自動駕駛系統(tǒng)訓練所需的海量數據，并高效地應對駕駛場景中的“長尾”問題和“邊緣案例”。比如，騰訊自動駕駛實驗室開發(fā)的自動駕駛仿真系統(tǒng)TADSim可以自動生成無需標注的各種交通場景數據，助力自動駕駛系統(tǒng)開發(fā)。

　　在安全的、合成的仿真環(huán)境中，計算機可以模擬任何人類想象得到的駕駛場景，諸如調節(jié)天氣狀況、添加或移除行人、改變其他車輛的位置等等。可以說，合成數據和仿真技術是自動駕駛的核心支撐技術。實際上，最早涌現的一批合成數據創(chuàng)業(yè)公司就瞄準的是自動駕駛汽車市場，幫助自動駕駛企業(yè)解決其在自動駕駛系統(tǒng)開發(fā)過程中所面臨的數據和測試難題。

　　目前，合成數據還在向金融、醫(yī)療、零售、工業(yè)等諸多產業(yè)領域拓展應用，用計算機訓練計算機正在成為人工智能發(fā)展的必經之路。

　　下一次飛躍

　　由于對人工智能未來發(fā)展的巨大價值，合成數據也加速成為AI領域的一個新產業(yè)賽道。

　　一方面，國外的主流科技公司紛紛瞄準合成數據領域加大投入與布局。微軟的Azure云服務則推出了airSIM平臺，可以創(chuàng)建高保真的（highfidelity）的3D虛擬環(huán)境來訓練、測試AI驅動的自主飛行器，微軟還開發(fā)了可以生成合成和聚合數據集的開源工具SyntheticDataShowcase，并創(chuàng)建了合成人臉數據庫，和國際移民組織（IOM）合作打擊人口販賣。亞馬遜則在多個場景探索合成數據的應用，例如使用合成數據來訓練、調試其虛擬助手Alexa，以避免用戶隱私問題；其合成數據技術Wordforge工具可以用來創(chuàng)建合成場景（syntheticscenes）。

　　另一方面，合成數據作為AI領域的新型產業(yè)，相關創(chuàng)新創(chuàng)業(yè)方興未艾，合成數據創(chuàng)業(yè)公司不斷涌現，合成數據領域的投資并購持續(xù)升溫。據國外研究者統(tǒng)計，目前全球合成數據創(chuàng)業(yè)企業(yè)已達100家。在過去的18個月，公眾視野中已知的合成數據公司融資總額達到3.28億美元，比2020年高出2.75億美元。

　　看起來，合成數據是對真實數據稀缺性的重要解法，但這并不代表合成數據毫無問題。首先，雖然高質量的合成數據集不僅可以作為真實數據集的補充，更可以作為訓練人工智能模型的主要數據來源，但在全面應用合成數據集之前，需要充分研究合成數據集與真實數據集的差異，從而避免應用合成數據集帶來的偏差。因此，如何評估合成數據集與真實數據集的差異仍是一個有待解決的問題。

　　其次，合成數據仍存在“非自然數據”的問題。目前大多合成數據技術是基于統(tǒng)計機器學習方法的，由于經典統(tǒng)計學只關注了數據中蘊含的相關性，而忽視了因果性，因此有可能會生成不合邏輯的數據。比如，合成圖像中可能會出現具有異常背景的圖像，這類數據被稱為“非自然數據”。“非自然數據”對智能算法的影響目前仍然未知?？坍嬘绊懙倪吔绮⑻嵩缢伎紤獙k法將會是合成數據能否進入風險敏感領域的關鍵。

　　最后，合成數據仍然涉及的隱式隱私泄露問題。雖然“合成數據”并不由某個用戶產生，但是目前的合成數據仍然需要借用數據來訓練用于合成數據的模型，比如生成對抗網絡。由于生成對抗網絡結構的復雜度較高，因此在模型訓練的過程中，存在記憶原始訓練樣本分布的可能。已經有最新研究結果表明，可以通過合成的數據反向推斷出原始訓練樣本。所以，數據合成技術存在上述“隱式隱私”泄露問題，如何更嚴密地保護隱私仍是有待探究的問題。

　　從數據到合成數據，當人工智能能夠合成數據，并使用它來繼續(xù)自我改變，這可能會使迫在眉睫的數據短缺變得無關緊要。對于人工智能來說，這將代表下一次的飛躍。

聲明：凡資訊來源注明為其他媒體來源的信息，均為轉載自其他媒體，并不代表本網站贊同其觀點，也不代表本網站對其真實性負責。您若對該文章內容有任何疑問或質疑，請立即與中國機器人網(www.baoxianwx.cn)聯(lián)系，本網站將迅速給您回應并做處理。
電話：021-39553798-8007

更多>相關資訊

0 條相關評論

推薦圖文

加州大學科學家發(fā)明了	深圳又一制造業(yè)總部基
水下機器人在漁業(yè)中的	哈工程水下機器人再奪
里程碑！荊州市首臺機	超維科技精彩亮相電力

推薦資訊

點擊排行

?

• 當AI變得聰明又油膩，距離人類智能還有多遠	• 上海打造人工智能世界級產業(yè)集群形成人工智能多
• ChatGPT引爆萬億市場，馬斯克、雷軍搶灘人形機	• 為改進聊天機器人Bard，谷歌要求所有員工參與
• 科技部：2022年全社會研發(fā)經費支出首次突破3萬	• AI機器人功能強大，人類是否陷入失業(yè)危機？
• SpaceX的Polaris Dawn任務將于2023年夏季發(fā)射，	• AI新紀元,屬于小i機器人的時代終于來了
• 谷歌Gboard手機輸入法測試AI新功能，可將打字內	• 3個專項基金、40臺AI下棋機器人……這場慈善活

恰佩克獎	機器人高峰論壇	北大機器人	金屬加工在線	AI中國網	機氣林	工博會
趕考網	中國機床網	ITES深圳工業(yè)展	電氣自動化網	高壓電氣網	人工智能機器人	亞洲工業(yè)網
二手設備網	工博士	上海機器人產業(yè)技術研究院	庫卡機器人	中國傳動網	索比光伏網	數控機床市場網
國家標準化委員會

国产精品久久久久久久小说,国产国产裸模裸模私拍视频,国产精品免费看久久久无码,风流少妇又紧又爽又丰满,国产精品,午夜福利

用計算機訓練計算機，人工智能如何自我學習？