Gemini 2.0系列模型中的第一個(gè)模型是Gemini 2.0 Flash實(shí)驗(yàn)版,支持多模態(tài)輸入和輸出,例如可以直接生成圖像與文本混合的內(nèi)容,以及多語言文本轉(zhuǎn)語音(TTS)音頻。它還可以原生調(diào)用谷歌搜索、代碼執(zhí)行以及第三方用戶定義的函數(shù)等工具。
谷歌CEO桑達(dá)爾·皮查伊(Sundar Pichai)表示,Gemini 2.0的高級(jí)推理能力將融入谷歌AI搜索功能AI Overviews,以攻克更復(fù)雜的主題和多步驟問題,包括高等數(shù)學(xué)方程、多模態(tài)查詢和編程。Gemini 2.0能夠構(gòu)建新的AI智能體,從而離構(gòu)建通用助手更進(jìn)一步。“它們可以更多地了解你周圍的世界,提前考慮多個(gè)步驟,并在你的監(jiān)督下代表你采取行動(dòng)。”
基于Gemini 2.0,AI智能體Mariner專為谷歌網(wǎng)絡(luò)瀏覽器Chrome而擴(kuò)展。谷歌項(xiàng)目經(jīng)理杰克琳·孔澤爾曼(Jaclyn Konzelmann)表示,用戶可以在瀏覽器中輸入請(qǐng)求,然后讓Mariner代表他們采取行動(dòng)。Mariner的設(shè)計(jì)目的是“在有人參與的情況下”使用,它可以裝滿虛擬購物車,但實(shí)際上它不會(huì)購買,用戶必須自己購買。
據(jù)《紐約時(shí)報(bào)》報(bào)道,谷歌正與公司外的少數(shù)測(cè)試人員分享Mariner,但尚未公布對(duì)公眾發(fā)布的計(jì)劃??诐蔂柭姓J(rèn),和其他聊天機(jī)器人一樣,Mariner也會(huì)犯錯(cuò),“這仍然是一項(xiàng)實(shí)驗(yàn)技術(shù)。”由于這類系統(tǒng)是根據(jù)大量數(shù)據(jù)中發(fā)現(xiàn)的模式而運(yùn)行的,因此有時(shí)會(huì)出錯(cuò)。聊天機(jī)器人在生成文本時(shí)犯錯(cuò)有時(shí)會(huì)被忽視,但當(dāng)系統(tǒng)試圖使用網(wǎng)站并采取其他行動(dòng)時(shí),錯(cuò)誤就更成問題了。
谷歌還展示了新版智能手機(jī)數(shù)字助手Project Astra,可對(duì)圖像、文本、口頭命令做出反應(yīng),但同樣沒有向公眾開放。
與此同時(shí),谷歌希望Chrome成為未來實(shí)現(xiàn)人工智能戰(zhàn)略的重要平臺(tái)。不過,美國(guó)司法部要求一名聯(lián)邦法官強(qiáng)迫谷歌出售或分拆Chrome瀏覽器,此前谷歌的搜索引擎被裁定為非法壟斷。