秒速生圖火爆全網(wǎng)

最近,在各大社交平臺(tái)上,一款叫作“盜夢(mèng)師”的AI繪畫小程序火了。
具體火到什么程度呢?據(jù)以往團(tuán)隊(duì)的采訪得知,9月產(chǎn)品剛上線一周時(shí)間,盜夢(mèng)師便創(chuàng)造了日增5萬(wàn)用戶的紀(jì)錄。
從Midjourney到Stable Diffusion,再到國(guó)內(nèi)如雨后春筍般涌現(xiàn)的AI繪畫平臺(tái),在使用方式上差異不大,均采用「以文生圖」的方式?!敢晕纳鷪D」顧名思義就是只要你把想法、腦洞以文字輸入給AI,這些文字描述就會(huì)被算法驅(qū)動(dòng),變成一張張生動(dòng)、精致的圖片。
而真正能讓盜夢(mèng)師從眾多AI繪畫平臺(tái)中脫穎而出的,當(dāng)屬其鮮明的技術(shù)優(yōu)勢(shì)與舒適的產(chǎn)品體驗(yàn)。
從輸入描述到輸出圖片,全程僅不到5秒,對(duì)比其他產(chǎn)品動(dòng)輒幾十秒甚至幾分鐘的時(shí)間,可謂天壤之別。
同時(shí)還有多種繪畫風(fēng)格、多圖批量輸出、多尺寸高分辨率、畫師參考等功能輔助用戶開展創(chuàng)作,使得整個(gè)繪畫過(guò)程更便捷、有趣和惠普。加之其免費(fèi)的新手體驗(yàn),上線以來(lái)便在用戶間產(chǎn)生了良好的口碑。

最快,有多快
據(jù)了解,盜夢(mèng)師由前谷歌人工智能研究院科學(xué)家、NLP自然語(yǔ)言處理領(lǐng)域預(yù)訓(xùn)練語(yǔ)言模型“ALBERT”第一作者——藍(lán)振忠博士帶隊(duì)研發(fā)。
最終由西湖大學(xué)深度學(xué)習(xí)實(shí)驗(yàn)室和西湖心辰科技有限公司(西湖大學(xué)深度學(xué)習(xí)實(shí)驗(yàn)室孵化的AIGC創(chuàng)業(yè)公司)共同推出。
依托于西湖大學(xué)良好的科研和成果轉(zhuǎn)化環(huán)境、充足的科研資金及軟硬件設(shè)備,西湖心辰組建了一支長(zhǎng)期致力于研究自然語(yǔ)言處理,計(jì)算機(jī)視覺及深度學(xué)習(xí)的結(jié)合與應(yīng)用的團(tuán)隊(duì)。
在Stable Diffusion的基礎(chǔ)上,盜夢(mèng)師憑借團(tuán)隊(duì)在AI領(lǐng)域多年的深耕以及西湖大學(xué)實(shí)驗(yàn)室的成熟算力,找到了一個(gè)可發(fā)揮自有技術(shù)優(yōu)勢(shì)的地帶,并通過(guò)“秒生圖,生精圖”的特點(diǎn)快速占領(lǐng)AI畫畫高地。
我們通過(guò)原生stable diffusion在pytorch、TensorRT與Oneflow三個(gè)框架下的實(shí)現(xiàn)與盜夢(mèng)師自有模型對(duì)比可以看到:
pytorch上原生的Stable diffusion生成一張圖需要3.4s,第三方Oneflow需要1.4s生成時(shí)間。而盜夢(mèng)師的自有模型只需要0.8s,并且不會(huì)影響生成效果。
這是因?yàn)楸I夢(mèng)師針對(duì)速度和質(zhì)量?jī)蓚€(gè)方面分別做了技術(shù)優(yōu)化,在提速側(cè),進(jìn)行了算子重寫、模型量化、采樣函數(shù)優(yōu)化;在提質(zhì)側(cè),采用了自有中文語(yǔ)言模型、多尺寸彈性訓(xùn)練等。這才使得盜夢(mèng)師在生成圖片時(shí),不僅速度上有了質(zhì)的提升,最終的呈現(xiàn)效果也有明顯優(yōu)化。
各大模型分析
從今年8月發(fā)布至今,Stable Diffusion仍是最火的開源AI生圖模型。與其他開源圖片生成模型相比,其有著出圖速度快、質(zhì)量高等特點(diǎn)。
但在畫人物方面,Stable Diffusion的弊端也很明顯,如經(jīng)常存在多頭、多只手、多條腿或人物部分肢體丟失等問(wèn)題。
原生Stable-Diffusion(左)與盜夢(mèng)師(右)對(duì)比
同時(shí),原生Stable Diffusion僅支持英文作為唯一輸入語(yǔ)言,對(duì)于國(guó)內(nèi)用戶來(lái)說(shuō)也十分不友好。
針對(duì)語(yǔ)言障礙的問(wèn)題,國(guó)內(nèi)曾有團(tuán)隊(duì)開源了支持中文的stable diffusion模型——“太乙Stable Diffusion”。但經(jīng)測(cè)試發(fā)現(xiàn),太乙Stable Diffusion雖然能夠理解中文獨(dú)特的文化表達(dá),但語(yǔ)義理解方面仍有所欠缺,會(huì)給出與輸入prompt不匹配的圖片。
如輸入:霧氣彌漫的森林,中世紀(jì)風(fēng)格霍比特人村莊
太乙Stable Diffusion(左)與盜夢(mèng)師(右)對(duì)比
而且無(wú)論對(duì)于哪種模型,圖片質(zhì)量的好壞都與輸入的關(guān)鍵詞密切相關(guān),專業(yè)、適當(dāng)?shù)妮斎朐~需要用戶有大量的經(jīng)驗(yàn),新手往往用戶難以克服。
因此,改變模型是一切問(wèn)題的根本解。
盜夢(mèng)師改變了什么
如上文所說(shuō),文生圖效果由模型的圖像生成能力與自然語(yǔ)言理解能力共同決定。于是,盜夢(mèng)師團(tuán)隊(duì)在訓(xùn)練圖像生成能力的同時(shí)著重加強(qiáng)了機(jī)器理解層的能力,使自己區(qū)別于市面上的其他平臺(tái)。
在圖像生成方面,盜夢(mèng)師根據(jù)過(guò)往在AI生成領(lǐng)域積累的經(jīng)驗(yàn),在前期做了大量科研和訓(xùn)練工作。并且使用了與Stable Diffusion不同的訓(xùn)練方案,使得盜夢(mèng)師生成的圖片更加精細(xì),不會(huì)產(chǎn)生截?cái)嗟葐?wèn)題。
在語(yǔ)義理解方面,依賴于西湖心辰在NLP領(lǐng)域的大量技術(shù)與數(shù)據(jù)積累,盜夢(mèng)師自有模型不僅能更好地理解用戶輸入詞,還擴(kuò)大了原生Stable Diffusion的文本長(zhǎng)度限制,支持更長(zhǎng)的文本輸入。
此外,針對(duì)不懂得如何撰寫關(guān)鍵詞的新用戶,盜夢(mèng)師還開發(fā)了“夢(mèng)境增強(qiáng)模式”,可以對(duì)用戶的輸入詞做聯(lián)想增強(qiáng),幫助新手畫師更輕易地畫出驚艷的圖片。
當(dāng)然,盜夢(mèng)師目前仍然存在一些業(yè)內(nèi)普遍的待解決的問(wèn)題,比如眾所周知的AI畫手、AI吃面畫的缺陷
在藍(lán)振忠看來(lái),目前AI繪畫仍處于早期階段,雖然目前的圖片生成AI能力確實(shí)到達(dá)了歷史上的峰值,但還是需要更大的規(guī)模的數(shù)據(jù)以及更長(zhǎng)時(shí)間的訓(xùn)練。
持續(xù)迭代后的AI,繪畫速度會(huì)更快,可以及時(shí)調(diào)控的能力也會(huì)更強(qiáng)。以盜夢(mèng)師自我進(jìn)修的速度和深度來(lái)看,我們有理由相信它將是未來(lái)引領(lǐng)AIGC潮流的先鋒。