為方便開(kāi)發(fā)者研究,該公司還在 Github 上開(kāi)源了兩個(gè)模型的完整權(quán)重。這一系列模型的后續(xù)更新,包括代碼和多模態(tài)相關(guān)的后續(xù)強(qiáng)化仍待上傳。
該系列模型首次大規(guī)模實(shí)現(xiàn)線性注意力機(jī)制,打破 Transformer 傳統(tǒng)架構(gòu)記憶瓶頸,能夠處理 400 萬(wàn) token 的輸入,可輸入長(zhǎng)度是 GPT-4o 的 32 倍,Claude-3.5-Sonnet 的 20 倍。
據(jù)介紹,這個(gè)模型的參數(shù)量高達(dá) 4560 億,其中單次激活 459 億,模型綜合性能比肩海外頂尖模型,在大多數(shù)任務(wù)上追平了海外公認(rèn)最先進(jìn)的兩個(gè)模型,GPT-4o-1120 以及 Claude-3.5-Sonnet-1022。
在長(zhǎng)文任務(wù)上,隨著輸入長(zhǎng)度變長(zhǎng),MiniMax-Text-01 性能衰減更少,顯著優(yōu)于谷歌 Gemini。因此,01 系列模型在處理長(zhǎng)輸入的時(shí)候有非常高的效率,接近線性復(fù)雜度。
定價(jià)方面,IT之家發(fā)現(xiàn)該系列模型標(biāo)準(zhǔn)定價(jià)是輸入 1 元 / 百萬(wàn)輸入 token、8 元 / 百萬(wàn)輸出 token。