1月15日,“AI六小虎”之一的MiniMax發(fā)布并開(kāi)源了新一代01系列模型,包含基礎(chǔ)語(yǔ)言大模型MiniMax-Text-01和視覺(jué)多模態(tài)大模型MiniMax-VL-01。該系列模型使用多項(xiàng)突破性創(chuàng)新,以大規(guī)模應(yīng)用線性注意力機(jī)制打破了Transformer傳統(tǒng)架構(gòu)的記憶瓶頸。
未來(lái),AI智能體有望成為最重要的產(chǎn)品形態(tài),由于智能體處理的任務(wù)變得越來(lái)越復(fù)雜,涉及的數(shù)據(jù)量也越來(lái)越大,單個(gè)智能體的記憶以及多個(gè)智能體協(xié)作間的上下文都會(huì)變得越來(lái)越長(zhǎng)。因此,長(zhǎng)上下文能力與多模態(tài)處理能力的提升至關(guān)重要。
技術(shù)上,MiniMax-01系列模型首次將線性注意力機(jī)制擴(kuò)展到商用模型的級(jí)別,受益于此次架構(gòu)創(chuàng)新,該系列模型在處理長(zhǎng)輸入的時(shí)候具有非常高的效率,接近線性復(fù)雜度。從規(guī)模效應(yīng)、結(jié)構(gòu)設(shè)計(jì)、訓(xùn)練優(yōu)化和推理優(yōu)化等層面綜合考慮,MiniMax選擇模型參數(shù)量為4560億,其中每次激活459億,能夠高效處理400萬(wàn)token的上下文,將有效替代Transformer傳統(tǒng)架構(gòu)并開(kāi)啟超長(zhǎng)文本輸入時(shí)代。相較于Gemini等一眾全球頂級(jí)模型,MiniMax-01隨著輸入長(zhǎng)度變長(zhǎng),性能衰減最慢。
值得注意的是,MiniMax還開(kāi)源了Text-01模型、VL-01模型的完整權(quán)重,以便于更多開(kāi)發(fā)者做有價(jià)值、突破性的研究。MiniMax方面表示,“我們認(rèn)為這有可能啟發(fā)更多長(zhǎng)上下文的研究和應(yīng)用,從而更快促進(jìn)Agent時(shí)代的到來(lái),二是開(kāi)源也能促使我們努力做更多創(chuàng)新,更高質(zhì)量地開(kāi)展后續(xù)的模型研發(fā)工作。”
1月15日,“AI六小虎”之一的MiniMax發(fā)布并開(kāi)源了新一代01系列模型,包含基礎(chǔ)語(yǔ)言大模型MiniMax-Text-01和視覺(jué)多模態(tài)大模型MiniMax-VL-01。該系列模型使用多項(xiàng)突破性創(chuàng)新,以大規(guī)模應(yīng)用線性注意力機(jī)制打破了Transformer傳統(tǒng)架構(gòu)的記憶瓶頸。
未來(lái),AI智能體有望成為最重要的產(chǎn)品形態(tài),由于智能體處理的任務(wù)變得越來(lái)越復(fù)雜,涉及的數(shù)據(jù)量也越來(lái)越大,單個(gè)智能體的記憶以及多個(gè)智能體協(xié)作間的上下文都會(huì)變得越來(lái)越長(zhǎng)。因此,長(zhǎng)上下文能力與多模態(tài)處理能力的提升至關(guān)重要。
技術(shù)上,MiniMax-01系列模型首次將線性注意力機(jī)制擴(kuò)展到商用模型的級(jí)別,受益于此次架構(gòu)創(chuàng)新,該系列模型在處理長(zhǎng)輸入的時(shí)候具有非常高的效率,接近線性復(fù)雜度。從規(guī)模效應(yīng)、結(jié)構(gòu)設(shè)計(jì)、訓(xùn)練優(yōu)化和推理優(yōu)化等層面綜合考慮,MiniMax選擇模型參數(shù)量為4560億,其中每次激活459億,能夠高效處理400萬(wàn)token的上下文,將有效替代Transformer傳統(tǒng)架構(gòu)并開(kāi)啟超長(zhǎng)文本輸入時(shí)代。相較于Gemini等一眾全球頂級(jí)模型,MiniMax-01隨著輸入長(zhǎng)度變長(zhǎng),性能衰減最慢。
值得注意的是,MiniMax還開(kāi)源了Text-01模型、VL-01模型的完整權(quán)重,以便于更多開(kāi)發(fā)者做有價(jià)值、突破性的研究。MiniMax方面表示,“我們認(rèn)為這有可能啟發(fā)更多長(zhǎng)上下文的研究和應(yīng)用,從而更快促進(jìn)Agent時(shí)代的到來(lái),二是開(kāi)源也能促使我們努力做更多創(chuàng)新,更高質(zhì)量地開(kāi)展后續(xù)的模型研發(fā)工作。”
本文鏈接:http://jphkf.cn/news-2-195-0.html解決傳統(tǒng)架構(gòu)記憶瓶頸 MiniMax發(fā)布新一代模型
聲明:本網(wǎng)頁(yè)內(nèi)容由互聯(lián)網(wǎng)博主自發(fā)貢獻(xiàn),不代表本站觀點(diǎn),本站不承擔(dān)任何法律責(zé)任。天上不會(huì)到餡餅,請(qǐng)大家謹(jǐn)防詐騙!若有侵權(quán)等問(wèn)題請(qǐng)及時(shí)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除處理。
點(diǎn)擊右上角微信好友
朋友圈
點(diǎn)擊瀏覽器下方“”分享微信好友Safari瀏覽器請(qǐng)點(diǎn)擊“
”按鈕
點(diǎn)擊右上角QQ
點(diǎn)擊瀏覽器下方“”分享QQ好友Safari瀏覽器請(qǐng)點(diǎn)擊“
”按鈕