研究人員推出xLSTM神經(jīng)網(wǎng)絡(luò)AI架構(gòu) 并行化處理Token
- 來(lái)源:IT之家
- 作者:3DM整理
- 編輯:方形的圓
IT之家今日(5月13日)消息,研究人員Sepp Hochreiter和Jürgen Schmidhuber在1997年共同提出了長(zhǎng)短期記憶(Long short-term memory,LSTM)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),可用來(lái)解決循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)長(zhǎng)期記憶能力不足的問(wèn)題。
而最近Sepp Hochreiter在arXiv上發(fā)布論文,提出了一種名為 xLSTM(Extended LSTM)的新架構(gòu),號(hào)稱(chēng)可以解決LSTM長(zhǎng)期以來(lái)“只能按照時(shí)序處理信息”的“最大痛點(diǎn)”,從而“迎戰(zhàn)”目前廣受歡迎的Transformer架構(gòu)。
據(jù)悉,Sepp Hochreiter在新的xLSTM架構(gòu)中采用了指數(shù)型門(mén)控循環(huán)網(wǎng)絡(luò),同時(shí)為神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)引入了“sLSTM”和“mLSTM”兩項(xiàng)記憶規(guī)則,從而允許相關(guān)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)能夠有效地利用RAM,實(shí)現(xiàn)類(lèi)Transformer“可同時(shí)對(duì)所有Token進(jìn)行處理”的并行化操作。
團(tuán)隊(duì)使用了150億個(gè)Token訓(xùn)練基于xLSTM及Transformer架構(gòu)的兩款模型進(jìn)行測(cè)試,在評(píng)估后發(fā)現(xiàn)xLSTM表現(xiàn)最好,尤其在“語(yǔ)言能力”方面最為突出,據(jù)此研究人員認(rèn)為xLSTM未來(lái)有望能夠與Transformer進(jìn)行“一戰(zhàn)”。

- 智械危機(jī)?AI助手不寫(xiě)代碼刪數(shù)據(jù)庫(kù)還謊報(bào)軍情
- 羅馬仕核心層老板全跑馬來(lái)西亞 還剩5千萬(wàn)充電寶庫(kù)存
- 紐約配音演員起訴開(kāi)發(fā)商AI模仿聲音侵權(quán) 法院判決敗訴
- 誰(shuí)言人族無(wú)大帝!編程賽人類(lèi)程序員鏖戰(zhàn)10小時(shí)險(xiǎn)勝AI
- Meta重金挖角AI精英:超級(jí)智能實(shí)驗(yàn)室半數(shù)員工來(lái)自中國(guó)
- 西貝創(chuàng)始人連用“瘋狂”喊話(huà)外賣(mài)平臺(tái):把定價(jià)權(quán)還給商家

-
傾國(guó)之怒
-
原始傳奇
-
斗羅大陸(我唐三認(rèn)可0.1折)
-
太閣立志2
-
奇門(mén)(0.1折仙俠不用閃)
-
深淵契約
-
貓狩紀(jì)0.1折
-
靈劍仙師(斗破蒼穹)
玩家點(diǎn)評(píng) (0人參與,0條評(píng)論)
熱門(mén)評(píng)論
全部評(píng)論