您的位置: 首頁(yè) > 新聞 > 高新技術(shù) > 新聞詳情

“書(shū)生?浦語(yǔ)”2.0大語(yǔ)言模型開(kāi)源 200K上下文

時(shí)間:2024-01-17 13:59:10
  • 來(lái)源:IT之家
  • 作者:3DM整理
  • 編輯:方形的圓

IT之家今日(1月17日)消息,商湯科技與上海 AI 實(shí)驗(yàn)室聯(lián)合香港中文大學(xué)和復(fù)旦大學(xué)今日發(fā)布了新一代大語(yǔ)言模型書(shū)生?浦語(yǔ) 2.0(InternLM2)。

“書(shū)生?浦語(yǔ)”2.0大語(yǔ)言模型開(kāi)源 200K上下文

據(jù)介紹,InternLM2 是在 2.6 萬(wàn)億 token 的語(yǔ)料上訓(xùn)練得到的。沿襲第一代書(shū)生?浦語(yǔ)(InternLM)設(shè)定,InternLM2 包含 7B 及 20B 兩種參數(shù)規(guī)格及基座、對(duì)話(huà)等版本,繼續(xù)開(kāi)源,提供免費(fèi)商用授權(quán)。

目前,浦語(yǔ)背后的數(shù)據(jù)清洗過(guò)濾技術(shù)已經(jīng)歷三輪迭代升級(jí),號(hào)稱(chēng)僅使用約 60% 的訓(xùn)練數(shù)據(jù)即可達(dá)到使用第二代數(shù)據(jù)訓(xùn)練 1T tokens 的性能表現(xiàn)。

“書(shū)生?浦語(yǔ)”2.0大語(yǔ)言模型開(kāi)源 200K上下文

與第一代InternLM相比,InternLM2在大規(guī)模高質(zhì)量的驗(yàn)證語(yǔ)料上的Loss分布整體左移,表明其語(yǔ)言建模能力增強(qiáng)。

“書(shū)生?浦語(yǔ)”2.0大語(yǔ)言模型開(kāi)源 200K上下文

通過(guò)拓展訓(xùn)練窗口大小和位置編碼改進(jìn),InternLM2支持20萬(wàn)tokens的上下文,能夠一次性接受并處理約30萬(wàn)漢字(約五六百頁(yè)的文檔)的輸入內(nèi)容。

下面表格對(duì)比了InternLM2各版本與ChatGPT(GPT-3.5)以及GPT-4在典型評(píng)測(cè)集上的表現(xiàn)??梢钥吹?,InternLM2在20B參數(shù)的中等規(guī)模上,整體表現(xiàn)接近ChatGPT。

“書(shū)生?浦語(yǔ)”2.0大語(yǔ)言模型開(kāi)源 200K上下文

0

玩家點(diǎn)評(píng) 0人參與,0條評(píng)論)

收藏
違法和不良信息舉報(bào)
分享:

熱門(mén)評(píng)論

全部評(píng)論

他們都在說(shuō) 再看看
3DM自運(yùn)營(yíng)游戲推薦 更多+