據(jù)The Information近日報道,微軟公司正在開發(fā)一個擁有約5000億個參數(shù)的大型語言模型。
據(jù)悉,這個在微軟內(nèi)部被稱為MAI-1的大型語言模型預計最早將于本月亮相。
OpenAI在2020年中期推出GPT-3時,詳細說明了該模型的初始版本擁有1750億個參數(shù)。該公司透露,GPT-4的規(guī)模更大,但尚未透露具體數(shù)字。有報道稱,OpenAI的旗艦LLM包含1.76萬億個參數(shù),而性能與GPT-4相當?shù)腉oogle LLC的Gemini Ultra據(jù)說有1.6萬億個參數(shù)。
據(jù)報道,微軟的MAI-1包含5000億個參數(shù),這表明它可以被定位為GPT-3和ChatGPT-4之間的一種中端選擇。這樣的配置可以讓模型提供較高的響應精度,但耗電量卻大大低于OpenAI的旗艦LLM。這將降低微軟的推理成本。
據(jù)The Information報道,MAI-1的開發(fā)工作由LLM開發(fā)商Inflection AI公司的創(chuàng)始人Mustafa Suleyman負責。據(jù)稱,微軟以6.25億美元的價格收購了這家初創(chuàng)公司,Suleyman與這家公司的大部分員工一起于今年3月加入微軟。這位高管早些時候曾與他人共同創(chuàng)辦了谷歌(Google LLC)的DeepMind AI研究小組。
據(jù)報道,微軟可能會使用Inflection AI的訓練數(shù)據(jù)和某些其他資產(chǎn)來支持MAI-1。據(jù)說該模型的訓練數(shù)據(jù)集還包括各類信息,包括由GPT-4生成的文本和網(wǎng)頁內(nèi)容。據(jù)報道,微軟正在使用配備英偉達顯卡的“大型服務器集群”進行開發(fā)。
The Information的消息來源指出,該公司尚未決定如何使用MAI-1。如果該模型確實擁有5000億個參數(shù),那么它就太復雜了,無法在消費類設備上運行。這意味著微軟最有可能在其數(shù)據(jù)中心部署MAI-1,將LLM集成到必應和Azure等服務中。
據(jù)信,如果MAI-1能夠顯示出足夠的前景,微軟將在5月16日舉行的Build開發(fā)者大會上首次發(fā)布MAI-1。這暗示該公司有望在幾周內(nèi)擁有該模型的工作原型(如果現(xiàn)在還沒有的話)。
正在開發(fā)MAI-1的消息傳出之前不到兩周,微軟剛剛開源了一個被稱為Pi-3 Mini的語言模型。據(jù)該公司稱,Pi-3 Mini擁有38億個參數(shù),性能超過規(guī)模是其10倍以上的LLM。Pi-3是人工智能系列的一部分,該系列還包括另外兩個更大、性能稍好的神經(jīng)網(wǎng)絡。