極客號(Daydx.com)7月11日 消息:今天,SemiAnalysis 發(fā)布了一篇付費訂閱的內(nèi)容,「揭秘」了有關(guān) GPT-4的信息,包括模型架構(gòu)、訓(xùn)練成本、數(shù)據(jù)集等。
據(jù)稱,GPT-4是由8個混合專家模型組成的集成系統(tǒng),每個模型有2200億個參數(shù)。推理過程中采用了混合專家模型,路由方式相對簡單。訓(xùn)練數(shù)據(jù)集包含約13萬億個 token,訓(xùn)練時間為90到100天,成本達(dá)到6300萬美元。推理成本為每1000個 token 約為0.0049美分。
文章還提到了 GPT-4的視覺多模態(tài)、推測式解碼等特點。這些揭秘的數(shù)據(jù)對理解 OpenAI 的架構(gòu)決策非常有意義。
此外,文章還介紹了 A100上 GPT-4的訓(xùn)練和推理成本,以及如何拓展到下一代模型架構(gòu) H100。