快科技7月16日消息,近日,meta宣布,將開發(fā)一款名為CM3Leon的AI模型,該模型能夠根據(jù)文本內(nèi)容生成圖片,也可以為圖片生成文本描述。
meta方面表示,CM3Leon在文生圖方面的表現(xiàn),達到了業(yè)界最高水平。
這意味著,該模型的表現(xiàn)將超越谷歌、微軟等廠商的一眾產(chǎn)品。
目前,meta已經(jīng)演示了CM3Leon的表現(xiàn),展現(xiàn)了該模型在包括復雜的文本提示生成圖片、根據(jù)文本指令編輯圖像等方面的表現(xiàn)。
據(jù)悉,為了訓練該模型,meta使用了數(shù)百萬張來自Shutterstock的授權圖片,有著高達70億個參數(shù),這是OpenAI的EALL-E2模型的兩倍以上。
不過,meta也承認,現(xiàn)階段的CM3Leon模型可能存在數(shù)據(jù)偏見的問題,仍然需要行業(yè)監(jiān)管。
CM3Leon是一款基于Transformer神經(jīng)網(wǎng)絡結構的模型,該神經(jīng)網(wǎng)絡的特性是利用注意力機制來處理輸入數(shù)據(jù)。
這一特點使得相較基于Transformer神經(jīng)網(wǎng)絡的模型,相較基于diffusion的模型具有更高的訓練效率,且計算成本更低。