在线不卡日本ⅴ一区v二区_精品一区二区中文字幕_天堂v在线视频_亚洲五月天婷婷中文网站

  • <menu id="lky3g"></menu>
  • <style id="lky3g"></style>
    <pre id="lky3g"><tt id="lky3g"></tt></pre>

    Meta重新定義多模態(tài)!北大校友共同一作,70億參數(shù)文生圖模型擊敗Diffusion

    【新智元導(dǎo)讀】北大校友共同一作,meta發(fā)布史上首個(gè)單一多模態(tài)模型!7B模型擊敗Diffusion,完美畫手難題完美解決。

    meta又來(lái)炸場(chǎng)了!

    就在剛剛,meta推出了一個(gè)基于Transformer的多模態(tài)模型——CM3leon,在文生圖和圖像理解領(lǐng)域都取得了絕對(duì)的突破,堪稱同類最佳。

    而且,這種將多模態(tài)組合成單一模型,在此前公開的AI系統(tǒng)中是前所未有的。

    Meta重新定義多模態(tài)!北大校友共同一作,70億參數(shù)文生圖模型擊敗Diffusion

    顯然,meta的這項(xiàng)研究,為多模態(tài)AI定義了一個(gè)全新的標(biāo)準(zhǔn),預(yù)示著AI系統(tǒng)完全可以在理解、編輯、生成圖像、視頻、文本這些任務(wù)上自由切換。

    同時(shí),CM3leon的推出,正式標(biāo)志著自回歸模型首次在關(guān)鍵基準(zhǔn)上,與領(lǐng)先的生成擴(kuò)散模型的性能相媲美。

    Meta重新定義多模態(tài)!北大校友共同一作,70億參數(shù)文生圖模型擊敗Diffusion

    論文地址:https://ai.meta.com/research/publications/scaling-autoregressive-multi-modal-models-pretraining-and-instruction-tuning/

    此前,文生圖領(lǐng)域最受矚目的三大明星模型,是Stable Diffusion,DALL-E和Midjourney。而文生圖技術(shù)基本上都是依賴于擴(kuò)散模型。

    但CM3leon的革命性意義在于:它使用的是完全不同的技術(shù)——基于tokenizer的自回歸模型。

    結(jié)果表面,基于tokenizer的自回歸模型不僅比基于擴(kuò)散模型的方法更有效,在文生圖領(lǐng)域?qū)崿F(xiàn)了SOTA,而且訓(xùn)練的計(jì)算量還比此前基于Transformer的方法少了五倍!

    Meta重新定義多模態(tài)!北大校友共同一作,70億參數(shù)文生圖模型擊敗Diffusion

    01

    準(zhǔn)備好,一大波酷炫效果來(lái)襲

    光看原始性能指標(biāo),還說(shuō)明不了什么。

    CM3leon真正驚艷的地方,在于處理更復(fù)雜的提示和圖像編輯任務(wù)。

    準(zhǔn)確渲染圖像,效果驚人

    比如,它可以從提示中準(zhǔn)確渲染圖像,例如「撒哈拉沙漠中戴著草帽和霓虹燈太陽(yáng)鏡的小仙人掌」。

    Meta重新定義多模態(tài)!北大校友共同一作,70億參數(shù)文生圖模型擊敗Diffusion

    任意prompt,隨心所欲編輯圖像

    CM3leon還有一個(gè)獨(dú)特的功能——根據(jù)任意格式的文本指令對(duì)現(xiàn)有圖像進(jìn)行編輯,比如更改天空顏色,或者在特定位置添加對(duì)象。

    上面這些功能,遠(yuǎn)遠(yuǎn)超越了DALL-E2等模型所能達(dá)到的效果。

    Meta重新定義多模態(tài)!北大校友共同一作,70億參數(shù)文生圖模型擊敗Diffusion

    前所未有的多模態(tài)單一模型

    CM3leon的多功能架構(gòu),讓它能夠在文本、圖像和構(gòu)圖任務(wù)之間流暢地自由轉(zhuǎn)換。

    除了文生圖的功能,CM3leon還可以為圖像生成標(biāo)注、回答有關(guān)圖像內(nèi)容的問(wèn)題,甚至可以根據(jù)邊界框和分割圖的文本描述創(chuàng)建圖像。

    這種將模態(tài)組合成單一模型的情況,在此前在公開披露的AI系統(tǒng)中是前所未有的。

    prompt:狗叼著什么?模型回答:棍子。

    prompt:詳細(xì)描述給定圖像。模型回答:這張圖像中,一只狗嘴里叼著一根棍子。地面上有草。圖像的背景中有樹。

    Meta重新定義多模態(tài)!北大校友共同一作,70億參數(shù)文生圖模型擊敗Diffusion

    給定圖像邊界框分割的文本描述,說(shuō)明在圖像的哪個(gè)地方需要一個(gè)水池、需要一個(gè)鏡子,CM3leon就可以完全按prompt生成對(duì)應(yīng)圖像。

    Meta重新定義多模態(tài)!北大校友共同一作,70億參數(shù)文生圖模型擊敗Diffusion

    超高分辨率

    一個(gè)單獨(dú)的超分辨率平臺(tái)可以與CM3leon輸出集成,從而顯著提高分辨率和細(xì)節(jié)。

    輸入prompt「湖中央的圓形小島,湖周圍有森林,高對(duì)比度」——

    Meta重新定義多模態(tài)!北大校友共同一作,70億參數(shù)文生圖模型擊敗Diffusion

    解決AI畫手難題

    連AI不會(huì)畫手的老大難問(wèn)題,都被CM3leon輕松解決了。

    Meta重新定義多模態(tài)!北大校友共同一作,70億參數(shù)文生圖模型擊敗Diffusion

    02

    自回歸模型首次擊敗Diffusion?

    在近年來(lái)大熱的文生圖領(lǐng)域,Midjourney,DALL-E2和Stable Diffusion使用的都是擴(kuò)散技術(shù)。

    雖然Diffusion技術(shù)產(chǎn)生的結(jié)果很驚艷,但由于它是計(jì)算密集型的,這使得它的計(jì)算強(qiáng)度很大,運(yùn)行成本很高,而且往往缺乏實(shí)時(shí)應(yīng)用所需的速度。

    有趣的是,OpenAI幾年前曾想通過(guò)名為Image GPT的模型,來(lái)探索了Transformer作為圖像生成的可能性。但它最終放棄了這個(gè)想法,轉(zhuǎn)而支持Diffusion。

    而CM3leon采用的是完全不同的方法。作為基于Transformer的模型,它利用注意力機(jī)制來(lái)權(quán)衡輸入數(shù)據(jù)(無(wú)論是文本還是圖像)的相關(guān)性。

    這種架構(gòu)的差異,使得CM3leon能夠?qū)崿F(xiàn)更快的訓(xùn)練速度和更好的并行化,因而比傳統(tǒng)的基于擴(kuò)散的方法更有效。

    僅用單個(gè)TPU,CM3leon就在圖像數(shù)據(jù)集上進(jìn)行了有效的訓(xùn)練,并在MS-COCO數(shù)據(jù)集上達(dá)到了4.88的FID分?jǐn)?shù),超過(guò)了Google的文本到圖像模型Parti。

    與此同時(shí),CM3leon的效率更是同類Transformer架構(gòu)的5倍以上。

    Meta重新定義多模態(tài)!北大校友共同一作,70億參數(shù)文生圖模型擊敗Diffusion

    CM3leon之所以如此成功,可以歸功于它獨(dú)特的架構(gòu)和訓(xùn)練方法。

    它強(qiáng)大性能的一個(gè)關(guān)鍵,就是監(jiān)督微調(diào)的技術(shù)(SFT)。

    此前,SFT已被用于訓(xùn)練像ChatGPT這樣的文本生成模型,效果很好,但meta認(rèn)為,應(yīng)用于圖像領(lǐng)域時(shí),它也很有用。

    事實(shí)上,指令微調(diào)不僅提高了CM3Leon在圖像生成方面的性能,而且提高了圖像標(biāo)注編寫的性能,使其能夠回答有關(guān)圖像的問(wèn)題并通過(guò)遵循文本指令(例如「將天空的顏色更改為亮藍(lán)色」)來(lái)編輯圖像。

    CM3leon僅采用解碼器轉(zhuǎn)換器體系結(jié)構(gòu),類似于已建立的基于文本的模型,但增加了處理文本和圖像的功能。

    訓(xùn)練過(guò)程涉及檢索增強(qiáng),以及跨越各種圖像和文本生成任務(wù)的指令微調(diào)。

    通過(guò)應(yīng)用跨模態(tài)的監(jiān)督微調(diào)技術(shù),meta顯著提高了CM3leon在圖像標(biāo)注、視覺QA和文本編輯方面的性能。

    盡管CM3leon只在30億個(gè)文本token上進(jìn)行了訓(xùn)練,但它與在多達(dá)1000億個(gè)token上訓(xùn)練的其他模型的結(jié)果相當(dāng),甚至實(shí)現(xiàn)了超越。

    作為第一個(gè)采用與文本語(yǔ)言模型相似的方法進(jìn)行調(diào)整的多模態(tài)模型,meta在CM3leon中加入了一個(gè)大規(guī)模的檢索增強(qiáng)預(yù)訓(xùn)練階段和一個(gè)第二個(gè)多任務(wù)的監(jiān)督微調(diào)(SFT)階段。

    03

    CM3leon表現(xiàn)如何

    憑借CM3leon的能力,圖像生成工具可以產(chǎn)生更一致的圖像,更好地遵循輸入提示。

    以下是CM3leon在各種任務(wù)中的能力展示,所有任務(wù)均由單個(gè)模型完成:

    文本到圖像生成

    基于文本的圖像編輯(例如,「將天空的顏色改為明亮藍(lán)色」)很具挑戰(zhàn)性,因?yàn)樗竽P湍軌蛲瑫r(shí)理解文本指令和視覺內(nèi)容。

    尤其是,當(dāng)涉及復(fù)雜對(duì)象或提示包含多個(gè)必須在輸出中出現(xiàn)的約束條件時(shí)。

    根據(jù)具有高度組合結(jié)構(gòu)的提示文本,CM3leon可以生成一個(gè)指令跟隨的圖像。

    Meta重新定義多模態(tài)!北大校友共同一作,70億參數(shù)文生圖模型擊敗Diffusion

    基于文本的圖像編輯

    給定一張圖像和一個(gè)文本提示,CM3leon可以根據(jù)文本中的指令對(duì)圖像進(jìn)行編輯。

    由于CM3leon模型的通用性,與其他的任務(wù)一樣,這是通過(guò)同一個(gè)模型實(shí)現(xiàn)的,而不像以前的模型(如InstructPix2Pix)只針對(duì)基于文本的圖像編輯進(jìn)行微調(diào)。

    Meta重新定義多模態(tài)!北大校友共同一作,70億參數(shù)文生圖模型擊敗Diffusion

    同時(shí),CM3leon模型還可以根據(jù)一系列不同的提示來(lái)生成簡(jiǎn)短或長(zhǎng)篇描述,并回答關(guān)于圖像的問(wèn)題。

    舉個(gè)栗子。

    – 提示:

    問(wèn)題:這兩個(gè)物體有什么共同點(diǎn)?

    上下文:選擇最佳答案。

    選項(xiàng):(A)閃的(B)咸的

    回答:讓我們逐步思考:

    – CM3Leon輸出:

    思考每個(gè)物體。薯片有咸味。椒鹽脆餅是咸的。所以答案是(B)。

    Meta重新定義多模態(tài)!北大校友共同一作,70億參數(shù)文生圖模型擊敗Diffusion

    – 提示:

    詳細(xì)描述給定圖像中的所有物體。

    – CM3Leon輸出:

    一個(gè)街道標(biāo)志位于金屬桿上。標(biāo)志是藍(lán)色的,上面有白色的文字。桿上有一個(gè)紅燈。天空是明亮的藍(lán)色。街道上停著車。街道兩側(cè)有樹木。街道兩側(cè)有建筑物。

    Meta重新定義多模態(tài)!北大校友共同一作,70億參數(shù)文生圖模型擊敗Diffusion

    同樣,對(duì)于下面這些「看圖問(wèn)答」,CM3leon都能輕松拿捏。

    Meta重新定義多模態(tài)!北大校友共同一作,70億參數(shù)文生圖模型擊敗Diffusion

    為了進(jìn)一步了解CM3leon,meta在圖像描述生成和視覺問(wèn)答任務(wù)中,對(duì)指令微調(diào)模型進(jìn)行了實(shí)證評(píng)估,并將它們與先前的SOTA基準(zhǔn)進(jìn)行了比較。

    相比于Flamingo(100B)和OpenFlamingo(40B),CM3leon模型的文本數(shù)據(jù)明顯較少(約3B個(gè)token)。

    但在MS-COCO圖片描述和VQA2問(wèn)答方面,CM3leon卻實(shí)現(xiàn)了與零樣本OpenFlamingo相同的性能,甚至在VizWiz任務(wù)上擊敗了Flamingo近10個(gè)百分點(diǎn)。

    Meta重新定義多模態(tài)!北大校友共同一作,70億參數(shù)文生圖模型擊敗Diffusion

    結(jié)構(gòu)引導(dǎo)的圖像編輯

    結(jié)構(gòu)引導(dǎo)的圖像編輯旨在理解和解釋提供的文本指令以及結(jié)構(gòu)或布局信息。

    從而讓CM3leon模型能夠在遵循給定的結(jié)構(gòu)或布局指令的同時(shí),創(chuàng)建視覺上一致和語(yǔ)境恰當(dāng)?shù)膱D像編輯。

    在只包含分割的圖像(沒有文本類別)中,生成一張圖像。這里的輸入表示從中提取分割的圖像。

    Meta重新定義多模態(tài)!北大校友共同一作,70億參數(shù)文生圖模型擊敗Diffusion

    超分辨率

    除此之外,圖像生成領(lǐng)域還有一個(gè)常見的技巧——利用經(jīng)過(guò)單獨(dú)訓(xùn)練的超分辨率階段,從原始模型輸出生成更高分辨率的圖像。

    對(duì)于這類文本到圖像生成任務(wù),CM3leon表現(xiàn)得也非常好。

    Meta重新定義多模態(tài)!北大校友共同一作,70億參數(shù)文生圖模型擊敗Diffusion

    以及一些「奇幻」風(fēng)格的生成。

    Meta重新定義多模態(tài)!北大校友共同一作,70億參數(shù)文生圖模型擊敗Diffusion

    04

    如何構(gòu)建CM3Leon

    架構(gòu)

    在架構(gòu)方面,CM3Leon采用了一個(gè)和成熟的文本模型相似的僅解碼器Transformer。

    但不同的是,CM3Leon能夠輸入和生成文本和圖像。

    訓(xùn)練

    通過(guò)采用論文「Retrieval-Augmented Multimodal Language Modeling」中提出的訓(xùn)練檢索增強(qiáng)技術(shù),meta大大提高了CM3Leon模型的效率和可控性。

    同時(shí),meta還在各種不同的圖像和文本生成任務(wù)上,對(duì)CM3Leon模型進(jìn)行了指令微調(diào)。

    Meta重新定義多模態(tài)!北大校友共同一作,70億參數(shù)文生圖模型擊敗Diffusion

    隨著人工智能行業(yè)的不斷發(fā)展,像CM3Leon這樣的生成模型變得越來(lái)越復(fù)雜。

    這些模型通過(guò)對(duì)數(shù)百萬(wàn)個(gè)示例圖像進(jìn)行訓(xùn)練來(lái)學(xué)習(xí)視覺和文本之間的關(guān)系,但它們也可能反映出訓(xùn)練數(shù)據(jù)中存在的偏見。

    因此,meta采用了有許可的數(shù)據(jù)集對(duì)CM3Leon進(jìn)行訓(xùn)練。

    而結(jié)果也證明,雖然數(shù)據(jù)的分布與先前的模型截然不同,但CM3Leon仍然實(shí)現(xiàn)了強(qiáng)大的性能。

    對(duì)此,meta希望,通過(guò)大家的共同努力,可以創(chuàng)建更準(zhǔn)確、更公正、更公平的模型。

    05

    為多模態(tài)語(yǔ)言模型鋪平道路

    總的來(lái)說(shuō),meta認(rèn)為,CM3Leon在各種任務(wù)上的出色性能,是朝著更真實(shí)的圖像生成和理解邁出的重要一步。

    而這樣的模型,最終可以幫助提升創(chuàng)造力并在元宇宙中實(shí)現(xiàn)更好的應(yīng)用。

    06

    作者介紹

    Lili Yu、Bowen Shi和Ramakanth Pasunuru為論文共同一作。

    其中,作Lili Yu取得了北大物理系的學(xué)士學(xué)位,以及MIT電子工程和計(jì)算機(jī)科學(xué)的博士學(xué)位。

    Meta重新定義多模態(tài)!北大校友共同一作,70億參數(shù)文生圖模型擊敗Diffusion

    參考資料:

    https://ai.meta.com/blog/generative-ai-text-images-cm3leon/

    https://www.maginative.com/article/meta-unveils-cm3leon-a-breakthrough-ai-model-for-advanced-text-to-image-generation-and-image-understanding/

    https://techcrunch.com/2023/07/14/meta-generative-transformer-art-model/

    鄭重聲明:本文內(nèi)容及圖片均整理自互聯(lián)網(wǎng),不代表本站立場(chǎng),版權(quán)歸原作者所有,如有侵權(quán)請(qǐng)聯(lián)系管理員(admin#wlmqw.com)刪除。
    用戶投稿
    上一篇 2023年7月16日 15:13
    下一篇 2023年7月16日 15:14

    相關(guān)推薦

    • 日本電視劇收視率歷史排名(電視劇收視率歷史排名)

      收視率最高的電視劇排行榜前十名 1、但是《還珠格格》卻是我童年中我最喜歡看的電視劇。每到夏天的時(shí)候總會(huì)去看,好像如果這個(gè)夏天沒有看這個(gè)電視劇,夏天好像就沒有到來(lái)??梢娺@部電視劇對(duì)于…

      2024年1月24日
    • 液壓機(jī)械缸鍛造廠家品質(zhì)好的有哪些值得推薦?

      液壓機(jī)是一種以液體為工作介質(zhì)的重要機(jī)械設(shè)備,其核心功能是傳遞能量,實(shí)現(xiàn)各種工藝流程。除了在鍛壓成形方面的應(yīng)用,液壓機(jī)還廣泛應(yīng)用于矯正、壓裝、打包、壓塊和壓板等領(lǐng)域。根據(jù)工作介質(zhì)的不…

      2024年1月24日
    • 湖南暴雪已致1萬(wàn)多人受災(zāi)

      據(jù)@湖南氣象 ,22日7時(shí)至23日7時(shí),湘中、湘南出現(xiàn)大到暴雪,長(zhǎng)沙(瀏陽(yáng))、株洲(醴陵、茶陵)等13個(gè)縣市區(qū)出現(xiàn)大暴雪,郴州(北湖區(qū))、株洲(荷塘區(qū))出現(xiàn)特大暴雪;全省23個(gè)縣市…

      2024年1月24日
    • 落馬貪官退贓像“割肉”,詢問(wèn)能不能少交點(diǎn)

      “就像割我身上的肉一般,會(huì)讓我痛不欲生?!?24日,中央紀(jì)委國(guó)家監(jiān)委網(wǎng)站發(fā)布了針對(duì)云南省文山州住房和城鄉(xiāng)建設(shè)局原黨組成員、副局長(zhǎng)李慶明嚴(yán)重違紀(jì)違法案的剖析。信奉金錢至上的李慶明惜財(cái)…

      2024年1月24日
    • 中國(guó)gdp排行榜城市(中國(guó)gdp排行榜)

      中國(guó)各省gdp排名 1、根據(jù)查詢國(guó)家統(tǒng)計(jì)局官網(wǎng)信息顯示,2023年各省排名,廣東:GDP為1243667億。江蘇:GDP為116362億。山東:GDP為83099億。浙江:GDP為…

      2024年1月24日
    • SK-II大中華區(qū)季度銷售額暴跌34%,寶潔:日本核污水排海是主因

      財(cái)聯(lián)社1月24日訊(編輯 卞純)全球日用消費(fèi)品巨頭寶潔公司(ProcterGamble)周二表示,在截至12月底的第二財(cái)季,其高端護(hù)膚品牌SK-II在大中華區(qū)的銷售額下降了34%,…

      2024年1月24日
    • 呼和浩特白塔機(jī)場(chǎng)通報(bào)“保潔員占母嬰室吃飯”:涉事人已被辭退

      呼和浩特白塔機(jī)場(chǎng)通報(bào)“保潔員占母嬰室吃飯”:涉事人已被辭退 原標(biāo)題: 呼和浩特白塔機(jī)場(chǎng)通報(bào)“保潔員占母嬰室吃飯”:涉事人已被辭退 央視網(wǎng)消息:據(jù)@呼和浩特白塔國(guó)際機(jī)場(chǎng) 消息,呼和浩…

      2024年1月24日
    • 退休職工舉報(bào)局長(zhǎng)被判刑,被舉報(bào)人卻提級(jí)退休把人看懵了

      文|龍之朱 又見錯(cuò)抓錯(cuò)判上了熱搜。 據(jù)媒體報(bào)道,從2016年3月起,安徽宿州市碭山縣農(nóng)機(jī)局退休職工李平實(shí)名向紀(jì)檢部門舉報(bào)局長(zhǎng)王超經(jīng)濟(jì)問(wèn)題,均石沉大海。 2017年7月,李平夫婦及親…

      2024年1月24日
    • 6寸蛋糕用5斤車?yán)遄拥昙业狼?

      【#6寸蛋糕用5斤車?yán)遄拥昙业狼?:客服能力不足,多報(bào)了2斤車?yán)遄印?遇到商家虛假宣傳你會(huì)怎么辦# 近日,有網(wǎng)友發(fā)帖稱做六寸蛋糕需要5斤車?yán)遄右裏嶙h。 1月22日,涉事店家就“6寸…

      2024年1月24日
    • 格蘭芬多院徽簡(jiǎn)筆畫(格蘭芬多院徽)

      哈利波特的霍格沃茨學(xué)校分別是哪些學(xué)院? 1、《哈利波特》電影中的霍格沃茨學(xué)院,一共分為四個(gè)學(xué)院,分別是:格蘭芬多、赫奇帕奇、拉文克勞與斯萊特林。 2、霍格沃茨魔法學(xué)院共有格蘭芬多、…

      2024年1月24日

    聯(lián)系我們

    聯(lián)系郵箱:admin#wlmqw.com
    工作時(shí)間:周一至周五,10:30-18:30,節(jié)假日休息