在线不卡日本ⅴ一区v二区_精品一区二区中文字幕_天堂v在线视频_亚洲五月天婷婷中文网站

  • <menu id="lky3g"></menu>
  • <style id="lky3g"></style>
    <pre id="lky3g"><tt id="lky3g"></tt></pre>

    在場虛擬空間|單機訓練200億參數(shù)大模型:Cerebras打破新紀錄

    在場虛擬空間|單機訓練200億參數(shù)大模型:Cerebras打破新紀錄

    轉載自機器之心

    本周,芯片創(chuàng)業(yè)公司 Cerebras 宣布了一個里程碑式的新進展:在單個計算設備中訓練了超過百億參數(shù)的 NLP(自然語言處理)人工智能模型

    由 Cerebras 訓練的 AI 模型體量達到了前所未有的 200 億參數(shù),所有這些都無需橫跨多個加速器擴展工作負載。這項工作足以滿足目前網絡上最火的文本到圖像 AI 生成模型——OpenAI 的 120 億參數(shù)大模型 DALL-E。

    Cerebras 新工作中最重要的一點是對基礎設施和軟件復雜性的要求降低了。這家公司提供的芯片 Wafer Scale Engine-2(WSE2)顧名思義,蝕刻在單個臺積電 7 nm 制程的整塊晶圓上,該面積通常足以容納數(shù)百個主流芯片——具有驚人的 2.6 萬億個晶體管、85 萬個 AI 計算內核和 40 GB 集成緩存,封裝后功耗高達 15kW。

    接近晶圓大小的 Wafer Scale Engine-2,面積比一個 iPad 還大。

    雖然 Cerebras 的單機在體量上已經類似于超算了,但在單塊芯片中保留多達 200 億個參數(shù)的 NLP 模型仍然顯著降低了數(shù)千個 GPU 的訓練成本,以及相關的硬件和擴展要求,同時消除了在它們之間分割模型的技術困難。Cerebras 表示,后者是「NLP 工作負載中最痛苦的方面之一」,有時「需要幾個月才能完成」。

    這是一個定制化的問題,不僅對每個正在處理的神經網絡,對于每個 GPU 的規(guī)格以及將它們聯(lián)系在一起的網絡都是獨一無二的——這些元素必須在第一次訓練開始之前提前設置好,而且也不能跨系統(tǒng)移植。

    Cerebras 的 CS-2 是一個獨立的超級計算集群,其中包括 Wafer Scale Engine-2 芯片,所有相關的電源、內存和存儲子系統(tǒng)。

    200 億的參數(shù)量大概是個什么水平?在人工智能領域里,大規(guī)模預訓練模型是最近各家科技公司和機構正在努力發(fā)展的方向,OpenAI 的 GPT-3 是一種 NLP 模型,它可以寫出足以欺騙人類讀者的整篇文章、做數(shù)學運算和翻譯,其具有驚人的 1750 億個參數(shù)。DeepMind 的 Gopher 于去年年底推出,將參數(shù)量的紀錄提高到 2800 億。

    最近一段時間,谷歌大腦甚至宣布訓練了一個超過萬億參數(shù)的模型 Switch Transformer。

    「在 NLP 領域中,體量更大的模型被證明效果更好。但傳統(tǒng)上,只有極少數(shù)公司擁有足夠的資源和專業(yè)知識來完成分解這些大型模型,將其分散到數(shù)百或數(shù)千個圖形處理單元的艱苦工作,」Cerebras 首席執(zhí)行官、聯(lián)合創(chuàng)始人 Andrew Feldman 說道?!敢虼艘仓挥袠O少數(shù)公司可以訓練大型 NLP 模型——這對于行業(yè)的其他人來說太昂貴、太耗時且無法使用。」

    現(xiàn)在,Cerebras 的方法能夠降低 GPT-3XL 1.3B、GPT-J 6B、GPT-3 13B 和 GPT-NeoX 20B 模型的應用門檻,使整個 AI 生態(tài)系統(tǒng)能夠在幾分鐘內建立大型模型,并在單個 CS-2 系統(tǒng)上訓練它們 。

    然而,就像旗艦級 CPU 的時鐘速度一樣,參數(shù)量只是大模型性能的其中一項指標。最近,一些研究在減少參數(shù)的前提下已經取得了更好的結果,例如 DeepMind 今年 4 月提出的 Chinchilla,只用 700 億個參數(shù)就在常規(guī)情況下超過了 GPT-3 和 Gopher。

    這類研究的目標當然是更智能的工作,而不是更努力地工作。因此 Cerebras 的成就比人們第一眼看到的更為重要——該研究讓我們相信現(xiàn)有的芯片制程水平能夠適應日益復雜的模型,該公司表示,以特殊芯片為核心的系統(tǒng)具備了支撐「數(shù)千億甚至數(shù)萬億參數(shù)」模型的能力。

    在單芯片上可訓練參數(shù)量的爆炸式增長需要依賴 Cerebras 的 Weight Streaming 技術。該技術可以將計算和內存占用分離,根據(jù) AI 工作負載中快速增長的參數(shù)量,允許內存進行任意量級的擴展。這使得設置時間從幾個月減少到幾分鐘,并且可以在 GPT-J 和 GPT-Neo 等型號之間切換。正如研究者所說:「只需要敲幾次鍵盤?!?/p>

    「Cerebras 以低成本、便捷的方式向人們提供了運行大型語言模型的能力,開啟了人工智能令人興奮的新時代。它為那些不能花費數(shù)千萬美元的組織提供了一個簡單而廉價的,參與到大模型競爭之中的方式,」Intersect360 研究公司的首席研究官 Dan Olds 說道?!府?CS-2 客戶在大量數(shù)據(jù)集上訓練 GPT-3 和 GPT-J 級模型時,我們非常期待 CS-2 客戶的新應用和新發(fā)現(xiàn)。」

    參考內容:

    https://www.tomshardware.com/news/cerebras-slays-gpus-breaks-record-for-largest-ai-models-trained-on-a-single-device

    https://www.cerebras.net/press-release/cerebras-systems-sets-record-for-largest-ai-models-ever-trained-on-a-single-device/

    鄭重聲明:本文內容及圖片均整理自互聯(lián)網,不代表本站立場,版權歸原作者所有,如有侵權請聯(lián)系管理員(admin#wlmqw.com)刪除。
    用戶投稿
    上一篇 2022年6月27日 06:17
    下一篇 2022年6月27日 06:17

    相關推薦

    • 筆記本最好配置(目前筆記本最好的配置)

      本文主要講的是筆記本最好配置,以及和目前筆記本最好的配置相關的知識,如果覺得本文對您有所幫助,不要忘了將本文分享給朋友。 筆記本電腦什么配置好? 01 CPU:這個主要取決于頻率和…

      2022年11月26日
    • 存儲過程語法(sql server存儲過程語法)

      今天小編給各位分享存儲過程語法的知識,其中也會對sql server存儲過程語法進行解釋,如果能碰巧解決你現(xiàn)在面臨的問題,別忘了關注本站,現(xiàn)在開始吧! oracle存儲過程基本語法…

      2022年11月26日
    • 妻子發(fā)微信:“我老公不在,快來”,同事:“下了班就來找你”

      在現(xiàn)如今網絡如此發(fā)達的時代,大家可以從各個地方了解到全國大事小事,正所謂世界之大無奇不有,每天都發(fā)生著奇奇怪怪的事情,今天小編突然看到這樣一件事,看完之后都不知道說什么好了。 王某…

      2022年11月26日
    • 《樂隊的海邊》第二場live秀開啟 趙夢為鄭秀妍寫中文歌詞

      今日(11月25日),芒果TV女性經營勵志奮斗真人秀《樂隊的海邊》第二期即將上線。張儷、趙夢、鄭秀妍、于文文、劉戀、張?zhí)鞇墼诤D鲜…偤J薪洜I的“炸廚”音樂餐廳蒸蒸日上,收獲顧客滿滿…

      2022年11月25日
    • 自由的工作

      02我國把自由職業(yè)者分為三類第一類是小本生意人,如個體零售店小餐館印刷店裝修公司老板,還有路邊小攤經營者第二類是沒有底薪的推銷員,如買保險的人地產經紀房子中介直銷人士,賣卡的人。 …

      2022年11月25日
    • 中興Axon40 Ultra航天版將于11月29日正式發(fā)布

      據(jù)中興手機官微爆料,中興Axon40 Ultra航天版將于11月29日正式發(fā)布,新機不僅會采用驍龍?zhí)幚砥鳎€將為大家?guī)硪幻丢毩踩酒?,獲得國密認證,擁有安全專利布局,不僅可以大…

      2022年11月24日
    • 英皇文化產業(yè):結束全部7間英皇UA電影城經營

      11月21日,英皇文化產業(yè)發(fā)布公告,英皇娛藝影院(廣東)有限公司(“中國附屬公司”)為英皇UA的全資附屬營運公司。 董事會謹此知會公司股東,于2022年11月21日,英皇UA(作為…

      2022年11月24日
    • iqoo11什么時候上市 iqoo11發(fā)布時間最新消息

      iqoo11什么時候發(fā)布?隨著新一代旗艦芯片的發(fā)布,各家手機廠商也是公布了自己的旗艦機,那么iqoo11什么時候發(fā)布呢?下面就讓小編為大家介紹一下,一起來看看吧。 iqoo11什么…

      2022年11月24日
    • 銳龍97900x參數(shù)規(guī)格跑分評測 銳龍97900x屬于什么檔次

      銳龍9 7900X是銳龍7000系列處理器中性能頂尖的型號之一,它采用了這一代標配的zen4架構和5nm制程工藝,那么它具體的參數(shù)跑分如何,在電腦上世紀發(fā)揮怎么樣呢,下面就來看看銳…

      2022年11月24日
    • 免費清理c盤的軟件(清理c盤空間不影響系統(tǒng))

      電腦用久了慢如龜速,還卡頓,這最大的原因啊就是C盤空間不足造成的。 即使電腦配置再好,或者硬盤再快,如果長時間沒有打掃C盤,打開文件或者穩(wěn)定之類的,都卡得讓人頭大。 這時候呢不要去…

      2022年11月24日

    聯(lián)系我們

    聯(lián)系郵箱:admin#wlmqw.com
    工作時間:周一至周五,10:30-18:30,節(jié)假日休息