華為云：千億參數(shù)的盤古大模型是如何煉成的？

來源：華為云

作者：華為云

時間：2021-07-12

“每個人都生活在特定的時代，每個人在特定時代中的人生道路各不相同。在同一個時代，有人慨嘆生不逢時，有人只愿安分……”這是2021年北京高考命題作文“論生逢其時”的開頭。

天地混沌如雞子，盤古生在其中，萬八千歲，天地開辟，陽清為天，陰濁為地，盤古在其中。

——三國·吳·徐整《三五歷紀》

“每個人都生活在特定的時代，每個人在特定時代中的人生道路各不相同。在同一個時代，有人慨嘆生不逢時，有人只愿安分……”這是2021年北京高考命題作文“論生逢其時”的開頭。

答題的是一位既沒上過小學，也沒讀過初中、高中的特殊考生。他只是在短時間內(nèi)學習了大量人民日報的文章，然后憑借自己的閱讀理解、文本聯(lián)想以及語言生成能力，寫出這篇看似“像模像樣”的高考作文。（延展閱讀：今天參加高考的有1078萬考生和一個AI）

是的，它是一個AI——華為云盤古大模型，就在昨天2021世界人工智能大會（WAIC2021）上剛被評選為大會的“鎮(zhèn)館之寶”！在現(xiàn)場，觀眾可與大模型互動，直接給對方出題。比如，一句“明明明明明白白白白喜歡他，但他就是不說，他很高冷。”

這句話里，“明明”顯示一個人名，而后又作為形容詞，且整句需要斷句。但當記者向大模型提問 “白白喜歡誰？”時，大模型很快回答“明明”?；卮鹫_！雖然盤古沒有寒窗苦讀十幾年，但它也經(jīng)歷了上億參數(shù)的“學習”。

比如理解下面這兩句話：

1、小明在讀一本書，通過不斷堅持，克服各種困難，最后讀完了。

2、小紅在畫畫，期間遇到了很多困難，最后也完成了這副畫作。

雖然上面兩句話的人物和事件都不相同，但盤古也能和我們?nèi)祟愐粯?，從中提取一個相同的含義：鍥而不舍。這個能力其實已經(jīng)在華為開發(fā)者大會（Cloud）2021現(xiàn)場有所展示。我們不禁想問道盤古大模型是如何做到如此“聰慧”的呢？

為了更深入理解千億參數(shù)的盤古大模型，我們采訪到了盤古大模型研發(fā)員謝凌曦，考慮到大模型涉及到的一些技術(shù)比較晦澀，所以謝博士以非常通俗的方式為我們娓娓道來了盤古大模型研發(fā)的“前世今生”，以及它背后的艱難往事。

▲華為云盤古大模型研發(fā)員謝凌曦

何為大模型：

AI落地千行百業(yè)的必由之路

神話傳說里，盤古開天辟地，宇宙從一片混沌變得有序，談盤古大模型，謝凌曦從人工智能的誕生開始說起。

上世紀50年代，AI概念被提出，人們使用人工設(shè)計規(guī)則的方式去定義AI。到了80年代，在大數(shù)據(jù)的浪潮下，人們通過訓練數(shù)據(jù)模型的方式來實現(xiàn)AI。后期隨著數(shù)據(jù)規(guī)模擴大以及算力的發(fā)展，深度學習掀起新浪潮，各種AI模型不斷涌現(xiàn)。

直到近兩年，我們開始將跨領(lǐng)域的知識整合到AI模型中，基于Transformer結(jié)構(gòu)的各種大模型出現(xiàn)，包括OpenAI的GPT-3，以及盤古大模型，“它們打開了深度學習模型的規(guī)模與性能共同發(fā)展的局面，達到了深度學習領(lǐng)域新的高度?！?謝凌曦推了推眼鏡說道。

過去十年，AI 算法對算力的需求增長了40萬倍，神經(jīng)網(wǎng)絡(luò)從小模型到大模型已經(jīng)成為了必然的發(fā)展趨勢。大模型能夠解決 AI 模型定制化和應用開發(fā)碎片化，它可以吸收海量的知識，提高模型的泛化能力，減少對領(lǐng)域數(shù)據(jù)標注的依賴。

大模型一方面激活了深度神經(jīng)網(wǎng)絡(luò)對大規(guī)模無標注數(shù)據(jù)的自監(jiān)督學習能力，同時對于 AI 框架的深度優(yōu)化和并行能力都有很高的要求，是深度學習框架下將AI做到極致的集大成者。“從傳統(tǒng)方法到深度學習，這是一次大的跳躍，而在深度學習這個臺階上，大模型已經(jīng)站在了最前面，等待著下一個臺階的出現(xiàn)?！?/span>

當前盤古系列超大規(guī)模預訓練模型，包括NLP大模型、CV大模型、多模態(tài)大模型、和科學計算大模型。模型大意味著它吸收了海量數(shù)據(jù)知識，以盤古NLP大模型為例，它學習了40TB的中文文本數(shù)據(jù)；盤古CV大模型則包含了30億+參數(shù)。這些數(shù)據(jù)提高了大模型的泛化能力，提升算法對新鮮樣本的適應能力，從而學到隱含在數(shù)據(jù)背后的規(guī)律，減少對領(lǐng)域數(shù)據(jù)標注的依賴。

當大模型可以從小數(shù)據(jù)樣本中學習更多，也能幫助我們打開走向通用AI的大門，它可以解決AI模型定制化和應用開發(fā)碎片化的難題。

謝凌曦給我們算了一筆賬，他認為AI算法落地難不是因為它無法解決實際問題，而是應用場景太狹窄，每個痛點都需要定制化開發(fā)，從而導致投入的成本和人力過高。一旦場景變化，整個模型可能都需要重新開發(fā)。而大模型是一種工業(yè)化AI開發(fā)的新模式，可以解決小模型的定制化難題，讓一個模型可以應用到多個場景中，讓AI真正落地到千行百業(yè)中。

盤古NLP大模型

在最近的CLUE榜單上，盤古的NLP模型在總榜、閱讀理解排行榜和分類任務排行榜上都位列第一，總榜得分比第二名高出一個百分點。為了說明盤古的NLP模型是如何在理解能力上接近人類的，回到文章的開頭，謝凌曦舉了我們開篇提到的那個“鍥而不舍”的例子解釋：

1、小明在讀一本書，通過不斷堅持，克服各種困難，最后讀完了。

2、小紅在畫畫，期間遇到了很多困難，最后也完成了這副畫作。

人類可以很容易的通過邏輯判斷能力知道兩件事表達的是同一個意思：鍥而不舍，但大模型需要大量的數(shù)據(jù)投喂和學習，去捕捉元素與元素之間的關(guān)系，比如兩段文本之間的關(guān)系，幾段文本之間，哪兩段之間關(guān)系更近一些，才能得出邏輯性的判斷結(jié)論。

還是上面的例子，如果把2改成為“小明在讀一本書，期間遇到很多困難，可最后也沒能讀完”，這樣1和2的文字非常相似，但其實兩者表達的是完全不同的含義。

大模型需要學會判斷這種關(guān)系，謝凌曦解釋道，

表征（從文本和圖像中直接抽取的簡單特征）和語義之間的關(guān)聯(lián)性是極其復雜的，人能夠理解，但讓計算機去理解并建立計算模型就非常困難，大模型以大數(shù)據(jù)的方式以及堆砌大量可訓練參數(shù)去完成這件事。

盤古CV大模型

針對盤古CV大模型，謝凌曦同樣先舉了一個例子：如何區(qū)分白色貓和白色狗的圖片？人類看到這兩張圖片能一眼識別出來哪只是貓，哪只是狗，那么大模型面對這些是如何處理的呢？

謝凌曦強調(diào)圖像中非常重要的一個東西就是層次化的信息，

我們需要讓模型在訓練的過程中，了解這些樣例之間真正強關(guān)聯(lián)性的東西。在判斷圖像的過程中，首先要把握好圖片中層次化的信息，能夠快速的定位到圖片中哪部分信息是起決定作用的，讓算法以自適應的方式去關(guān)注比較重要的地方或內(nèi)容，這樣就容易捕捉樣本之間的關(guān)系。在這兩張圖片中，很明顯白色不是最重要的信息，動物才是圖片中起決定性的信息。

盤古CV大模型首次兼顧了圖像判別與生成能力，能同時滿足底層圖像處理與高層語義的理解需求，同時能夠融合行業(yè)知識的微調(diào)，快速適配各種下游任務。

另外，為了解決模型大，數(shù)據(jù)多帶來的學習效率低，表征性能弱的問題，盤古CV大模型在預訓練階段主要集中在數(shù)據(jù)處理、架構(gòu)設(shè)計和模型優(yōu)化三個階段進行優(yōu)化。目前盤古CV大模型在Image Net 1%、10%數(shù)據(jù)集上的小樣本分類精度上均達到目前業(yè)界最高水平。

為“應用”而生

盤古賦能更多用戶

大模型訓練在各方面突破，也為缺乏大量數(shù)據(jù)的行業(yè)鋪上接入智能時代的軌道。正如華為云人工智能領(lǐng)域首席科學家、IEEE Fellow田奇教授在發(fā)布盤古大模型所提到的，盤古大模型是為各行業(yè)的應用而生，盤古具備前所未有的泛用性，無論是2B場景或是2C場景。

行業(yè)知識來源于行業(yè)數(shù)據(jù)，盤古團隊使用了大量行業(yè)語音和文本數(shù)據(jù)，借助這些數(shù)據(jù)進行微調(diào)，模型的行業(yè)特定意圖和知識理解能力得以大幅提高。

以盤古CV大模型為例，其在電力巡檢行業(yè)中表現(xiàn)出超強的應用能力。它利用海量無標注電力數(shù)據(jù)進行預訓練，并結(jié)合少量標注樣本微調(diào)的高效開發(fā)模式，節(jié)省人工標注時間。在模型通用性方面，結(jié)合盤古搭載的自動數(shù)據(jù)增廣以及類別自適應損失函數(shù)優(yōu)化策略，極大地降低了模型維護成本。

謝凌曦還談到，除了行業(yè)的應用，面向開發(fā)者方面，盤古大模型正在逐步上線到華為云AI資產(chǎn)共享社區(qū)（AI Gallery）。在平臺上盤古會開發(fā)出一些比較通俗易用的工作流：如果你是有一定基礎(chǔ)的開發(fā)人員，可以從工作流中做更多的定制化開發(fā)，更好地釋放預訓練模型的能力；如果你只是一個AI開發(fā)小白，想用大模型做簡單的AI開發(fā)，盤古也會給你更加通俗易懂的界面，讓大家用一些拖拉拽的方式去實現(xiàn)。后續(xù)盤古會針對開發(fā)者推出系列的課程，指導開發(fā)者基于盤古大模型在實踐場景中開發(fā)應用。

另一方面，盤古也希望和開發(fā)者共成長?！按竽Ｐ椭皇且粋€抓手，讓它應用到實際場景中。不僅更好的幫助用戶提高訓練的進度和縮短訓練的時間，而且模型上的應用數(shù)量增多，用戶的成本自然而然就降低了?！?謝凌曦表示，盤古的發(fā)展單靠我們團隊是遠遠不夠的，我們還需要和開發(fā)者一起建設(shè)好這個生態(tài)。

談到盤古大模型的未來，謝凌曦有個簡單的小目標——把盤古推向下一個技術(shù)爆發(fā)點。AI大模型是深度學習的最高階段，往下走可能是一條平的直線，大家都在等待跳躍的那一天。華為云一直在努力，用各種原創(chuàng)技術(shù)去推動，解決AI開發(fā)者實際會遇到的問題，最本質(zhì)的目的是賦能千行百業(yè)的AI落地。