生成式AI入門難?速來解鎖這份生成式AI詞匯表(上篇)

來源:亞馬遜云科技
作者:亞馬遜云科技
時(shí)間:2023-09-11
2776
近年來,生成式AI如雨后春筍般迅速興起,很多開發(fā)者對(duì)其中涉及的新興技術(shù)概念還并不熟悉。

近年來,生成式AI如雨后春筍般迅速興起,很多開發(fā)者對(duì)其中涉及的新興技術(shù)概念還并不熟悉。

然而對(duì)于在AI和機(jī)器學(xué)習(xí)行業(yè)工作的開發(fā)者來說,他們一直都處于學(xué)習(xí)的狀態(tài)(無論是開發(fā)者本人,還是模型)。因此有能夠幫助開發(fā)者學(xué)習(xí)并吸收新概念的學(xué)習(xí)技巧是非常重要的。

想要了解生成式AI的相關(guān)概念和基礎(chǔ)知識(shí)?

這次不要錯(cuò)失學(xué)習(xí)良機(jī)!

來,往這看!

無論你是不是有AI/機(jī)器學(xué)習(xí)背景的構(gòu)建者,

接下來跟隨我們的腳步

解鎖由亞馬遜云科技高級(jí)開發(fā)技術(shù)推廣工程師

Brooke Jamieson

整理總結(jié)的生成式AI詞匯表,

助你快速學(xué)習(xí)生成式AI相關(guān)知識(shí),

迅速檢索到詳細(xì)信息。

趕快收藏學(xué)起來吧!

A 代表注意力(Attention)

對(duì)于AI來說,注意力就好比你給某處打光,告訴模型什么是重要的,它需要特別注意什么。在2017年發(fā)表的論文《注意力是你所需要的一切》(Attention Is All You Need)中,作者們提出了一個(gè)全新的想法:轉(zhuǎn)換器(我們?cè)谙旅娴脑~匯表里也會(huì)提到)只需要通過注意力機(jī)制就可以處理序列數(shù)據(jù),并不需要傳統(tǒng)復(fù)發(fā)的或者回旋神經(jīng)網(wǎng)絡(luò)。注意力機(jī)制使得模型能夠權(quán)衡不同信息的重要度,這一技術(shù)在最先進(jìn)的大語言模型應(yīng)用中,如翻譯、總結(jié)、以及文本生成,都有一席之地。

B 代表Amazon Bedrock服務(wù)

Amazon Bedrock是亞馬遜云科技的一項(xiàng)全托管服務(wù),可以通過基礎(chǔ)模型(下文會(huì)詳細(xì)闡述)幫助你打造和規(guī)模化自己的AI應(yīng)用。Amazon Bedrock降低了生成式AI的使用門檻,并通過提供API接口幫助你免去管理基礎(chǔ)架構(gòu)的麻煩,你可以把精力集中在為客戶提供服務(wù)上。Bedrock中提供了多種基礎(chǔ)模型,包括三方模型,如一些AI行業(yè)新崛起的公司包括AI21 Labs、Anthropic、Cohere、和Stability AI。選擇一個(gè)基礎(chǔ)模型后,你可以利用自己的數(shù)據(jù)對(duì)模型進(jìn)行定制化,之后將這些模型整合部署到你通過其他亞馬遜云科技的工具打造的應(yīng)用中。

C 代表Amazon CodeWhisperer服務(wù)

Amazon CodeWhisperer是一個(gè)AI驅(qū)動(dòng)的編程輔助服務(wù)。CodeWhisperer是基于幾十上百億行代碼(來源包括亞馬遜和開源代碼)訓(xùn)練的大語言模型,可以在你的集成開發(fā)環(huán)境(IDE)實(shí)時(shí)生成精準(zhǔn)、安全的代碼建議!你可以用英文編寫注釋,CodeWhisperer會(huì)實(shí)時(shí)生成片段或全函數(shù)代碼建議,這些都可以幫助你大大提升編碼效率,尤其是在接觸不熟悉的API接口時(shí)。對(duì)于我個(gè)人來說,它可以讓我在寫代碼時(shí)只看著我的VSCode窗口就可以了,我不用再多開窗口邊寫邊跑,這樣更能讓我專注在自己的世界里。

D 代表擴(kuò)散模型(Diffusion Models)

擴(kuò)散模型也是生成式AI模型的一種,它們可以用來創(chuàng)造各種現(xiàn)實(shí)的圖片或者其他數(shù)據(jù)。擴(kuò)散模型很有趣的一點(diǎn)就是它們的工作原理是通過預(yù)言“噪聲”、去除噪聲、從含噪聲的信息源中給出一個(gè)無噪聲的結(jié)果。這個(gè)過程聽起來可能有些拗口,但是在實(shí)踐中這類模型十分好用,因?yàn)樗鼈兡軌蛲ㄟ^學(xué)習(xí)分辨出噪聲和真正有用的數(shù)據(jù),比如物品或角色的圖像。

E 代表嵌入(Embeddings)

理解不同概念在上下文中是怎樣關(guān)聯(lián)的是一件很抽象的事,但是這在生成式AI中是尤為重要的,尤其是在特定使用場(chǎng)景下。電腦和人類處理單詞的方式是不同的,所以你可以將數(shù)據(jù)編碼成元素集,一個(gè)元素集可以理解為一個(gè)向量。在這種情況下,一個(gè)向量包含一批數(shù)字,這些數(shù)字用來在多維空間映射元素間的關(guān)系。當(dāng)這些向量有了意義,我們稱之為語義,而各個(gè)向量之間的距離可以衡量它們?cè)谡Z境中的關(guān)系。所以在這個(gè)場(chǎng)景下的向量被稱為嵌入。

F 代表基礎(chǔ)模型(Foundation Models)

我最喜歡的F開頭的單詞來了——Foundation Models(基礎(chǔ)模型)。機(jī)器學(xué)習(xí)上取得的進(jìn)步(如基于Transformer的神經(jīng)網(wǎng)絡(luò)架構(gòu))意味著我們現(xiàn)在擁有的模型中包含著幾十上百億的參數(shù)或者變量?;谌绱她嫶蟮臄?shù)據(jù)訓(xùn)練出來的模型可以滿足所有任務(wù)的需求,它們可以配合各種數(shù)據(jù)運(yùn)用在多種場(chǎng)景下。

但可千萬不要小看打造這樣基礎(chǔ)模型所需的工作量。你現(xiàn)在使用的基礎(chǔ)模型是已經(jīng)訓(xùn)練好的模型,你可以開箱即用,也可以根據(jù)具體場(chǎng)景微調(diào)?;A(chǔ)模型向全世界的開發(fā)者們敞開了懷抱,為他們提供了無限的機(jī)會(huì)與潛能。所以對(duì)于基礎(chǔ)模型的使用我更喜歡“站在巨人的肩膀上”這種說法!而Amazon Bedrock就是你通過基礎(chǔ)模型打造生成式AI應(yīng)用最省時(shí)省力的伙伴。

G 代表生成式AI(Generative AI)

生成式AI是深度學(xué)習(xí)的一個(gè)子集,是一種可以創(chuàng)造出新內(nèi)容和想法的人工智能,比如創(chuàng)造出對(duì)話、故事、圖像、視頻、音樂等。和其他類型的AI一樣,生成式AI也是基于機(jī)器學(xué)習(xí)模型的。這里的機(jī)器學(xué)習(xí)模型指的是基于海量數(shù)據(jù)預(yù)訓(xùn)練的大模型,也叫基礎(chǔ)模型。

H 代表生成式AI帶來的“幻覺”(Hallucination)

生成式AI模型存在的一個(gè)問題就是它們有時(shí)會(huì)生成錯(cuò)誤的內(nèi)容卻自信地傳達(dá)給用戶,這就是我們說的錯(cuò)覺。比如在大語言模型中,AI給出的回答中可能會(huì)包含用戶輸入的信息中不涉及的內(nèi)容,或者捏造了在用戶輸入的信息中并不存在的關(guān)聯(lián)關(guān)系。如果你對(duì)這個(gè)話題比較感興趣,Amazon Science曾發(fā)表了一篇名叫“與凱思琳·麥基翁的三問:論對(duì)自然語言生成中模型錯(cuò)覺的控制(3 questions with Kathleen McKeown:Controlling model hallucinations in natural language generation)”,很棒的一篇博客,你可以掃描下方二維碼了解下。

I 代表Amazon Inferentia和Amazon Trainium芯片

在打造生成式AI時(shí),只考慮軟件部分可能很容易,但是硬件部分也至關(guān)重要。無論你是從零打造一個(gè)基礎(chǔ)模型,或者運(yùn)行或定制一個(gè)基礎(chǔ)模型,一個(gè)高性價(jià)比、高性能、以及機(jī)器學(xué)習(xí)專用的基礎(chǔ)架構(gòu)都是非常重要的。亞馬遜云科技在自主芯片方面投入了巨大的精力,也收獲了巨大的進(jìn)展,可以降低生成式AI的運(yùn)行成本,同時(shí)提升訓(xùn)練效率。

Amazon Inferentia芯片幫助開發(fā)者在運(yùn)行高性能的基礎(chǔ)模型推理服務(wù)時(shí),每單位對(duì)比Amazon EC2實(shí)例可節(jié)省高達(dá)40%的成本。Amazon Trainium芯片在幫助開發(fā)者加速訓(xùn)練模型時(shí),對(duì)比Amazon EC2實(shí)例可節(jié)省高達(dá)50%的訓(xùn)練成本。

J 代表Amazon SageMaker Jumpstart服務(wù)

Amazon SageMaker Jumpstart是一個(gè)為開發(fā)者提供各種機(jī)器學(xué)習(xí)資源的平臺(tái),包括預(yù)設(shè)的機(jī)器學(xué)習(xí)解決方案,以及完全可定制且支持簡(jiǎn)單部署的內(nèi)置算法。開發(fā)者還可在組織內(nèi)部分享模型和筆記,降低建造和合作成本,同時(shí)用戶數(shù)據(jù)也能在私有云(VPC)內(nèi)部得到很好的加密。

K 代表機(jī)器學(xué)習(xí)核方法(Kernel Methods)

核方法在機(jī)器學(xué)習(xí)和人工智能領(lǐng)域都是很受歡迎的技術(shù),因?yàn)樗鼈兪欠浅_m用于模式分析的算法,同時(shí)它們可以將轉(zhuǎn)換數(shù)據(jù)處理至一個(gè)更高的維度空間,這個(gè)解釋可能聽起來比較不好理解。所謂核,是一個(gè)用來計(jì)算兩個(gè)對(duì)象間相似性的數(shù)學(xué)函數(shù),核方法的關(guān)鍵在于對(duì)于一些初看就難以區(qū)分的數(shù)據(jù),通過相似性對(duì)這些數(shù)據(jù)進(jìn)行區(qū)分或者分類反而更容易。亞馬遜科學(xué)(Amazon Science)上有幾篇關(guān)于核的文章很有意思,包括“通過識(shí)別注意力機(jī)制中的核結(jié)構(gòu)實(shí)現(xiàn)參數(shù)高效的遷移學(xué)習(xí)(Empowering parameter-efficient transfer learning by recognizing the kernel structure in attention)”以及“更高效的‘核方法’——大幅縮短自然語言理解系統(tǒng)的訓(xùn)練時(shí)長(zhǎng)(More-efficient“kernel methods”dramatically reduce training time for natural-language-understanding systems)”。

L 代表大語言模型(Large Language Models)

大語言模型其實(shí)已經(jīng)存在很久了,只是最近才成為了主流技術(shù)被廣泛關(guān)注。大語言模型其實(shí)也是基礎(chǔ)模型的一種——基于海量數(shù)據(jù)預(yù)訓(xùn)練,可以對(duì)文本進(jìn)行總結(jié)和翻譯,并進(jìn)行詞語預(yù)測(cè)。換句話說,它們可以生成類人表達(dá)的語句。而大語言模型的閃光點(diǎn)在于它的語境學(xué)習(xí)能力,也就是說你只需要給這類模型提供少量(甚至是不提供)優(yōu)質(zhì)的例子,它們就可以學(xué)習(xí)并解決一類任務(wù)。那么將這一點(diǎn)放大,最大的大語言模型,就算沒有精準(zhǔn)的預(yù)訓(xùn)練,也能夠解決所有種類的任務(wù)。

M 代表模型選擇(Model Selection)

在選擇基礎(chǔ)模型時(shí)需要注意以下幾點(diǎn)要素:形式、任務(wù)、規(guī)模、準(zhǔn)確性、易用度、許可、案例、以及外部基準(zhǔn)。首先,你要了解這些模型處理信息的形式,如語言模型、視覺模型,以及它們的輸入輸出內(nèi)容,這樣你可以按需選擇對(duì)應(yīng)形式的模型。你還要根據(jù)具體場(chǎng)景選擇模型基礎(chǔ)數(shù)據(jù)的大小,大一點(diǎn)的模型更能生成開放式的回答,但也不是每個(gè)任務(wù)都要求模型越大越好。選好一個(gè)模型并開始實(shí)驗(yàn)后,你要從各種下游任務(wù)的角度來對(duì)這個(gè)基礎(chǔ)模型進(jìn)行評(píng)估,并根據(jù)許可和外部基準(zhǔn)來保證你的選擇是正確的。同時(shí)還要注意基礎(chǔ)模型的語言和視覺能力之間的關(guān)系,尤其是在多形式方案中,要考慮它們對(duì)互相的影響。

看到這里,

相信你一定對(duì)生成式AI有了基本的了解。

這次就先分享到這里,

想要解鎖完整版生成式AI詞匯表,

敬請(qǐng)關(guān)注「亞馬遜云科技」微信公眾號(hào)后續(xù)推送。

讓我們共同解鎖生成式AI價(jià)值,

擁抱AI新時(shí)代!

這份生成式AI的詞匯表僅僅是用每個(gè)字母代表一個(gè)術(shù)語來觸及這個(gè)領(lǐng)域的皮毛,但實(shí)際上,AI/機(jī)器學(xué)習(xí)中的技術(shù)術(shù)語數(shù)量非常龐大并且還在不斷擴(kuò)大。盡管很多術(shù)語和概念并沒有入選這份初始的清單,但我很愿意聽聽你們的想法!

立即登錄,閱讀全文
原文鏈接:點(diǎn)擊前往 >
文章來源:亞馬遜云科技
版權(quán)說明:本文內(nèi)容來自于亞馬遜云科技,本站不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。文章內(nèi)容系作者個(gè)人觀點(diǎn),不代表快出海對(duì)觀點(diǎn)贊同或支持。如有侵權(quán),請(qǐng)聯(lián)系管理員(zzx@kchuhai.com)刪除!
優(yōu)質(zhì)服務(wù)商推薦
更多
掃碼登錄
打開掃一掃, 關(guān)注公眾號(hào)后即可登錄/注冊(cè)
加載中
二維碼已失效 請(qǐng)重試
刷新
賬號(hào)登錄/注冊(cè)
小程序
快出海小程序
公眾號(hào)
快出海公眾號(hào)
商務(wù)合作
商務(wù)合作
投稿采訪
投稿采訪
出海管家
出海管家