自從OpenAI公司發(fā)布大型語言模型GPT-4以來,人們都在嘗試使用這一令人興奮的應(yīng)用程序。GPT-4可以將手繪的網(wǎng)站模型生成HTML代碼。很多用戶證明,它可以從信用卡交易中找到物理地址,生成訴訟草稿,通過SAT數(shù)學(xué)考試,幫助教育和培訓(xùn),甚至創(chuàng)建第一人稱射擊游戲。
GPT-4的強(qiáng)大功能確實(shí)令人驚嘆,隨著越來越多的用戶訪問其多模式版本,人們可以期待推出更多的大型語言模型。然而,在人們慶??茖W(xué)家們在大型語言模型領(lǐng)域取得的進(jìn)步的同時(shí),也必須注意到它們的局限性。
像GPT-4這樣的大型語言模型可以執(zhí)行許多任務(wù),但它們不一定是完成這些任務(wù)的最佳工具。如果他們成功地完成了一項(xiàng)任務(wù),但并不意味著他們在該領(lǐng)域是更可靠的。
大型語言模型的科學(xué)突破
GPT-4在發(fā)布之后引發(fā)了很多用戶對OpenAI公司的批評,其中很多批評都是有道理的。隨著GPT的每一次發(fā)布,它們的技術(shù)細(xì)節(jié)變得越來越不透明。OpenAI公司在發(fā)布GPT-4時(shí)發(fā)布的技術(shù)報(bào)告中很少包含該模型的架構(gòu)、訓(xùn)練數(shù)據(jù)和其他重要方面的細(xì)節(jié)。種種跡象表明,OpenAI公司正逐步從一家人工智能研究實(shí)驗(yàn)室轉(zhuǎn)型為一家銷售人工智能產(chǎn)品的公司。
然而,這并沒有削弱大型語言模型所帶來的引人入勝的技術(shù)突破。OpenAI公司在這些技術(shù)發(fā)展中發(fā)揮了重要作用。在短短幾年的時(shí)間中,已經(jīng)從處理語言任務(wù)的最平庸的深度學(xué)習(xí)模型,發(fā)展到可以生成非常像人類的文本的大型語言模型,至少在表面上是這樣。
此外,有了足夠的參數(shù)、計(jì)算能力和訓(xùn)練數(shù)據(jù),Transformer(大型語言模型中使用的架構(gòu))可以學(xué)習(xí)使用單個(gè)模型執(zhí)行多個(gè)任務(wù)。這一點(diǎn)非常重要,因?yàn)橹钡阶罱疃葘W(xué)習(xí)模型才被認(rèn)為只適用于來執(zhí)一項(xiàng)任務(wù)?,F(xiàn)在,大型語言模型可以通過零樣本和少量快照學(xué)習(xí)來執(zhí)行幾個(gè)任務(wù),甚至在擴(kuò)展時(shí)顯示出緊急能力。
ChatGPT充分展示了大型語言模型的最新功能。它可以在一次對話中執(zhí)行編碼、問答、文本生成和許多其他任務(wù)。由于采用訓(xùn)練技術(shù),從人類反饋中強(qiáng)化學(xué)習(xí)(RLHF),它在遵循指令方面做得更好。
GPT-4和其他多模式語言模型正在顯示新一波功能,例如在對話中包含圖像和語音消息。
GPT-4有哪些良好的應(yīng)用?
一旦超越了科學(xué)成就,就可以開始考慮像GPT-4這樣的大型語言模型可以提供什么樣的應(yīng)用程序。對人們來說,確定大型語言模型是否適合應(yīng)用的指導(dǎo)原則是它們的機(jī)制。
與其他機(jī)器學(xué)習(xí)模型一樣,大型語言模型是預(yù)測機(jī)器?;谟?xùn)練數(shù)據(jù)中的模式,它們預(yù)測接收到的輸入序列中的下一個(gè)令牌,它們做得非常有效。
下一個(gè)令牌預(yù)測對于某些任務(wù)(如文本生成)是一個(gè)很好的解決方案。當(dāng)大型語言模型接受RLHF等指令跟隨技術(shù)的訓(xùn)練時(shí),它可以執(zhí)行語言任務(wù),例如撰寫文章、總結(jié)文本、解釋概念和回答問題,并取得驚人的成績。這是大型語言模型目前最準(zhǔn)確和最有用的解決方案之一。
然而,大型語言模型在文本生成方面的能力仍然有限。大型語言模型通常會(huì)產(chǎn)生幻覺,或者編造一些不正確的東西。因此,人們不應(yīng)該相信他們是知識的來源。這包括GPT-4。例如,在行業(yè)專家對ChatGPT的探索中,發(fā)現(xiàn)它有時(shí)可以對復(fù)雜的主題生成非常雄辯的描述,例如深度學(xué)習(xí)是如何工作的。當(dāng)他試圖向一個(gè)可能不了解某個(gè)概念的人解釋這個(gè)概念時(shí),這很有幫助,但也發(fā)現(xiàn)ChatGPT也可能犯一些事實(shí)錯(cuò)誤。
對于文本生成,行業(yè)專家的經(jīng)驗(yàn)法則是只在熟悉的領(lǐng)域信任GPT-4,并且可以驗(yàn)證其輸出。有一些方法可以提高輸出內(nèi)容的準(zhǔn)確性,包括對特定領(lǐng)域知識的模型進(jìn)行微調(diào),或者通過在提示符前添加相關(guān)信息來為其提供場景。但同樣,這些方法要求人們對該領(lǐng)域有足夠的了解,以便能夠提供額外的知識。因此,不要相信GPT-4生成有關(guān)健康、法律建議或科學(xué)的文本,除非已經(jīng)知道這些主題。
代碼生成是GPT-4的另一個(gè)有趣的應(yīng)用。行業(yè)專家已經(jīng)審查過GitHub Copilot,它是基于GPT-3的一個(gè)微調(diào)版本,其名稱為Codex。當(dāng)代碼生成集成到其IDE中時(shí)(例如Copilot),它會(huì)變得越來越有效,并且可以使用現(xiàn)有代碼作為場景來改進(jìn)大型語言模型輸出。然而,同樣的規(guī)則仍然適用。只使用大型語言模型來生成可以完全審查的代碼。盲目地相信大型語言模型可能會(huì)導(dǎo)致無功能和不安全的代碼。
GPT-4有哪些不好的應(yīng)用?
對于某些任務(wù),像GPT-4這樣的語言模型并不是理想的解決方案,即使它們可以解決示例。例如,經(jīng)常討論的主題之一是大型語言模型執(zhí)行數(shù)學(xué)的能力。他們已經(jīng)接受了不同數(shù)學(xué)基準(zhǔn)的測試。據(jù)報(bào)道,GPT-4在復(fù)雜的數(shù)學(xué)測試中表現(xiàn)非常好。
然而,值得注意的是,大型語言模型并不像人類那樣一步一步地計(jì)算數(shù)學(xué)方程。當(dāng)向GPT-4提供提示“1+1=”時(shí),將為人們提供正確答案。但在幕后,它并沒有執(zhí)行“添加”和“移動(dòng)”操作。它執(zhí)行與所有其他輸入相同的矩陣運(yùn)算,預(yù)測序列中的下一個(gè)標(biāo)記。它給確定性問題一個(gè)概率性的答案。這就是GPT-4和其他數(shù)學(xué)大型語言模型的準(zhǔn)確性在很大程度上取決于訓(xùn)練數(shù)據(jù)集的原因,并且是在偶然的基礎(chǔ)上工作。人們可能會(huì)看到它們在非常復(fù)雜的數(shù)學(xué)題目上取得驚人的成績,但在簡單的初級數(shù)學(xué)問題上卻失敗了。
這并不意味著GPT-4對數(shù)學(xué)沒有用處。一種方法是使用模型增強(qiáng)技術(shù),例如將大型語言模型與數(shù)學(xué)求解器相結(jié)合。大型語言模型從提示符中提取方程數(shù)據(jù),并將其傳遞給解算器,解算器計(jì)算并返回結(jié)果。
GPT-4的另一個(gè)有趣用例是可汗學(xué)院(Khan Academy)正在做的事情。他們將大型語言模型課程整合到他們的在線學(xué)習(xí)平臺(tái)中,作為學(xué)習(xí)者的導(dǎo)師和教師的助手。由于這是OpenAI公司在GPT-4發(fā)布時(shí)宣傳的合作伙伴之一,他們可能已經(jīng)根據(jù)其課程內(nèi)容對GPT-4進(jìn)行了微調(diào)。該模型還與平臺(tái)的內(nèi)容很好地集成在一起,以提供場景并減少錯(cuò)誤。但值得注意的是,GPT-4并不是為了解決數(shù)學(xué)問題,而是引導(dǎo)學(xué)生和教師學(xué)習(xí)和教授數(shù)學(xué)概念。
GPT-4作為產(chǎn)品
一旦用戶決定了GPT-4是否適合其應(yīng)用,必須從產(chǎn)品的角度來看待它。GPT-4生成的每個(gè)令牌都是數(shù)千億次運(yùn)算的結(jié)果。用戶必須問自己的第一個(gè)問題是,“我的應(yīng)用需要這樣的計(jì)算嗎?”事實(shí)上,在許多情況下,即使GPT-4提供了一個(gè)完美的答案,也可能有更簡單、更快、成本更低的解決方案。例如,在許多情況下,正則表達(dá)式等簡單的解決方案在提取信息方面更有效。
事實(shí)上,行業(yè)專家與ChatGPT進(jìn)行了一次有趣的對話,在對話中問ChatGPT“GPT-ify”是什么意思。ChatGPT將其描述為“基于GPT(生成預(yù)訓(xùn)練轉(zhuǎn)換器)架構(gòu)的語言模型的技術(shù)和功能,例如GPT-3或GPT-Neo,應(yīng)用于特定的任務(wù)或問題?!?/p>
然后行業(yè)專家問GPT-ify是否可以用來嘲笑那些使用GPT做一些不需要它的事情的人。ChatGPT這樣回答:“是的,GPT-ify當(dāng)然可以被諷刺或諷刺地用來暗示某人過度使用或?yàn)E用GPT來完成不需要如此復(fù)雜的語言模型的任務(wù)或問題。例如,如果有人使用預(yù)訓(xùn)練的GPT模型來生成一個(gè)簡單的購物清單,有人可能會(huì)開玩笑說他們已經(jīng)‘GPT化了他們的購物清單’。”
因此,不要在沒有探索其他選擇的情況下對產(chǎn)品進(jìn)行GPT化。像所有其他技術(shù)一樣,應(yīng)該將GPT-4視為產(chǎn)品工具箱中的眾多工具之一。正如ChatGPT所建議的那樣,“關(guān)鍵是要根據(jù)當(dāng)前任務(wù)的具體要求和限制,為工作選擇合適的工具?!?/p>