如何快速、大規(guī)模的開發(fā)生成式AI應用,并在上百萬AI模型平行執(zhí)行的情況下顧及治理政策和系統(tǒng)性能?對Walmart來說,他們早在生成式AI時代來臨之前,就做好了準備。
Walmart開發(fā)生成式AI的4大挑戰(zhàn)是:持續(xù)高速創(chuàng)新、數(shù)據(jù)及開發(fā)規(guī)模龐大、成本控制不易,以及需要嚴謹?shù)闹卫碚?。零售市場的激烈競爭和世界級的企業(yè)規(guī)模,這是每一次Walmart擁抱任何科技,都會面臨的挑戰(zhàn)。
不論是一般AP的開發(fā),到過去幾年的AI/ML應用,Walmart不斷思考應對這些挑戰(zhàn)的方法。其中一項關(guān)鍵策略是,統(tǒng)一25,000名IT人員所需的開發(fā)環(huán)境和資源調(diào)度,通過一站式平臺管理超大規(guī)模開發(fā)的種種面向,包括IT資源、成本、治理政策等,來增加開發(fā)效率。
從2015到2019年,Walmart花了四年,從頭打造一套云原生開發(fā)者平臺(Walmart Cloud Native Platform,簡稱WNCP),采取“三胞胎”云計算模型(Triplet model),以容器調(diào)度技術(shù)為基礎(chǔ),橫跨Azure、AWS及Walmart私有云,作為跨云環(huán)境及跨開發(fā)生態(tài)系的抽象層。開發(fā)者可以一站式訪問3大云計算平臺的數(shù)據(jù)處理工具、數(shù)十種數(shù)據(jù)來源、和其他開發(fā)工具及資源。此平臺也能自動轉(zhuǎn)化程序代碼,以便自動化部署服務(wù)到這3朵云及Walmart自家邊緣設(shè)備。
這個一站式的開發(fā)平臺,更為后來Walmart擴大AI/ML應用時,打下良好基礎(chǔ)。2021年,他們以WNCP的平臺工程及DevOps做法為基礎(chǔ),打造了一套AI/ML開發(fā)平臺Elements,增加MLOps機制與工具,并與WNCP其他系統(tǒng)和技術(shù)原生集成。
這種做法大幅降低了不同項目團隊評估開發(fā)工具的時間、準備開發(fā)環(huán)境的時間,以及整體開發(fā)和部署時間。Elements上線后,將模型實際落地到商業(yè)應用的時間,從2周減少到短短1小時內(nèi)。
當生成式AI浪潮來臨,Walmart便能用實行有些年頭的MLOps原則、機制和工具,以及平臺工程經(jīng)驗,來應對前述的4大挑戰(zhàn)。他們于Elements添加更多生成式AI開發(fā)和治理工具,以及多個LLM和其他不同模態(tài)的模型到Elements,以快速發(fā)展生成式AI實驗及應用。至今,Walmart隨時有上百萬個ML、AI、生成式AI模型執(zhí)行,全都靠Elements開發(fā)、部署、管理。
用一站式界面和No-code工具降低開發(fā)門檻
Elements前端界面是一個以React.js做成的Web啟動臺,通過微服務(wù)及容器架構(gòu)訪問所有Elements甚至WNCP的后端資源。開發(fā)人員能于該站式訪問3朵云上的開發(fā)工具及計算資源。
這些工具包括可以可視化創(chuàng)建和管理工作流的DAG設(shè)計器、AI項目管理、Python或R的互動式筆記本、批次數(shù)據(jù)處理任務(wù)管理,以及數(shù)據(jù)集和模型資產(chǎn)管理等。完整ML生命周期的作業(yè),包括數(shù)據(jù)匯集整理、數(shù)據(jù)準備、特征工程、模型訓練、模型實驗、模型評估、模型部署、模型監(jiān)控、模型反饋及再訓練等,都能利用這些工具完成。
此平臺上的開發(fā)環(huán)境不只服務(wù)數(shù)據(jù)工程師和AI工程師,更針對沒有AI背景的開發(fā)人員、數(shù)據(jù)科學家和分析師,提供了一系列No-code AI開發(fā)工具,增加他們數(shù)據(jù)探勘及實驗AI應用的能力。
Elements還內(nèi)置了全平臺通用的管理與運維功能,例如成本計算與管控、數(shù)據(jù)權(quán)限管理、程序代碼版本控制、系統(tǒng)記錄留存、系統(tǒng)異常報警、災難恢復。
Walmart從前端到后端全面集成AI開發(fā)相關(guān)功能,是希望確保修戶能自由選擇最適合的AI開發(fā)工具,同時能大規(guī)模自動化不同流程、重復使用IT資源、創(chuàng)建統(tǒng)一開發(fā)及治理標準,并一站式管控所有相關(guān)成本。不只如此,集成所有AI開發(fā)的IT資源使用需求,還有機會向云計算服務(wù)商協(xié)商更低的使用費。
打造超大型AI開發(fā)平臺的9大關(guān)鍵考量
為了一站式支持超大規(guī)模的AI模型開發(fā)、執(zhí)行、運維、管理與治理,Walmart打造Walmart平臺時,著眼在9大關(guān)鍵考量。3項開發(fā)面考量、5項運維需求以及1項治理目標。
在開發(fā)面考量上,首先,此平臺須涵蓋AI開發(fā)完整生命周期,包括從數(shù)據(jù)匯集整理到模型部署的各個階段。部署后,還需定期監(jiān)控模型的公平性和偏差,進行再訓練,以避免模型衰退。
第2個考量點是開發(fā)工具完整性。Elements支持Python、PySpark、Scala、R和SQL等程序語言,Jupyter、Theia、PyCharm和RStudio等開發(fā)環(huán)境,TensorFlow、Keras和PyTorch等AI/ML算法和函數(shù)庫,以及Grafana和RShiny等報告工具。
有了工具,還需要作為AI開發(fā)原料的數(shù)據(jù)。第3個考量點正是數(shù)據(jù)可用性,平臺必須讓用戶能快速訪問數(shù)十種數(shù)據(jù)來源,以支持模型訓練和推論工作。
第4到第8項運維類需求,則與大規(guī)模運維和可用性有關(guān)。第4個考量點是規(guī)模,平臺需能支持數(shù)百萬個模型平行執(zhí)行時,這些模型依然維持高性能。第5到第8點分別是成本管理、運算硬件支持、可用性措施及地理位置。
隨著數(shù)據(jù)量和算法復雜度的增加,平臺必須能夠保持成本低廉。為了滿足大規(guī)模運算需求,平臺還必須支持多種計算資源,包括CPU、GPU及TPU。
可用性方面,Walmart尤其重視災難恢復能力,確保平臺能在多個地理區(qū)域和多個服務(wù)提供者之間的備援基礎(chǔ)設(shè)施上運行,以維持高可用性。
地理位置上,Walmart有橫跨不同國家的數(shù)萬間分店和多個IT研發(fā)中心,必須同時考量云計算基礎(chǔ)設(shè)施以及邊緣設(shè)施的設(shè)置地點,確保不同區(qū)域都有高系統(tǒng)可用性、IT資源使用彈性和災難恢復做法。尤其,需要部署模型在偏遠門店時,須追求低功耗、高可用性和低維護需求。
最后一個關(guān)鍵考量點是治理,Walmart希望盡可能用簡單且標準化的流程和工具,來管理超大規(guī)模AI項目的開發(fā)模式、資訊安全和合規(guī)性。他們專門制定了一整套AI治理框架,并通過Elements平臺來實現(xiàn)此框架的指引。
Walmart AI開發(fā)平臺的治理框架
AI治理不只是打造Elements平臺9大考量的重要一項,更涉及了法遵、道德、企業(yè)形象等面向,是Walmart企業(yè)治理政策中的重要一環(huán),受到不同部門重視。制定AI與生成式AI治理框架時,Walmart用不同部門的主管及資深人員,組成數(shù)據(jù)科學治理委員會(Data Science Governance Council),來制定數(shù)據(jù)及AI相關(guān)的道德及負責任指引。
IT及數(shù)據(jù)團隊則以這些指引為基礎(chǔ),在Elements上設(shè)計AI治理做法與機制,以強化模型的安全性、透明性及公平性。安全性方面,訪問控制機制確保只有經(jīng)過認證和授權(quán)的用戶才能訪問數(shù)據(jù)集、模型或筆記本;加密機制會全面加密靜態(tài)和動態(tài)數(shù)據(jù),確保數(shù)據(jù)的完整性與保密性。責任歸屬機制則記錄了所有素材的擁有者,以在事件發(fā)生時快速辨認相關(guān)負責人員。
為了進一步提升AI模型的可審核性,平臺提供了全生命周期的審核功能,確保所有利益相關(guān)者能觀察模型各個開發(fā)階段的情況。具體做法包括模型性能與健康狀的監(jiān)控儀表板,還有數(shù)據(jù)飄移及偏差監(jiān)控機制等,幫助用戶即時了解模型的狀況,并快速識別出需要再訓練的模型。
針對敏感模型,平臺設(shè)有公平性與偏見監(jiān)控機制和自動化評估機制,搭配模型可解釋性機制,使業(yè)務(wù)面的相關(guān)部門能夠更好理解模型的運行原理,增強對AI決策的信任。另外,Walmart還會于開發(fā)環(huán)境中提供多種模型,讓開發(fā)者根據(jù)模型生成模式,選擇任務(wù)適合的模型。
隨著生成式AI崛起,AI治理的重要性和難度雙雙提升。正是因為有Elements作為所有AI/ML和生成式AI開發(fā)及管理的平臺,能一站式進行AI治理,Walmart才有信心,能應用生成式AI到直接面對超大規(guī)模消費者的產(chǎn)品,并為AI生成內(nèi)容負起責任。