數(shù)據(jù)是推動(dòng)生成式AI發(fā)展的“燃料”。大量數(shù)據(jù)以及云端存儲(chǔ)和處理這些海量數(shù)據(jù)的關(guān)鍵能力,推動(dòng)了強(qiáng)大基礎(chǔ)模型的快速崛起。如果能對(duì)這些模型進(jìn)行微調(diào),或使用檢索增強(qiáng)生成(RAG)根據(jù)業(yè)務(wù)需求對(duì)它們進(jìn)行定制,就能整理好企業(yè)分散的數(shù)據(jù)并很好地利用起來。
數(shù)據(jù)和生成式AI的關(guān)系非常緊密。一方面,生成式AI可以把數(shù)據(jù)數(shù)據(jù)能力變成有利的分析;另一方面,生成式AI也能夠讓企業(yè)發(fā)現(xiàn)數(shù)據(jù)的問題,比如數(shù)據(jù)孤島、數(shù)據(jù)質(zhì)量低。這就是亞馬遜云科技在過去幾年大力投資數(shù)據(jù)建設(shè)的原因之一。
以下三個(gè)例子將說明使用人工智能技術(shù)推動(dòng)數(shù)據(jù)發(fā)展的過程。在企業(yè)選擇人工智能用例時(shí),或許會(huì)發(fā)現(xiàn)以下用例值得被列為優(yōu)先事項(xiàng)。它們可能會(huì)迅速帶來成效,并幫助企業(yè)從數(shù)據(jù)資產(chǎn)中挖掘價(jià)值。
源數(shù)據(jù)自動(dòng)分析
簡(jiǎn)化繁瑣工作流程
在任何數(shù)據(jù)項(xiàng)目中,最耗費(fèi)資源的任務(wù)之一,僅僅是提取、轉(zhuǎn)換和加載(ETL)那些將被用于分析的數(shù)據(jù)。這一過程通常占據(jù)了60-70%的工作量,這一沉重的負(fù)擔(dān)正是亞馬遜云科技致力于實(shí)現(xiàn)Zero-ETL的原因。
生成式AI可以自動(dòng)分析源數(shù)據(jù)和目標(biāo)數(shù)據(jù)結(jié)構(gòu),并完成相對(duì)應(yīng)的映射。Amazon Q Developer可以使用自然語言構(gòu)建數(shù)據(jù)集成管道。這不僅減少了所需的時(shí)間和工作量,而且還有助于在不同的ETL過程中保持一致性,從而更容易進(jìn)行持續(xù)支持和維護(hù)。
企業(yè)往往發(fā)現(xiàn)它們擁有結(jié)構(gòu)化(如客戶資料和銷售訂單)和非結(jié)構(gòu)化(如社交媒體或客戶反饋)數(shù)據(jù),并且這些數(shù)據(jù)分散在各種數(shù)據(jù)源、格式、架構(gòu)和數(shù)據(jù)類型中。Amazon Glue中的Amazon Q Developer數(shù)據(jù)集成可以為20多種常見數(shù)據(jù)源生成ETL作業(yè),包括PostgreSQL、MySQL、Oracle、Amazon Redshift、Snowflake、Google BigQuery、DynamoDB、MongoDB和OpenSearch。借助ETL和數(shù)據(jù)管道的生成式AI,數(shù)據(jù)工程師、分析師和科學(xué)家可以花更多時(shí)間解決業(yè)務(wù)問題并從數(shù)據(jù)中獲得洞見,而不是耗費(fèi)時(shí)間布置管道。這是如今大多數(shù)企業(yè)開始使用的生成式AI用例的原因。
數(shù)據(jù)可視化
更快的獲取,更好的洞察
在組織內(nèi)很難實(shí)現(xiàn)數(shù)據(jù)普惠化,數(shù)據(jù)分析師和數(shù)據(jù)科學(xué)家經(jīng)常會(huì)被大型復(fù)雜的項(xiàng)目所拖累,限制了他們?yōu)槊總€(gè)人提供數(shù)據(jù)的日??刹僮鞫匆姷哪芰?,并且不是每個(gè)人都具備嚴(yán)格和創(chuàng)造性地使用數(shù)據(jù)的技能。
借助生成式AI,企業(yè)可以使用對(duì)話式查詢和自然語言與數(shù)據(jù)互動(dòng)。而不必等待專人生成報(bào)告和控制面板來獲取信息,從而減少獲取價(jià)值的時(shí)間。例如零售高管可以詢問:“上一季度表現(xiàn)最好的產(chǎn)品類別是什么?”全球優(yōu)質(zhì)汽車和摩托車制造商寶馬集團(tuán)的區(qū)域供應(yīng)鏈專家一直在使用Amazon QuickSight中的生成式AI助手Amazon Q,快速響應(yīng)來自高級(jí)利益相關(guān)者(如董事會(huì)成員)的供應(yīng)鏈可視性請(qǐng)求。
數(shù)據(jù)有影響變革的力量,但這需要引人入勝的講故事技巧。生成式AI可以通過創(chuàng)建視覺吸引力強(qiáng)、讓數(shù)據(jù)變得栩栩如生的文檔和演示文稿,使處理數(shù)據(jù)變得簡(jiǎn)單,使用數(shù)據(jù)也變得方便。它也可以幫助組織內(nèi)的人員更熟悉數(shù)據(jù)及數(shù)據(jù)背后的洞察,從而使數(shù)據(jù)對(duì)于更復(fù)雜的生成式AI應(yīng)用程序而言更加有價(jià)值。
合成數(shù)據(jù)
高度模擬客戶真實(shí)數(shù)據(jù)集
隨著分析和生成式AI的日漸成熟,許多企業(yè)發(fā)現(xiàn)他們沒有為新的預(yù)想用例準(zhǔn)備所需的全部數(shù)據(jù),而獲取第三方數(shù)據(jù)的成本可能過高。在醫(yī)療保健和金融服務(wù)等受監(jiān)管行業(yè),數(shù)據(jù)隱私和安全至關(guān)重要,并且很難使用真實(shí)的客戶數(shù)據(jù)。測(cè)試業(yè)務(wù)流程邊緣案例所需的數(shù)據(jù)往往也是有限的。
企業(yè)可以使用生成式AI生成的高保真合成數(shù)據(jù)用于測(cè)試、訓(xùn)練和創(chuàng)新。它模仿真實(shí)數(shù)據(jù)集的統(tǒng)計(jì)屬性和模式,同時(shí)保護(hù)隱私并消除敏感信息。企業(yè)還可以使用它來增強(qiáng)生成式AI模型訓(xùn)練所用的數(shù)據(jù),應(yīng)對(duì)數(shù)據(jù)稀缺或敏感的情況。高管可以使用合成數(shù)據(jù)進(jìn)行情景規(guī)劃,模擬各種業(yè)務(wù)情況,并測(cè)試降低和規(guī)避風(fēng)險(xiǎn)的策略。全球制藥公司默沙東使用合成數(shù)據(jù)和亞馬遜云科技的服務(wù)來降低藥品檢查過程中的誤判率。他們利用生成對(duì)抗網(wǎng)絡(luò)(深度學(xué)習(xí)模型將兩個(gè)神經(jīng)網(wǎng)絡(luò)對(duì)抗以生成新的合成數(shù)據(jù))和變分自動(dòng)編碼器(生成神經(jīng)網(wǎng)絡(luò),將數(shù)據(jù)壓縮為緊湊表示,然后重構(gòu)數(shù)據(jù),在此過程中學(xué)會(huì)生成新數(shù)據(jù))等工具開發(fā)合成缺陷圖像數(shù)據(jù),將誤判率降低了50%。
生成式AI生成的合成數(shù)據(jù)可以釋放創(chuàng)新力,幫助創(chuàng)造出色的客戶體驗(yàn)。Amazon One是一項(xiàng)快捷便利的服務(wù),允許用戶只使用手掌就能進(jìn)行支付、出示會(huì)員卡、驗(yàn)證年齡或進(jìn)入場(chǎng)所。亞馬遜云科技需要大量手掌圖像數(shù)據(jù)來訓(xùn)練系統(tǒng),包括不同光照、手勢(shì)姿勢(shì)等情況的變化。該團(tuán)隊(duì)使用生成式AI生成的合成數(shù)據(jù),甚至能訓(xùn)練系統(tǒng)檢測(cè)出高度逼真的硅膠手掌復(fù)制品。目前,客戶已經(jīng)使用Amazon One超過300萬次,準(zhǔn)確率達(dá)99.9999%。
從自動(dòng)化繁瑣的數(shù)據(jù)集成任務(wù),到賦予業(yè)務(wù)用戶對(duì)話分析能力,生成式AI可以釋放數(shù)據(jù)的潛能,更快地獲取價(jià)值,幫助團(tuán)隊(duì)實(shí)現(xiàn)之前難以企及的新想法并帶來創(chuàng)新力。
數(shù)據(jù)是生成式AI的“燃料”,而更為重要的是,應(yīng)該將生成式AI看作一種強(qiáng)大的新型工具,并將其融入到數(shù)據(jù)處理中。