Google云計算正式推出無服務器開源集群運算框架Spark服務(Serverless Spark),官方提到,這是目前市面上第一個可自動擴展的無服務器Spark服務,另外,Google還讓云計算數(shù)據(jù)倉庫BigQuery連接無服務器Spark計算資源,BigQuery用戶現(xiàn)在可以使用無服務器Spark,和BigQuery SQL進行資料分析。這些功能更新的目標,都是要讓用戶能更簡單地運行大規(guī)模ETL和數(shù)據(jù)科學等使用案例。
由于Apache Spark所提供的速度、簡易性和程序語言靈活性,使得不少企業(yè)應用Apache Spark來進行資料工程、數(shù)據(jù)挖掘和機器學習等任務,但Google提到,管理集群和調整基礎設施的效率很差,針對不同使用案例的集成程序,可能會大幅消耗生產力。
而Google提供無服務器Spark,供用戶專注于程序代碼和邏輯設計,不再需要管理集群和調整基礎設施,通過選擇的接口就能上傳Spark作業(yè),無服務器Spark會自動處理規(guī)??s放,來符合任務的需要。
另外,Google也開始提供BigQuery實現(xiàn)無服務器Spark功能預覽版,通過提供統(tǒng)一接口,供資料分析師在BigQuery編輯器中,編寫SQL和PySpark程序代碼,并且不需要配置基礎設施,就能無縫地使用Spark執(zhí)行。Google正努力在各種接口,集成無服務器Spark服務,使得用戶不需要預先配置任何基礎設施,便可以激活Spark,接下來還要讓用戶在全托管機器學習平臺Vertex AI,也能用到Spark。