Google云計(jì)算發(fā)布可以連接Apache Hive與BigQuery的連接器,使得Hive工作負(fù)載現(xiàn)在也可以讀取和寫(xiě)入BigQuery與BigLake表格,也就是說(shuō),Hive-BigQuery連接器提供了另一個(gè)Hive搬遷到BigQuery的解決方案,即便用戶已經(jīng)將數(shù)據(jù)搬遷到BigQuery或BigLake,仍然可以利用HiveQL方言和Hive執(zhí)行引擎執(zhí)行查詢。
Apache Hive是一個(gè)開(kāi)源的分布式數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng),用于處理存儲(chǔ)在Hadoop中的結(jié)構(gòu)化數(shù)據(jù),開(kāi)發(fā)人員不需要了解和編寫(xiě)復(fù)雜的MapReduce任務(wù),可以使用類(lèi)似SQL語(yǔ)言的HiveQL查詢數(shù)據(jù)。而之所以Google要開(kāi)發(fā)Hive-BigQuery連接器,是因?yàn)椴糠钟脩粼诎徇wHive到BigQuery數(shù)據(jù)倉(cāng)庫(kù)時(shí)遭遇障礙,而Hive-BigQuery連接器則可提供更靈活的搬遷選擇。
Hive-BigQuery連接器實(shí)例了Hive StorageHandler API,可集成Hive工作負(fù)載和BigQuery、BigLake表格,Hive的執(zhí)行引擎會(huì)處理聚合和整合等數(shù)據(jù)操作,而與BigQuery的數(shù)據(jù)層的所有互動(dòng),則是由連接器管理。
Google提到,Hive原本就是熱門(mén)的開(kāi)源數(shù)據(jù)倉(cāng)庫(kù)之一,過(guò)去使用本地HDFS當(dāng)作專有數(shù)據(jù)存儲(chǔ)層,而現(xiàn)在逐漸發(fā)展到了云計(jì)算存儲(chǔ)服務(wù)。這個(gè)新的連接器,可以將Hive和原生云計(jì)算存儲(chǔ)BigQuery集成在一起,進(jìn)而簡(jiǎn)化搬遷工作。
利用Hive-BigQuery連接器,用戶可以在批次搬遷的過(guò)程,維持操作的連續(xù)性。在過(guò)程中,原始的Hive查詢能夠通過(guò)連接器訪問(wèn)數(shù)據(jù),而用戶也可以逐漸轉(zhuǎn)換使用BigQuery的SQL方言,待轉(zhuǎn)換完成后,用戶便可以完全停用Hive。
此外,用戶還可以同時(shí)使用Hive和BigQuery,主要以Hive處理工作負(fù)載,并僅將BigQuery用于特定任務(wù),或是也可以繼續(xù)使用Hive,并且在云計(jì)算存儲(chǔ)采用Avro、Parquet或ORC等開(kāi)源軟件格式,用戶可以使用Hive的SQL方言執(zhí)行和處理查詢,以連接器使用BigLake和BigQuery的特有功能,像是緩存查詢性能的元數(shù)據(jù)、應(yīng)用欄級(jí)訪問(wèn)控制,甚至是數(shù)據(jù)遺失防護(hù)(DLP)等安全和治理功能。