Google云計算倉儲服務BigQuery正式提供搜索索引和搜索功能,這將可讓用戶更有效率地搜索富文本資料,官方提到,搜索索引讓用戶可以減少將資料導出至獨立搜索引擎的需要,方便構建資料驅動應用程序,或是同時綜合分析文本資料和其他結構化、半結構化、非結構化、流媒體和地理空間資料。
Google在內部以10TB、100TB和1PB的資料,測試了運用搜索索引的SEARCH函數(shù),以及無搜索索引的REGEXP_CONTAINS函數(shù),在常見搜索案例的平均執(zhí)行速度,使用搜索索引的SEARCH函數(shù)執(zhí)行速度是替代搜索方法的10倍。
有搜索索引的支持,使得BigQuery SEARCH功能所查詢的字節(jié)數(shù)量比起替代查詢少2,682倍,而Slot使用效率,比替代搜索高1,271倍。由于Slot是BigQuery計算單位,因此越少的Slot時間支付的費用也就越少。
搜索索引支持的BigQuery搜索功能,可用于廣泛的使用案例,像是罕見詞搜索,這是在日志分析中常見的查詢模式,企業(yè)常需要大海撈針地,在數(shù)百萬甚至數(shù)十億行資料中,搜索特定網(wǎng)絡ID、錯誤碼或是用戶名稱,以解決特定問題或是執(zhí)行安全審核,使用搜索索引讓BigQuery避免大規(guī)模掃描操作,可以精準定位回答查詢所需要的資料。
BigQuery的日志分析預覽功能,便是利用BigQuery搜索功能,提供用戶日志分析即服務解決方案,該功能提供專用接口,供用戶查詢常見的日志記錄元素,像是IP位置、URL和電子郵件等。