Azure Data Lake Storage Gen2 簡介

來源: Microsoft Azure
作者:Microsoft Azure
時間:2021-01-27
17853
Azure Data Lake Storage Gen2是一組專用于大數(shù)據(jù)分析的功能,以Azure Blob存儲為基礎而構建。

Azure Data Lake Storage Gen2是一組專用于大數(shù)據(jù)分析的功能,以Azure Blob存儲為基礎而構建。

專為企業(yè)大數(shù)據(jù)分析而設計

Data Lake Storage Gen2使Azure存儲成為在Azure上構建企業(yè)Data Lake的基礎。Data Lake Storage Gen2從一開始就設計為存儲數(shù)千萬億字節(jié)的信息,同時保持數(shù)百千兆位的吞吐量,允許你輕松管理大量數(shù)據(jù)。

Data Lake Storage Gen2的一個基本部分是向Blob存儲添加分層命名空間。分層命名空間將對象/文件組織到目錄層次結構中,以便進行有效的數(shù)據(jù)訪問。常見的對象存儲命名約定在名稱中使用斜杠來模擬分層目錄結構。這種結構在Data Lake Storage Gen2中得以真正實現(xiàn)。重命名或刪除目錄等操作會成為目錄上的單個原子元數(shù)據(jù)操作。無需枚舉和處理共享目錄名稱前綴的所有對象。

Data Lake Storage Gen2在Blob存儲的基礎上構建,并通過以下方式增強了性能、管理和安全性:

優(yōu)化了性能,因為你不需要將復制或轉換數(shù)據(jù)作為分析的先決條件。與Blob存儲上的平面命名空間相比,分層命名空間極大地提高了目錄管理操作的性能,從而提高了整體作業(yè)性能。

管理更為容易,因為你可以通過目錄和子目錄來組織和操作文件。

安全性是可以強制實施的,因為可以在目錄或單個文件上定義POSIX權限。

另外,Data Lake Storage Gen2非常經濟高效,因為它構建在低成本的Azure Blob存儲之上。這些新增功能進一步降低了在Azure上運行大數(shù)據(jù)分析的總擁有成本。

Data Lake Storage Gen2的主要功能

Hadoop兼容訪問:使用Data Lake Storage Gen2,可以像使用Hadoop分布式文件系統(tǒng)(HDFS)一樣管理和訪問數(shù)據(jù)。新的ABFS驅動程序(用于訪問數(shù)據(jù))在所有Apache Hadoop環(huán)境中都可用。這些環(huán)境包括Azure HDInsight、Azure Databricks和Azure Synapse Analytics。

POSIX權限的超集:Data Lake Gen2的安全模型支持ACL和POSIX權限,以及特定于Data Lake Storage Gen2的一些額外粒度??梢酝ㄟ^存儲資源管理器或Hive和Spark等框架來配置設置。

經濟高效:Data Lake Storage Gen2提供了低成本的存儲容量和事務。Azure Blob存儲生命周期等功能可在數(shù)據(jù)在其生命周期中進行轉換時優(yōu)化成本。

優(yōu)化的驅動程序:ABFS驅動程序已針對大數(shù)據(jù)分析進行專門優(yōu)化。相應的REST API通過終結點dfs.core.chinacloudapi.cn進行顯示。

可伸縮性

按照設計,無論是通過Data Lake Storage Gen2還是Blob存儲接口進行訪問,Azure存儲都可自如縮放。它可以存儲和處理許多百億億字節(jié)的數(shù)據(jù)。這種存儲量可用于在每秒高級別的輸入/輸出操作(IOPS)下以每秒千兆位(Gbps)的速度測量的吞吐量。會根據(jù)在服務、帳戶和文件級別上測量的近乎持續(xù)的按請求度量的延遲來進行處理。

成本效益

因為Data Lake Storage Gen2是在Azure Blob存儲基礎之上構建的,所以存儲容量和事務成本較低。不同于其他云存儲服務,在分析數(shù)據(jù)之前,無需移動或轉換數(shù)據(jù)。有關定價的詳細信息,請參閱Azure存儲定價。

此外,分層命名空間等功能可顯著提高許多分析作業(yè)的整體性能。這一性能方面的提升意味著你需要較少的計算能力來處理相同數(shù)量的數(shù)據(jù),從而降低端到端分析作業(yè)的總擁有成本(TCO)。

一個服務,多個概念

因為Data Lake Storage Gen2是在Azure Blob存儲基礎之上構建的,所以可以使用多個概念來描述相同的共享內容。

以下是不同概念所描述的等效實體。除非另有說明,否則這些實體是直接同義的:

一個服務,多個概念

微信圖片_20210127102706.png

支持的Blob存儲功能

你的帳戶現(xiàn)在可使用診斷日志記錄、訪問層和Blob存儲生命周期管理策略等Blob存儲功能。

有關受支持的Blob存儲功能的列表,請參閱Azure Data Lake storage Gen2中提供的Blob存儲功能。

支持的Azure服務集成

Data Lake Storage gen2支持多個Azure服務。可以使用它們來引入數(shù)據(jù)、執(zhí)行分析和創(chuàng)建可視化表示形式。有關受支持的Azure服務的列表,請參閱支持Azure Data Lake Storage Gen2的Azure服務。

支持的開源平臺

多個開源平臺支持Data Lake Storage Gen2。有關完整列表,請參閱支持Azure Data Lake Storage Gen2的開源平臺。

立即登錄,閱讀全文
版權說明:
本文內容來自于Microsoft Azure,本站不擁有所有權,不承擔相關法律責任。文章內容系作者個人觀點,不代表快出海對觀點贊同或支持。如有侵權,請聯(lián)系管理員(zzx@kchuhai.com)刪除!
優(yōu)質服務商推薦
更多
掃碼登錄
打開掃一掃, 關注公眾號后即可登錄/注冊
加載中
二維碼已失效 請重試
刷新
賬號登錄/注冊
個人VIP
小程序
快出海小程序
公眾號
快出海公眾號
商務合作
商務合作
投稿采訪
投稿采訪
出海管家
出海管家