推廣 熱搜: 集成  系統集成  弱電  軟件  kvm  服務器  思科  視頻會議  拼接  SFP 

重復數據刪除產品技術漫談

   日期:2013-01-28     來源:比特網    瀏覽:257    評論:0    
核心提示:重復數據刪除市場可謂風起云涌,從備份廠商到存儲廠商都推出了相應的產品,涵蓋了軟件和硬件,涉及主存儲系統和備份存儲設備,一時讓人眼花繚亂,難以分辨孰優孰劣。本文透過產品,對重復數據刪除的原理、相關術語、模式等要素進行了簡明扼要的分析,最后為用戶選擇重復數據刪除產品提供相關建議。

重復數據刪除市場可謂風起云涌,從備份廠商到存儲廠商都推出了相應的產品,涵蓋了軟件和硬件,涉及主存儲系統和備份存儲設備,一時讓人眼花繚亂,難以分辨孰優孰劣。本文透過產品,對重復數據刪除的原理、相關術語、模式等要素進行了簡明扼要的分析,最后為用戶選擇重復數據刪除產品提供相關建議。

數據縮減(data reduction)

數據縮減(data reduction)是能夠降低主存儲系統磁盤使用空間的技術總稱,數據簡縮技術可以分為兩類:壓縮和重復數據刪除。壓縮通過把文件中一些無用的數據,例如前置零和空格等刪除掉,減少文件占用空間;但壓縮僅限于單個文件,無法跨越多個文件,這限制了壓縮技術縮減數據的能力。

重復數據刪除產品技術

重復數據刪除結構圖

了解重復數據刪除

目的:通過刪除重復數據,節省磁盤使用空間,保護現有存儲投資。

原理:在某一級別(文件級、數據塊、字節級)通過一次或多次使用哈希算法(MD5 或者SHA-1)或其他相關算法查找重復數據。重復數據只保留一份,其他重復數據用指針替代。

應用:可以在數據備份時進行重復數據刪除,同時主存儲也支持重復數據刪除。備份軟件和備份介質(主要應用為虛擬帶庫(VTL))及主存儲設備都提供數據去重功能。

熟悉重復數據刪除

備份軟件

一般來講,使用備份軟件進行重復數據處理涉及以下4個步驟:(1)將需要備份的文件分割為“塊”;(2)采用哈希算法為每個“塊”計算一個哈希值;(3)和備份服務器哈希表數據庫中的數據進行比對以確定是否存在重復數據;(4)用指針代替重復的數據塊并將非重復的數據塊傳輸到目標存儲設備。

備份軟件可以在源端和目的端進行重復數據刪除處理,其主要區別是:“源端去重”在備份客戶端執行上述四個步驟,而“目的端去重”在備份服務器上處理。

產品舉例:Commvault Simpana 9.0,嵌入式塊級重復數據刪除解決方案,可以在客戶端系統刪除重復數據,極大減少網絡中的數據傳輸量;統一的操作視圖和啟用重復數據刪除的復選框簡化了管理。

硬件產品

可以在三個技術維度對重復數據硬件進行劃分:(1)按照寫入數據的時間點可以分為聯機去重(Inline,有些技術文章稱之為in-band)和后處理去重(post-process,有些技術文章稱之為out-of-band);(2)按照對重復數據處理方式的不同可以分為:逆向引用(reverse referencing)和前向引用(forward referencing);(3)按照去重粒度可以分為文件級、塊級和字節級去重;塊級去重按照數據塊大小是否可改變分為固定塊和可變塊。

Inline/in-band:首先進行“去重”操作,然后再進行“寫入”操作。大量的備份數據流到達具有去重功能的硬件設備時,首先駐留在內存中;重復數據刪除引擎對備份數據塊進行辨識,判斷是否存在已保存過的數據塊:如果存在對應的數據塊,寫入指針代替實際數據塊的寫入過程。否則直接寫入該新數據塊。

Post-process /out-of-band:大量的備份數據流直接寫入具有去重功能的硬件設備,隨后啟動單獨的進程讀取已寫入磁盤的數據塊,進行重復數據刪除處理過程:如果存在重復的數據塊,刪除該數據塊并用指針替代;否則將該新數據塊留在磁盤上,而無需任何其他操作。

Inline vs.Post-process:Inline實際是實時消重,Post-process實際是異步消重。兩者之間的根本區別是消重進程在哪里讀取原始數據:如果是從內存中讀取,那么就是實時消重;如果是從磁盤中讀取,那么就是異步消重。需要指出的是,進行數據備份時,Post-process等待的是一份拷貝的結束,而不是所有備份任務結束后才能進行去重處理。去重和數據備份是可以并行進行的。

reverse referencing:即數據只有第一次是完全寫:當系統發現當前處理的數據塊與已保存的數據塊內容相匹配時,保留之前存儲的舊數據塊,在舊數據塊處寫入一個新指針,而不是將新數據塊寫入磁盤。去重過程是不斷為新的冗余數據塊寫入指針的過程,這可能會導致新數據碎片不斷增加。

forward referencing:即完整寫入最新的數據:當系統發現當前處理的數據塊與已保存的數據塊內容相匹配時,將新數據塊寫入磁盤,刪除舊數據塊并將舊數據替換成一個指向新數據塊的指針。去重過程是不斷寫入新數據、刪除舊數據、替代舊數據為指針的過程。最新備份的數據物理上保持連續,恢復最新數據備份比reverse referencing更快,但是舊備份對應的數據在物理上將變得越來越隨機。

文件級去重:通常也稱為單實例存儲(SIS),在文件系統中檢查并判斷兩個文件是否完全相同,如果發現兩個相同的文件,其中一個就會被指向另一個文件的指針所取代。

塊級去重:將所有的文件分解成數據塊,然后通過散列算法,為每個塊創建一個哈希值,并與其他所有數據塊的哈希值進行比對,如果兩個數據塊的哈希值完全一致,其中一個塊就會被刪除,并用指向另一個塊的指針來代替。不同產品檢查數據塊大小各不相同,一些供應商選擇固定大小的數據塊,一些則使用不同大小的數據塊。

固定塊:大小可能為4KB、8 KB 或更大。塊大小越小,被判定為冗余的幾率越大,存儲的數據也更少。

可變塊:各種規模的塊能夠提高冗余的檢測幾率,尤其是在文件發生變化之后。即使文件或數據塊發生變化,也能發現重復的數據塊。

固定塊vs.可變塊:如果文件發生變化,固定塊可能無法檢測出新的數據冗余,影響去重效果??勺儔K通過調整塊大小,能夠發現更多的數據冗余;但會增加去重計算時間,這影響了去重效率。

字節級去重:通過逐個字節的比較實現去重,是能夠保證充分去除冗余數據的唯一方法,但是對性能影響較大。

備份存儲舉例:EMC Data Domain,基于8K大小的塊,采用Inline 重復數據刪除技術,在網絡上僅發送經過去重且已壓縮的數據塊。能夠與所有主流的企業備份和歸檔應用程序配合運行,輕松集成到現有存儲基礎架構中;借助Stream-Informed Segment Layout (SISL) 擴展體系結構,磁盤庫的性能主要取決于CPU頻率,最大限度減少了實現關鍵單數據流操作的吞吐量性能所需的磁盤軸數量。

主存儲舉例:NetApp FAS和V系列,提供了基于Data ONTAP 操作系統的重復數據刪除,利用并改進了已有的WAFL(write anywhere file layout)文件系統技術。基于4K大小的塊,通過一個低優先級的后臺進程在系統非高峰時期運行Post-process去重,對系統性能無明顯影響。對可能存在冗余的數據塊將再次進行逐位(bit)比較,丟棄完全相同的數據塊。

主存儲vs.備份存儲:由于主存儲系統中沒有那么多的數據可以去重,磁盤空間的節省程度通常難以達到在備份系統中使用重復數據刪除一樣的水平。隨著數據中心VMware服務器虛擬化技術的廣泛應用,而虛擬磁盤VMDK 文件中通常存在大量冗余數據,在VMware主存儲上去重是主存儲數據簡縮的一個主要應用,一般可節省50%–70% 存儲空間。

選擇重復數據刪除產品

硬件vs.軟件

數據中心通常部署了備份軟件對業務數據進行備份,咨詢備份軟件廠商數據備份過程中是否支持對重復數據進行刪除。如果正在使用的備份軟件中不提供重復數據刪除功能,那么更換備份軟件將是一項復雜的工程,采用基于硬件的數據去重設備可能一項相對輕松的工作。這種情況下通過備份軟件直接把數據備份到去重硬件設備(通常為VTL),由硬件設備進行重復數據刪除操作是更為合理的選擇。

如何選擇硬件

通過上述介紹我們發現,無論是哪種重復數據刪除處理方式都沒有絕對的優勢,選擇相關產品時需要根據生產環境進行具體分析。對于主存儲,重復數據刪除對性能的影響必須在可接受的范圍內;對于備份存儲,首要的一點是必須滿足備份窗口的要求,在實際備份環境中進行最大備份負荷測試以確定哪種處理方式更適合實際的備份窗口要求。

在滿足性能和備份窗口要求的前提下,考慮數據容量、性價比、服務支持以及廠商的專業背景等,同時產品的可擴展性也是需要關注的重點。

對備份硬件來講,同時還需要關注現有備份軟件集成度以及數據恢復時的性能表現。從重復數據刪除系統中恢復數據,實際上是一個從包含有大量數據碎片的磁盤中讀取數據的過程。在磁盤容量和碎片達到一定的數量級后,可能需要從數百個磁盤中經過數百次的磁盤尋道才能讀出與之前同樣多的數據。

 
標簽: 重復數據刪除
打賞
 
更多>同類資訊
0相關評論

 
推薦資訊
點擊排行
?
網站首頁  |  付款方式  |  版權隱私  |  使用協議  |  聯系方式  |  關于我們  |  網站地圖  |  排名推廣  |  廣告服務  |  RSS訂閱  |  違規舉報  |  京ICP備11008917號-2  | 
 
porn视频在线观看