magnify
Home 3. Party Arcserve Data Deduplication Nedir?
formats

Arcserve Data Deduplication Nedir?

Tarih 17 Ekim 2016 yazar içinde 3. Party

Çoğumuzun duyduğu bir terimdir deduplication, bu işlem için gerek pahalı donanımlar kullanmışızdır gerekse yazılımlarımızı çeşitlendirmişizdir. Data boyutlarının ve Retention sürelerinin arttığı günümüzde çok önemli bir konuma gelmiştir data deduplication terimi, ancak bilinmeyen ve uygulamada eksik yapılan noktalarda var

Bu yazımızda biraz data deduplication tanıyıp sonrasında Arcserve data deduplication yapısına bakacağız.

Data Deduplication Nedir :

Temelde Türkçede veri tekilleştirmesi olarak geçen terim tekrar eden veri yada veri öbeğini bulup ortadan kaldırmak üzere kurulmuş bir algoritmadır. Aşağıdaki görsel konsepti daha iyi anlamanızı sağlıyacaktır.

Her bir veri öbeği için bir hash oluşturulur eğer bu hash mevcutta bulunan hash ile uyuşuyorsa eski veri öbeğine bir pointer atanarak yeni veri öbeği eskisinin yerini alır.

Bu Algoritma 3 farklı şekilde çalıştırılabilmektedir.

  • File level (Dosya seviyesinde)
  • Block level (Blok seviyesinde)
  • Byte Level (Bit seviyesinde)

Kısaca tekilleştirme seviyelerinede değinelim;

File level (Dosya seviyesinde)

Single-Instancing olarakda bilinen bir yöntem olmakla birlikde deduplication seviyesi yüksek olmadığı için backup yazılımlarında çok kullanılmaz. Burada kısaca bahsedersek dosya bazlı hash ‘leme yapılarak tekilleştirme sağlanır.

Block level (Blok seviyesinde)

Fixed and Variable tekilleştirme yapan yapı veri öbeklerini blok ‘lara ayırarak blok bazlı veri öbeklerini hash ‘ler, burada kullandığınız donanımın veya yazılımın hash yapabildiği blok seviyesi ne kadar düşük olursa deduplication seviyeniz o kadar yüksek olur. En çok kullanılan yöntemdir.

Byte Level (Bit seviyesinde)

Belli bir blok yapısına sahip olmayan veri çeşitleri için kullanılınır ve bu işlemde sadece hash oluşturulmaz verinin başı ve sonu tekrar hesaplanır.

Arcserve Deduplication :

Günümüzde tüm firmalar sistemlerini periyodik backuplamakda ve belli retentionlarda saklamaktadır.

Backupladığınız 1 TB ‘lık bir sistemi haftada bir full backuplasanız ve bir ay saklasanız tekilleştirme olmadan aylık 4 TB ‘lık alana ihtiyacınız bulunmaktadır. Eğer pahalı deduplication cihazlarına para harcamak istemiyorsanız Arcserve UDP ile düşük maliyetlerde bu ihtiyacınızı karşılayabilirsiniz. Arcserve Block Level deduplication yapar ve basit bir disk alanını bile pahalı donanımlarda var olan block seviyelerinde deduplication disk alanına çevirebilirsiniz.

Arcserve UDP deduplication ‘ı Inline olarak yapmaktadır yani veri kopyaları daha diske yazılmadan elenmektedir buda diski yüksek i/o ‘lardan kurtarır ancak burada önemli olan konu yüksek cache oranına sahip disklerin kullanılmasıdır çünki veri elemesi cache üzerinde yapılmaktadır. Bu yöntemde amaç sadece yazılması gereken verinin diski meşgul etmesini sağlamakdır.

Arcserve UDP ‘de deduplication + compression yapılmaktadır ve bu size storage alanından daha fazla kar elde etmenizi sağlamaktadır. Dilenirse comression ‘ı kapatabilirsiniz.

Arcserve UDP client site deduplication da yapabilmektedir ancak istenirse bu özelliği kapatabilirsiniz. Sunucularınızdan gelen dedup edilmiş data birde deduplication diske alındığında tüm gelen data blokları arasıda deuplication’a maruz kalarak sizlere storage alanından yüksek kar sağlatmaktadır.

Aşağıdaki örnekde daha net belirtilen arcserve UDP deduplication şeması görülmektedir.

Arcserve UDP deduplication ‘ı 4K, 8K, 16K ve 32K seviyelerinde yapabilmektedir ve bu seviyeler birçok popüler deduplication donanım ile aynı seviyededir. Ayrıca config olrak fazla bir ön hazırlığa ihtiyaç duymadan bu görevi yerine getirir. Eğer deduplication bir cihazı arcserve de kullanacaksanız sadece compression  özelliğini kapatmanız gerekmektedir ancak deduplication cihaz kullansanızda deduplication datasotere tanımı yapmakta fayda var böylece client site deduplication aktif kalacak ve ayrıca backup’lar daha hızlı bitecektir zira deduplication donanımdaki hash ‘leri Arcserve UDP tanıyamamaktadır. Arcserve Deduplication ‘ın kapalı olduğu durumlarda deduplication storage ‘ınız tekilleştirmeyi yapar ancak bu Arcserve UDP ‘de de deduplication  aktif olduğunda ikinci backuplar Full ‘de olsa hash takibi yapıldığından backuplarınız hızlı bitecektir. Özetlemek gerekirse compression kapatıyoruz deduplication storage kullansakda deduplication datastore kurulumu yapıyoruz.

Arcserve UDP ‘yi kurduğunuz sunucuya disk ekleyerek üzerinde deduplication datastore oluşturarak verilerinizi bu alana deduplication algoritmasını kullanarak kolayca yedekleyebilirsiniz.

Deduplication disk tanımı yapabilmemiz için Arcserve UDP ‘nin RPS (Recovery Point Server) rolü kurulu olması gerekmektedir. RPS sunucu Arcserve UDP ‘de media kontrolünü sağlayan sunuculardır Eğer uygun sistem gereksinimlerini sağlıyorsanız manager rolü kurulu olan sunucuya RPS rolünüde kurabilirsiniz. Deduplication yada none deuplication datastore ‘larımızı aşağıdaki kısımda bulunan RPS sunucu yada sunucularımıın üstüne tanımlıyoruz.

Tanımlama için eğer listede RPS sunucu göremiyorsak datastore ‘dan önce bunu tanımlamalıyız. Yukarıdaki resimde gördüğünüz Add a Recovery Point Server kısmına tıklayarak hızlıca bu tanımı sağlıyabilirsiniz. Sonrasında RPS sunucumuza sağ tıklayarak add datastore diyoruz. Karşımıza aşağıdaki ekran gelmektedir.

Burada datastore ‘umuza bir isim veriyoruz bu isimi verirken sizin için anlamlı kılabilmek için site ve rps sunucu kısaltmalarını ekleyebilirsiniz.

Örneğin:

İstanbul ve Ankara lokasyonları için tanım yaparsak

ist_dedup_stu

ank_dedup_stu gibi;

Deduplication storage için 4 adet klasöre ihtiyacımız var bunlara catalog, data, hash, index isimlerini verip datastore tanımına ekliyoruz. Catalog adında oluşturduğumuzu Backup destination folder ‘da belirtiyoruz.

Compression Type incelersek en yaygın kullanılan ve tavsiye ettiğimiz standart compression ‘dır.

No Compression

Bu opsiyonda disk kullanımı artar ancak CPU kullanımı düşüktür.

Standard Compression

Bu tanım disk kullanımı ve cpu kullanımını dengeler.

Maximum Compression

CPU kullanımı yüksek ancak disk kullanımı düşük olur.

Concurrent Active Nodes kısmı bu datastore üzerinde aynı anda yedeklenebilecek node sayısını sınırlıyoruz. Bu tanıma ihtiyaç duymamızın sebebi backup sırasındaki yükü RPS sunucuda dengelemekdir. Ayrıca istenirse tanımladığımız diske şifreleme yapıyoruz ancak unutulmamalıdır şifreyi unuttuğumuzda yedeklediğimiz verilere ulaşamayız.

Dosyalarımızı tanımladıktan sonra şimdi deduplication disk block size ‘ı tanımlayabiliriz. 4K, 8K, 16K ve 32K seviyelerinde yapabilmektedir ancak yüksek bir tape dublication ve restore performansı istiyorsak benim tavsiyem 16K yada 32K ‘yı kullanmaktır.

Eğer imkanınız var ise Hash ‘i SSD yada hızlı disklerde tutmakta fayda var. Deduplication algoritmalarının ram ihtiyacı yüksektir block size düştükce ram ihtiyacı artacaktır ancak arcserve hash alanı ssd diskde saklayabilmektedir ve basit notebook’larda kullanılan ssd bile işinizi görmektedir ve böylelikle ram ihtiyacının önüne geçmiş olmaktasınız. Burada sizing en dikkat edilmesi gereken adımlardan biridir ve en başta doğru yapılmalıdır. Size arttıkça hash ram ihtiyacı ve depolama alanı ihtiyacı artacaktır. Aşağıdaki linkden ulaşabileceğiniz Arcserve UDP Resource Estimator
tool ‘u kullanabilirsiniz.

http://downloads.arcserve.com/tools/UDP_Resource%20Estimator_v4.31_EN/UDP_Resource%20Estimator_v4.31_EN.htm

Sonrasında yaptığımız ayarları save ediyoruz.

Datastore ilgili RPS altında oluşmaktadır.

Aşağıdaki video ‘da datastore tanımı nasıl yapabileceğinizi adım adım görebilirsiniz.

https://youtu.be/oVzITKNnEqc

Ufak bir test yaptığımızda elde ettiğim sonuçlarıda sizlerle paylaşıyorum. Yaklaşık 22 GB boyutu olan ve sql rolü olan bir client ‘ın yedeklemesinin deduplication değerlerini test ettim bakalım sonuçlar nasıl 🙂

Kullandığım dedup pool 16 KB deduplication block size ‘a sahip bunuda söylemiş olayım.

İlk backup sonrası dedup_pool üzerinde %8 ‘lik bir değer gördüm bu alınan ilk Full backupdır. Aslında ilk backup da olsa database harici yedeklemelerde daha fazla deduplication oranı göreceksiniz..


İkinci Full backup ‘da %96 job ‘un deduplication oranına sahipti ve pool üzerinde deduplication %52 seviyesine çıktı performansı çok düşürmemek için 16 KB dedup block size sectim ancak 4 KB ile daha iyi deduplication sonuçları elde edilebilir.

45 GB data korundu ve disk üzerinde 15 GB yer kapladı.

Umarım sonuçlar sizin içinde memnuniyet vericidir. Bu makalemin de sonuna geldik, bir sonraki makalemde görüşmek dileği ile.

Makale Yazarı – Murat Kayki

 
 Share on Facebook Share on Twitter Share on Reddit Share on LinkedIn
Arcserve Data Deduplication Nedir? için yorumlar kapalı  comments 
© Hakan Uzuner
credit