Na czym polegają trzy podstawowe poziomy deduplikacji danych?

Proces deduplikacji danych informatycznych, oznacza eliminowanie powtarzających się danych oraz może odbywać się na trzech najważniejszych poziomach: bajtów, bloków i plików. Każdy z tych poziomów przedstawia inny typ fragmentu danych.

Są one później za pomocą systemu sprawdzane pod kątem występowania duplikacji. Do generowania unikatowych identyfikatorów wykorzystywany jest wzorzec funkcji skrótu. Dotyczy to jakiejkolwiek poddanej analizie części danych. Wymienione identyfikatory składowane są w indeksie, a potem wykorzystywane są w procesie deduplikacji. Naturalnie duplikujące się fragmenty mają takie same identyfikatory funkcji skrótu. Teoretycznie im dokładniejsza jest analiza, to tym wyższy jest parametr deduplikacji.

Udało nam się przyciągnąć Twoją myśl tym ciekawym postem? Rewelacyjnie. Zatem namawiamy – kliknij w link uczelnie Wrocław i przenieś się do nowej strony po detale.

W praktyce jednak wszystkie wspomniane poziomy w każdym przypadku mają swe wady i zalety. Przykładowo deduplikacja na poziomie plików jest zawsze najbardziej prosta do wdrożenia.

PIT
efekty
Co istotne, taka postać deduplikacji nie jest za bardzo obciążająca dla serwera, gdyż generowanie funkcji skrótu jest relatywnie proste. Niestety minusem tego typu formy jest to, że jeśli jakiś plik będzie w jakikolwiek sposób zmieniony, to zmienia się też identyfikator funkcji skrótu. W wyniku obydwie wersje plików zostaną na serwerze zamieszczone. Deduplikacja na poziomie bloków opiera się naturalnie na porównywaniu bloków danych. Wymaga ona większej mocy obliczeniowej. Podobnej mocy potrzebuje deduplikacja na poziomie bajtów. Jest to poniekąd w najwyższym stopniu podstawowy sposób porównywania danych.

Wykonuje się to, jak sama nazwa sugeruje, bajt po bajcie. Przeprowadzana w taki sposób analiza jest naturalnie niezwykle dokładna. Pewnym mankamentem może być czas przeprowadzania takiego rodzaju deduplikacji.