Proces deduplikacji danych informatycznych, oznacza eliminowanie powtarzających się danych oraz może odbywać się na trzech najważniejszych poziomach: bajtów, bloków i plików. Każdy z tych poziomów przedstawia inny typ fragmentu danych.
Są one później za pomocą systemu sprawdzane pod kątem występowania duplikacji. Do generowania unikatowych identyfikatorów wykorzystywany jest wzorzec funkcji skrótu. Dotyczy to jakiejkolwiek poddanej analizie części danych. Wymienione identyfikatory składowane są w indeksie, a potem wykorzystywane są w procesie deduplikacji. Naturalnie duplikujące się fragmenty mają takie same identyfikatory funkcji skrótu. Teoretycznie im dokładniejsza jest analiza, to tym wyższy jest parametr deduplikacji. W praktyce jednak wszystkie wspomniane poziomy w każdym przypadku mają swe wady i zalety. Przykładowo deduplikacja na poziomie plików jest zawsze najbardziej prosta do wdrożenia.
Co istotne, taka postać deduplikacji nie jest za bardzo obciążająca dla serwera, gdyż generowanie funkcji skrótu jest relatywnie proste. Niestety minusem tego typu formy jest to, że jeśli jakiś plik będzie w jakikolwiek sposób zmieniony, to zmienia się też identyfikator funkcji skrótu. W wyniku obydwie wersje plików zostaną na serwerze zamieszczone. Deduplikacja na poziomie bloków opiera się naturalnie na porównywaniu bloków danych. Wymaga ona większej mocy obliczeniowej.
Ten tekst zawiera ciekawe dane na opisywany temat, ale jeśli masz chęć poznać zbliżone aktualności, to szczegółowo przeanalizuj solidne informacje (bscav.eu/).
Podobnej mocy potrzebuje deduplikacja na poziomie bajtów. Jest to poniekąd w najwyższym stopniu podstawowy sposób porównywania danych.
Wykonuje się to, jak sama nazwa sugeruje, bajt po bajcie. Przeprowadzana w taki sposób analiza jest naturalnie niezwykle dokładna. Pewnym mankamentem może być czas przeprowadzania takiego rodzaju deduplikacji.