Introduzione al problema della deduplicazione

La domanda che più affligge gli utilizzatori di ZFS è sicuramente questa. Deduplicare i dati o no? La risposta può arrivare solo dopo un'attenta valutazione richi/benefici.

Sin dal momento delll'introduzione della feature di deduplicazione in ZFS, gli amministratori di sistema si sono divisi in tra i dediti alla deduplicazione e tra gli scettici. Certo, la deduplicazione consente di risparmiare notevoli quantità di spazio, anche se la deduplicazione ha un costo elevato, che non può essere ignorato e non sempre è l'opzione migliore.

Da quello che si legge nelle offerte commericali di NAS dotati di ZFS, viene dichiarato un risparmio di spazio di circa 10 volte. E' vero? Dipende da come si utilizza. Si può arrivare anche a proporzioni molto più alte. Facendo una media direi più che si risparmia lo spazio 5 volte, attivando sia deduplicazione che compressione.

Vediamo un po' più in profondità i vantaggi della deduplicazione ZFS e il relativo costo perché alla fine tutto si riduce ad effettuare un'analisi costi/benefici della deduplicazione ZFS.

 

Deduplicazione ZFS: quale valore ottieni?

Il gestore ZFS scarterà ogni blocco di dati identico a un blocco già scritto, mantenendo un riferimento in modo che possa riprodurre sempre lo stesso blocco quando viene letto.

Prima di decidere di utilizzare la deduplicazione, è bene sapere quale valore si otterrà. Ecco alcune cose da fare pima, per capire quanto spazio si riesce a recuperare a seguito dell'utilizzo della deduplicazione ZFS:

  • Prova con alcuni dati reali. Questa è l'opzione più precisa e semplice: configurare un pool di test, attivare la deduplicazione ZFS, quindi copiare una quantità rappresentativa dei dati che stai valutando su di esso. Quindi utilizzare l'elenco zpool e guardare la colonna DEDUP per il rapporto di deduplicazione. La cosa importante è utilizzare un numero rappresentativo di dati, in modo da ottenere una stima accurata di quanti risparmi potremo aspettarci.
  • Simulare applicando il comando zdb -S a uno zpool esistente con i dati da deduplicare. Questa opzione è meno accurata dell'utilizzo di dati reali con una vera e propria serie deduzione, ma può fornire una stima di riuscita basata sui dati esistenti.
  • Stima tu stesso, in base alla conoscenza che hai dei tuoi dati. Non è l'opzione migliore, ma a volte, la creazione di un pool di test non è fattibile e la simulazione dei calcoli sui dati esistenti non funziona perché semplicemente non disponete di dati da analizzare. Ad esempio, se si prevede di eseguire un server di archiviazione per le macchine virtuali: quante macchine supportate? Quante volte sono patchate? Quanto è probabile che le persone applichino gli stessi software / patch / dati alle vostre macchine? Quanti sono i GB di dati deducibili che verranno generati?

In ogni caso, finirete ad avere un rapporto di deduplicazione previsto per i dati: per ogni GB di dati che effettivamente memorizzi, quanti GB di spazio libero otterrai? Questo numero può avere un valore: alcune persone assegnano arbitrariamente un valore di 1,00 (nessun duplicato), altri ipotizzano risparmi moderati come 1,5 (ogni 2 GB, uno libero) e alcuni sistemisti fortunati possono arrivare ad ottenere fino a 20 volte, per esempio su un server di archiviazione per virtualizzazione con profili di utilizzo molto ripetitivi.

Ora prendi la tua quantità totale di archiviazione e dividila per il rapporto di deduplicazione, e sottrai il risultato dalla quantità totale di spazio. Questo è il risparmio di conservazione previsto a seguito della deduplicazione.


ImpresaCloud

ImpresaCloud

Laboratorio di informatica e di elettronica

Cerchi informazioni sulle riparazioni in laboratorio? Hai qualche curiosità riguardo la riparazione di qualche scheda elettronica in particolare? Nella sezione Riparazioni del nostro Blog troverai moltissime informazioni utili e curiosità riguardanti il mondo dell'informatica e dell'elettronica.

 

Software gestionali

Nel nostro Blog troverai gratis tante informazioni utili riguardo i nostri software gestionali, guide passo-passo per l'utilizzo dei programmi, suggerimenti e aiuto.

 

Sistemistica informatica

Nel Blog Sistemistica troverai interessanti articoli scritti dal nostro team riguardanti il mondo di BSD, Linux, e dei Server Windows. Tutorial, best-practices, e tanto altro.

 

Notizie

Notizie interessanti riguardanti l'elettronica e l'informatica.