Articles IT et Télécoms

La déduplication : un outil indispensable pour faire face à l’explosion du volume de données

La déduplication est devenue une arme essentielle dans la lutte que mènent les entreprises pour gérer un volume croissant de données. Diminution des capacités disques nécessaires au stockage, réduction de la bande passante réseau, raccourcissement des temps de sauvegarde des serveurs comme des PC, … les bénéfices qui découlent de la déduplication vont logiquement conduire une majorité d’entreprises à mettre en œuvre ces techniques dans les années à venir.

Parmi tous les outils à la disposition des entreprises pour gérer tant bien que mal un volume sans cesse croissant de données : gestion centralisée des ressources de stockage, stockage à la demande ou encore archivage intelligent, la déduplication apparait comme la solution la plus prometteuse.

La déduplication est une démarche visant à éliminer le plus grand nombre possible de répétitions dans les fichiers de données. Pour comprendre l’ampleur du problème, il suffit d’observer la multiplication, pas toujours maîtrisée, des échanges entre collaborateurs. Ces interactions se traduisent par une duplication de documents dont beaucoup sont soit des copies privées de documents, soit des variantes de ces mêmes fichiers.

Or, l’enregistrement de « n » exemplaires de la même feuille de calcul, d’une présentation Powerpoint ou de variantes de celles-ci (avec des données à 95 % identiques) représente un gaspillage d’espace disque, sans compter le temps supplémentaire nécessaire à sauvegarder ces données redondantes, ni la bande passante utilisée à cet effet.

Les techniques de déduplication des données sont conçues pour apporter une réponse à ces problématiques.

Deux niveaux de traitement

La déduplication peut se réaliser au niveau du fichier comme à celui du bloc de données.

Dans le premier cas de figure, l’outil de déduplication va identifier les clones parfaits des fichiers recensés dans un espace de stockage, et remplacer ceux-ci par un lien pointant sur une version unique du fichier considéré. Cette technologie est notamment mise en œuvre dans les messageries électroniques comme Exchange sous le nom de Single Instance Storage (un élément dupliqué à une ou plusieurs reprises n’est stocké qu’une seule fois).

Le deuxième niveau consiste à analyser les blocs de données que comprennent les différents fichiers analysés. Grâce à cette déduplication intervenant à un niveau plus fin, si des fichiers distincts contiennent un ou plusieurs blocs en commun, un seul exemplaire de celui-ci sera sauvegardé. Ce procédé entraîne un gain d’espace disque important en réduisant le volume des données sauvegardées.

Les performances typiques des outils de déduplication se traduisent par des ratios de compression compris dans une fourchette allant de 10:1 à 20:1, ce qui entraîne une réduction de 90 % à 95 % des volumes de données.

Cette réduction en retour se traduit par une diminution drastique des fenêtres de sauvegarde et une réduction tout aussi significative de la bande passante réseau nécessaire à cette opération.

Ces deux caractéristiques rendent envisageables de nouveaux scénarios comme une centralisation de la sauvegarde de données d’un réseau d’agences, méthode à priori plus fiable que celle consistant à laisser à des opérateurs locaux le soin de réaliser cette opération sur des lecteurs de bande.

Déduplication des sauvegardes ou des données source ?

Il existe un grand nombre d’offres de déduplication souvent basées sur des appliances spécialisées elles même couplées avec des lecteurs de sauvegarde.

Traditionnellement, les données à sauvegarder sont transmises à l’appliance de déduplication dont le rôle consiste à identifier les doublons avant la sauvegarde proprement dite. Ces appliances peuvent être vues comme une librairie de bande virtuelle (VTL) par les logiciels de sauvegarde ce qui permet une intégration transparente dans une solution de backup existante, tout en bénéficiant d’une augmentation considérable de la capacité de stockage.

Une approche différente consiste à traiter les données au niveau de la source, c’est-à-dire des serveurs à sauvegarder. On parlera alors de déduplication au fil de l’eau. L’avantage consiste dans la réduction du nombre de données à transmettre et donc dans les économies de bande passante qui en résultent. Cette approche moins aisée à mettre en œuvre trouve sa justification dans des environnements virtualisés ou dans la sauvegarde de postes clients.

Publicités

Discussion

Les commentaires sont fermés.

%d blogueurs aiment cette page :