Les différents évènements survenus ces 15 dernières années tels que les attentats de New-York, l’explosion de l’usine AZF, les tsunamis ou autres séismes, ont mis en exergue la multiplicité des scénarii catastrophes que les entreprises et divers organismes seraient susceptibles de subir.
D’autres incidents, plus mineurs mais plus fréquents, conduisent aux mêmes conséquences en matière de continuité ; parmi eux les incendies, les dégâts des eaux, les problèmes de climatisation.
La mise en place d’un plan de reprise d’activité est la seule préparation efficace qui garantisse la survie de l’entreprise en situation de désastre. Très peu d’entreprises non préparées peuvent se vanter d’être toujours présentes après deux années suivant un sinistre majeur.
Qu’est-ce qu’un plan de reprise d’activité ?
Le PRA (Plan de reprise d’activité), le PCA (Plan de continuité d’activité), le PRI (Plan de reprise informatique), leDRP (Disaster Recovery Plan)… Quel que soit le nom qu’on lui donne, il est le garant de la protection des données d’une entreprise en cas de sinistre majeur sur le datacenter.
Le principe est d’être capable de remonter les applications et services nécessaires au bon fonctionnement de l’entreprise en minimisant les temps d’indisponibilité et les pertes de données.
Il y a plusieurs manières d’adresser un PRA et à plusieurs niveaux :
- Pour les plus petites entreprises détentrices d’un serveur unique portant les rôles d’annuaire, de messagerie et de stockage de fichiers, la solution passe bien souvent par des sauvegardes sur disque dur externe. Ainsi, le responsable peut apporter ce disque dur externe chez lui tous les soirs, et le ramener tous les matins (à noter que deux disques durs seraient alors nécessaires pour effectuer un roulement et ainsi éviter que les données de production et les sauvegardes se retrouvent inutilisables en cas de sinistre en pleine journée).
C’est la solution qui est préconisée pour ce type de société. Elle satisfait les exigences de protection des données de l’entreprise pour un coût accessible à n’importe quelle structure et une simplicité opérationnelle garantie. En revanche, dès que le nombre de serveurs commence à augmenter, les opérations se multiplient, le nombre de disques durs externes aussi et la gestion de ces sauvegardes devient vite compliquée.
- Les plus grosses PME s’orientent plutôt vers une sauvegarde de leurs serveurs sur des bandes couplée à une externalisation de ces dernières sur un site distant (bien souvent chez un prestataire qui s’occupe du transport et de l’hébergement). Cette solution est très populaire depuis une dizaine d’années. Elle a l’avantage d’être une solution d’externalisation des données pour un coût raisonnable, une capacité de stockage évolutive et la possibilité de chiffrer les sauvegardes. Cependant, les inconvénients sont aussi nombreux ; logiciel de sauvegarde compatible, dépendance d’un partenaire externe, nécessité d’avoir un site de reprise qui détient un robot pour lire et restaurer les bandes, temps d’indisponibilité et perte de données importante.
- Enfin, de manière à réduire les RPO et RTO* et ainsi avoir une continuité de la disponibilité des services fournis par la DSI (ou qui s’en approche), un grand nombre d’entreprise se tourne vers un site secondaire relié au site principal via un VPN ou un réseau étendu – bien souvent, il s’agira d’une remote office ou branch office (ROBO). Il s’agit là de la meilleure manière d’adresser un PRA sans avoir à faire appel un hébergeur ou un cloud public. Dans ce contexte, il est possible derépliquer les sauvegardes (pour ne pas toucher aux performances des données de production), de répliquer les baies en asynchrone (pour ne pas impacter la baie répliquée si les données de production venaient à être corrompues) et de répliquer les baies de manière synchrone (pour avoir une perte de données quasi-nulle). Il n’y a pas de Best Practices, la solution choisie dépendra du besoin, de la priorité et de la politique de l’entreprise.
Le PRA est donc la meilleure manière d’adresser la problématique de sinistre majeur sur un datacenter mais n’affranchit pas pour autant les entreprises de sauvegarder leurs données en local. La sauvegarde locale reste très importante pour être capable de faire du versionning, d’augmenter la fréquence, la rétention, de restaurer rapidement des données et, dans le cas d’un ROBO, d’atténuer la charge sur la bande passante.
Conseils et méthodologie de mise en oeuvre
La première étape majeure et incontournable d’un projet de PRA est de rédiger un catalogue de service (qu’il fasse l’objet d’une communication en interne ou non) de manière à classer les applications et services fournis aux utilisateurs par criticité et de définir des SLA par catégorie. Cette étape est indispensable afin de réaliser la seconde partie du plan : l’élaboration de la politique de sauvegarde.
Cette dernière définira, en fonction du catalogue de service, les RPO et RTO par application et par serveur. Elle permettra donc d’établir la fréquence de sauvegarde, le type d’externalisation et, le cas échéant, la manière de répliquer les données.
Il n’est pas nécessaire de multiplier les façons de faire, c’est la meilleure manière de ne plus s’y retrouver ; 4 stratégies différentes constituent un maximum que l’on peut décliner en partant de la sauvegarde et externalisation – ou réplication - une fois par semaine pour les données froides avec un faible taux de modification des données jusqu’à la sauvegarde plusieurs fois par jour avec une réplication synchrone inter-site pour les données et applications critiques dont les RPO et RTO se doivent d’être très faibles.
D’ordinaire, ces différentes stratégies sont nommées Bronze, Silver, Gold et Platinium, en appliquant le plus haut niveau de criticité au métal le plus onéreux.
Une fois le catalogue de service et la politique de sauvegarde établis, il s’agira de mettre en pratique ces documents en sélectionnant les meilleurs produits logiciels et matériels capables de répondre à la stratégie de l’entreprise.
Par ailleurs, une fois les solutions implémentées, il est nécessaire de réaliser un exercice de reprise ou de continuité d’activité régulièrement en le documentant de manière à s’assurer que le plan est viable et à être prêt le jour où un incident majeur devait survenir.
L’élaboration d’un PRA ou PCA est donc un sujet important, quels que soient la taille et le chiffre d’affaires d’une entreprise. Il s’agit d’un réel projet à réaliser en collaboration avec les différents services de la société de manière à définir les SLA et à faire valider par la direction qui est la plus à même de définir ce qui est critique et ce qui l’est moins.
Enfin, il est important de prévoir un plan de reprise des utilisateurs (PRU). Ce dernier peut être proposé via une solution SSL VPN, un site distant sur lequel se trouvent les données répliquées ou encore chez un hébergeur à qui l’entreprise loue des ressources informatiques et un espace de travail pour un pool d’utilisateurs stratégiques.
* le RPO (recovery point objective) dé finit l’âge de la donnée la plus récente que l’on peut restaurer. Si les sauvegardes et externalisations sont réalisées toutes heures, le RPO est de 1 heure.
Le RTO (recovery time objective) définit le temps d’indisponibilité des données en cas de crash.