Une panne sur le SI (système d’information), un piratage, un dégât des eaux… les risques sont multiples. Ils peuvent avoir un impact plus ou moins sérieux sur les activités des entreprises. Des mesures préventives doivent être mises en place pour qu’une reprise après sinistre ou une panne soit la plus rapide possible.
En période de forte activité saisonnière, aucune entreprise ne peut se permettre d’être pénalisée par des temps d’arrêt du SI plus ou moins longs. On entend par « temps d’arrêt » tout événement imprévu qui interrompt la production ou l’activité pendant un certain temps.
À la différence des temps d’arrêt planifiés (mises à niveau des logiciels et du matériel, maintenance planifiée), les temps d’arrêt non planifiés sont le plus souvent causés par une erreur de l’opérateur, une mauvaise maintenance, une erreur matérielle ou logicielle ou encore une surcharge des serveurs.
Comment calculer les coûts réels des arrêts ?
Or toutes les entreprises ne disposent pas en interne d’une équipe informatique toujours disponible ou capable de réparer rapidement une panne sur le SI. D’ailleurs, elle ne peut garantir 100 % de disponibilité et zéro temps d’arrêt. Mais il est essentiel de s’en rapprocher le plus possible.
Plusieurs mesures doivent être prises. Mais en préambule, il convient de calculer le coût en euros des temps d’arrêt. Ils comprennent la perte de productivité du personnel, la perte de production de biens réels, le nombre d’heures-personnes consacrées au rééchelonnement, les coûts imprévus de réparation de l’équipement, le temps passé à satisfaire les clients et les atteintes à la réputation
Lorsque la direction aura constaté le coût de ces temps d’arrêt, elle soutiendra plus facilement une série de mesures préventives :
1- Formez vos employés
L’erreur est souvent humaine. Il est donc important de mettre en place des sessions afin que les collaborateurs comprennent mieux les rouages du SI et ne tombent pas dans les pièges des pirates (temps d’arrêt important dû à un chiffrement de tous les fichiers partagés…).
L’équipe informatique doit également suivre des formations afin de diagnostiquer et résoudre plus rapidement les problèmes sur des serveurs . Enfin, améliorer la documentation est indispensable pour mettre en place une maintenance pertinente et préventive.
2 – Programmez des sauvegardes
On ne le répétera jamais assez, mais il ne faut jamais mettre ses œufs dans le même panier. Des sauvegardes régulières doivent être effectuées en local, mais aussi dans le cloud. Ce dernier a considérablement réduit les coûts de stockage et a rendu la sauvegarde de systèmes entiers beaucoup plus rentable et simple.
Mais il est tout aussi indispensable d’effectuer à intervalles réguliers des tests de restauration. Ils permettront de vérifier deux points : la qualité des données restaurées (sont-elles exploitables immédiatement par exemple ?) et la rapidité de l’opération par le prestataire.
Enfin, ne confondez pas snapshot et sauvegarde. Un snapshot permet de revenir à un état antérieur d’un environnement en cas de mauvaise manipulation. Mais attention, ce n’est pas une sauvegarde ! Il est donc très important de vérifier le RPO (Recovery Point Objective pour connaître la durée de perte de données provoquée par un incident.
3 – Vérifiez les SLA des principaux fournisseurs et partenaires.
La vérification des contrats de niveau de service (SLA-Service Level Agreement) de tous les fournisseurs et partenaires clés auxquels vous faites appel permet de constater les niveaux de disponibilités.
Il est important d’étudier précisément la plage de service garantie. Il s’agit de la durée pendant laquelle le prestataire garantit la disponibilité du service. Ce qui signifie qu’il est engagé à le rétablir dans le délai maximum prévu pour la GTR, ou Garantie de Temps de Rétablissement.
Vérifiez aussi la GTI. La Garantie de temps d’intervention est le délai dans lequel le prestataire garantit qu’il prend en charge l’incident ou la demande.
4 – Utilisez le clustering actif-actif
Des entreprises utilisent des clusters actifs-passifs. Mais cela implique une approche matérielle plus coûteuse, car elle s’appuie sur un ensemble de serveurs redondants qui ne sont mis en ligne que lorsqu’un système primaire tombe en panne.
Les clusters actifs-actifs aident à équilibrer les charges de travail des serveurs sur différents réseaux. Tout en réduisant ainsi le risque de temps d’arrêt en minimisant les surcharges.
5 – Déployez des infrastructures d’équilibrage de charge
La capacité d’adapter et d’équilibrer les charges de travail sur plusieurs serveurs est nécessaire. Afin d’ assurer la rapidité et l’efficacité de différents métiers de l’entreprise.
Il est essentiel pour une organisation de s’assurer que ses infrastructures sont d’abord équilibrées pour faire face à la demande. Et ensuite facilement extensibles.
Ce sera un atout déterminant face à la concurrence.