|
| |
|
---|
(english below)
*Panne du 10 septembre 2018 *
Le 10 septembre 2018 de 11h45 à 13h06, nous avons éprouvé des problèmes affectant notre plateforme de téléphonie qui a eu pour effet d’une incapacité complète à initier et recevoir des appels.
*Cause *
La panne a été provoquée alors que l’un de nos deux routeurs de tête est soudainement tombé en panne. Pour une raison encore inconnue à ce moment-ci, le routeur secondaire dont le rôle est d’assurer la redondance n’a pas pris le relais. Toutes tentatives de connexions à distance étant vaines, nous avons dû déployer l’un de nos techniciens au centre de données qui s’est afféré à remettre en production le routeur secondaire et ainsi restaurer tous les services.
Le transfert vers notre site de relève après sinistre n’a pas été retenu comme solution considérant que nous avions identifié la cause du problème et que le temps de résolution se devait d’être plus court, ce qui n’a pas été le cas.
*Mesure de mitigation *
Après un simple redémarrage, le routeur primaire est à nouveau fonctionnel. Naturellement, il est maintenant secondaire et sous investigation par le manufacturier. Nous croyons qu’une mise à jour logicielle sera nécessaire et nous vous informerons de la suite des évènements.
En ce qui concerne le balancement vers le routeur de relève en cas de panne : Nous procéderons dans les prochains jours/semaines, à une analyse complète de notre configuration et nous procéderons à des tests de simulation de panne de ces routeurs afin d’éprouver la fiabilité de notre infrastructure. Soyez assuré que ces tests seront effectués pendant la nuit et vous serez comme à l’habitude avisée du moment précis de ces tests.
Les pannes de ce type sont une atteinte à notre fierté. Nous réitérons notre engagement à consacrer tous nos efforts à offrir un service sans faille et à conserver votre respect et confiance.
*****
*Outage of September 10, 2018 *
On September 10, 2018, from 11:45 a.m. to 1:06 p.m., we experienced problems with our telephone platform that resulted in a complete inability to initiate and receive calls.
*Cause *
The failure was caused when one of our two core routers suddenly stopped working. For a reason that is still unknown at this time, the secondary router whose role is to provide redundancy has not taken over as it should.
All attempts at remote connections were unsuccessful, so we had to deploy one of our technicians to our data center, who then put the secondary router in production and restore all services.
The transfer to our disaster recovery site was not chosen as a solution, considering that we had identified the cause of the problem and that the resolution time would be shorter, which was not the case.
*Mitigation measure *
After a simple reboot, the primary router is now functional again. Naturally, it is now secondary and under investigation by the manufacturer. We believe that a software update will be required and we will inform you of the upcoming event.
As for the fail over solution: In the coming days/weeks, we will conduct a complete configuration analysis and failure simulation tests of these routers to test the reliability of our infrastructure. Be assured that these tests will be carried out during the night and you will be informed as usual of the exact time of these tests.