Problème plateforme de téléphonie / Issue with telephony platform
Incident Report for Ubity
Postmortem

(english below)

*Panne du 10 septembre 2018 *

Le 10 septembre 2018 de 11h45 à 13h06, nous avons éprouvé des problèmes affectant notre plateforme de téléphonie qui a eu pour effet d’une incapacité complète à initier et recevoir des appels.

*Cause *

La panne a été provoquée alors que l’un de nos deux routeurs de tête est soudainement tombé en panne. Pour une raison encore inconnue à ce moment-ci, le routeur secondaire dont le rôle est d’assurer la redondance n’a pas pris le relais. Toutes tentatives de connexions à distance étant vaines, nous avons dû déployer l’un de nos techniciens au centre de données qui s’est afféré à remettre en production le routeur secondaire et ainsi restaurer tous les services.

Le transfert vers notre site de relève après sinistre n’a pas été retenu comme solution considérant que nous avions identifié la cause du problème et que le temps de résolution se devait d’être plus court, ce qui n’a pas été le cas.

*Mesure de mitigation *

Après un simple redémarrage, le routeur primaire est à nouveau fonctionnel. Naturellement, il est maintenant secondaire et sous investigation par le manufacturier. Nous croyons qu’une mise à jour logicielle sera nécessaire et nous vous informerons de la suite des évènements.

En ce qui concerne le balancement vers le routeur de relève en cas de panne : Nous procéderons dans les prochains jours/semaines, à une analyse complète de notre configuration et nous procéderons à des tests de simulation de panne de ces routeurs afin d’éprouver la fiabilité de notre infrastructure. Soyez assuré que ces tests seront effectués pendant la nuit et vous serez comme à l’habitude avisée du moment précis de ces tests.

Les pannes de ce type sont une atteinte à notre fierté. Nous réitérons notre engagement à consacrer tous nos efforts à offrir un service sans faille et à conserver votre respect et confiance.

*****

 *Outage of September 10, 2018 *

On September 10, 2018, from 11:45 a.m. to 1:06 p.m., we experienced problems with our telephone platform that resulted in a complete inability to initiate and receive calls.

*Cause *

The failure was caused when one of our two core routers suddenly stopped working. For a reason that is still unknown at this time, the secondary router whose role is to provide redundancy has not taken over as it should.

All attempts at remote connections were unsuccessful, so we had to deploy one of our technicians to our data center, who then put the secondary router in production and restore all services.

The transfer to our disaster recovery site was not chosen as a solution, considering that we had identified the cause of the problem and that the resolution time would be shorter, which was not the case.

*Mitigation measure *

After a simple reboot, the primary router is now functional again. Naturally, it is now secondary and under investigation by the manufacturer. We believe that a software update will be required and we will inform you of the upcoming event.

As for the fail over solution: In the coming days/weeks, we will conduct a complete configuration analysis and failure simulation tests of these routers to test the reliability of our infrastructure. Be assured that these tests will be carried out during the night and you will be informed as usual of the exact time of these tests.

Posted 7 months ago. Sep 12, 2018 - 15:03 EDT

Resolved
(english below)

Cher client,

Nous avons éprouvé plus tôt aujourd'hui des problèmes affectant une partie de notre plateforme de téléphonie. Les effets de cette problématique auraient pu se traduire en des problèmes de qualité sonore, des délais anormaux, ou une incapacité à initier ou recevoir des appels vers l'extérieur et entre postes.

Après avoir identifié la source du problème, notre équipe technique s'est rapidement affairée à appliquer un correctif dans le but de rétablir le service. Au moment d'écrire ces lignes, le problème devrait être résolu et le service complètement rétabli.

Un rapport de panne plus complet vous sera fourni dans les prochaines 24 à 48 heures.

Nous sommes terriblement désolés des inconvénients que cette situation aurait pu vous causer, et vous remercions de votre compréhension.

Composante(s) affectée(s): Business Voice — Canada

***

Dear customer,

We have experienced issues earlier today that have impacted our telephony platform and could have resulted in problems ranging from audio quality issues, abnormal delays, or an incapacity to initiate and/or receive either internal or external calls.

After having identified the cause of the issue, our technical team has quickly applied corrective measures in order to restore service to our customers. At the time of writing, the issue had been resolved and the service fully restored.

We will provide a more complete outage report in the next 24 to 48 hours.

We are terribly sorry for the inconveniences that this outage is causing your business, and thank you for your understanding.

Affected component(s): Business Voice — Canada
Posted 8 months ago. Sep 10, 2018 - 14:50 EDT
Update
(english below)

Cher client,

Après avoir identifié un problème avec la plateforme de téléphonie plus tôt aujourd'hui, notre équipe technique a dû rapidement appliquer un correctif dans le but de rétablir le service de nos clients.

Bien que l'application de ce correctif ait résolu la problématique, nous continuons pour le moment de surveiller la stabilité des composantes ayant été affectées.

Nous vous tiendrons informés de la suite sous peu.

Composante(s) affectée(s): Business Voice — Canada

***

Dear customer,

After an issue with our telephony platform was identified earlier today, our technical team had to quickly apply corrective measures in order to restore service to our customers.

Although service has now been fully restored, we are still monitoring the components that were affected by this issue and looking for any signs of instability.

We will keep you updated shortly.

Affected component(s): Business Voice — Canada
Posted 8 months ago. Sep 10, 2018 - 13:05 EDT
Update
We are continuing to investigate this issue.
Posted 8 months ago. Sep 10, 2018 - 12:06 EDT
Investigating
(english below)

Cher client,

Nous éprouvons présentement un problème sur notre plateforme de téléphonie qui pourrait se traduire en des problèmes de qualité sonore, des délais anormaux, ou encore une incapacité à initier et/ou recevoir des appels soit vers l'extérieur ou entre postes.

Notre équipe technique s'affaire à identifier la cause exacte de cette problématique et à rétablir le service le plus rapidement possible.

Plus de détails suivront sous peu.

Composante(s) affectée(s): Business Voice — Canada, Business Voice — United States

***

Dear customer,

We are currently experiencing an issue with our telephony platform that could translate into either audio quality issues, abnormal delays, and/or an incapacity to initiate or receive internal or external calls.

Our technical team is working on identifying the root cause of the issue and restoring service as quickly as possible.

More information will follow.

Affected component(s): Business Voice — Canada, Business Voice — United States
Posted 8 months ago. Sep 10, 2018 - 12:01 EDT