T-Mobile screwups veroorzaakten landelijke uitval, maar FCC straft carrier niet

Vergroten / T-Mobile advertentie op Times Square in New York City op 15 oktober 2020.
Getty Images | SOPA Images

De Federal Communications Commission is klaar met het onderzoek naar T-Mobile voor een netwerkstoring die voorzitter Ajit Pai “onaanvaardbaar” noemde. Maar in plaats van de mobiele provider te straffen, publiceert de FCC alleen een openbare mededeling om telefoonbedrijven te “herinneren” aan “in de sector geaccepteerde beste praktijken” die de storing bij T-Mobile hadden kunnen voorkomen.

Na de 12 uur durende landelijke storing op 15 juni, die sms- en gespreksdiensten, waaronder noodoproepen naar 911, verstoorde, schreef Pai dat “de storing in het T-Mobile-netwerk onaanvaardbaar is” en dat “de FCC een onderzoek instelt. We eisen antwoorden, en dat geldt ook voor Amerikaanse consumenten.”

View more

Pai heeft een geschiedenis van harde taal tegen luchtvaartmaatschappijen en het niet opvolgen van straffen die een groter afschrikkend effect zouden kunnen hebben dan waarschuwingen in strenge bewoordingen. Dat lijkt gisteren opnieuw het geval te zijn geweest toen de FCC de bevindingen van haar onderzoek naar T-Mobile bekendmaakte. Pai zei dat “T-Mobile’s uitval een mislukking was” omdat de provider niet de beste praktijken had gevolgd die de uitval hadden kunnen voorkomen of minimaliseren, maar hij kondigde geen straf aan. De zaak lijkt gesloten op basis van de aankondiging van gisteren, maar we hebben vandaag contact opgenomen met het kantoor van voorzitter Pai om te vragen of er een straf voor T-Mobile aan zit te komen. We zullen dit artikel bijwerken als we een reactie krijgen.

FCC detailleert T-Mobile fouten

Het onderzoeksrapport van het personeel identificeerde verschillende fouten gemaakt door T-Mobile tijdens de uitval, die begon toen T-Mobile nieuwe routers aan het installeren was in het zuidoosten van de VS. Toen een glasvezeltransportverbinding in de regio uitviel, had het netwerk van T-Mobile het verkeer over een andere verbinding moeten transporteren. Maar de provider “had het gewicht van de links naar een van zijn routers verkeerd geconfigureerd”, waardoor “het verkeer niet naar de nieuwe actieve router kon stromen zoals de bedoeling was”. T-Mobile had geen fail-safe proces geïmplementeerd om de misconfiguratie te voorkomen of om netwerkingenieurs te waarschuwen voor het probleem.

De Atlanta-markt “raakte geïsoleerd” van de rest van het netwerk, waardoor alle LTE-gebruikers in het gebied de connectiviteit verloren. Een softwarefout maakte het nog erger door te voorkomen dat mobiele apparaten in het gebied rond Atlanta zich via Wi-Fi opnieuw konden registreren bij het IP Multimedia Subsystem. In plaats van apparaatregistratiepogingen naar een ander knooppunt te routeren, “rouleerde het registratiesysteem herhaaldelijk herregistratiepogingen voor elk mobiel apparaat naar het laatste knooppunt in zijn administratie, dat niet beschikbaar was als gevolg van de marktisolatie.”

Advertentie

De softwarefout bestond al maanden in het netwerk van T-Mobile. “Deze softwarefout veroorzaakte waarschijnlijk geen problemen voordat deze storing zich voordeed, omdat de storing de eerste opmerkelijke marktisolatie was sinds T-Mobile deze software in zijn netwerk heeft geïntegreerd,” zei de FCC. Regelmatig testen “had de softwarefout en routeringsmisconfiguratie kunnen ontdekken voordat ze live gesprekken konden beïnvloeden,” zei de FCC ook.

Nadat de problemen op 15 juni begonnen, hebben T-Mobile-ingenieurs “uiteindelijk de impact verergerd omdat ze het probleem verkeerd hebben gediagnosticeerd.” Het FCC-rapport vervolgde:

T-Mobile geloofde dat de vezeltransportverbinding die eerder op de dag was uitgevallen, de aanhoudende uitval bleef veroorzaken. Handelend op deze overtuiging, T-Mobile handmatig afsluiten van de link in een poging om het verkeer over te brengen weg van het. Door de nog steeds verkeerd geconfigureerde Open Shortest Path First-gewichten creëerden deze stappen echter opnieuw de oorspronkelijke omstandigheden van de storing. LTE-klanten in de Atlanta-markt werden opnieuw van het LTE-netwerk losgekoppeld en gedwongen gesprekken via Wi-Fi tot stand te brengen, en hun registratiepogingen mislukten opnieuw en veroorzaakten een registratiestorm die het IP Multimedia Subsystem van T-Mobile nog verder overbelastte.

De technici van T-Mobile erkenden vrijwel onmiddellijk dat zij het probleem verkeerd hadden gediagnosticeerd. Zij waren echter niet in staat om het probleem op te lossen door de verbinding te herstellen, omdat de netwerk management tools die nodig waren om dit op afstand te doen, afhankelijk waren van dezelfde paden die zij zojuist hadden uitgeschakeld. Toen de technici van T-Mobile ter plaatse toegang kregen tot de apparatuur en hun fout een uur later konden herstellen door de verbinding te herstellen, konden klanten in de Atlanta-markt opnieuw proberen zich voor VoLTE aan te melden. Dit veroorzaakte echter opnieuw extra congestie omdat T-Mobile-technici de softwarefout nog niet hadden aangepakt die verhinderde dat registraties werden voltooid.

Outage gaat landelijk

Het FCC-rapport legde uit hoe de uitval zich verspreidde van de Atlanta-markt en landelijk ging. Extern verkeer bestemd voor het Atlanta-systeem werd omgeleid naar andere regio’s, wat “voldoende congestie in die registratiesystemen creëerde om het T-Mobile-netwerk ertoe te brengen de registratiepogingen naar andere knooppunten te sturen. De softwarefout leidde de herregistratiepogingen opnieuw naar het laatste geregistreerde knooppunt, dat waarschijnlijk al met ernstige congestie te kampen had”. Kort daarna begonnen “IP Multimedia Subsystem, VoLTE en Voice over Wi-Fi registraties in het hele land te mislukken.”

De overgrote meerderheid van de T-Mobile-klanten kon geen verbinding maken met Voice over LTE- of Voice over Wi-Fi-netwerken en viel dus “terug op de 3G- en 2G-circuitgeschakelde netwerken van T-Mobile om oproepen te plaatsen en te ontvangen, terwijl het toestel doorging met zijn registratiepogingen op het VoLTE-netwerk.” Dit resulteerde in 3G- en 2G-congestie, waardoor veel telefoongesprekken mislukten. Netwerkknooppunten bleven middelen voor deze oproepsessies vasthouden nadat de oproepen waren beëindigd, waardoor de computerbronnen van de knooppunten werden overbelast en er nog meer mislukte oproepen ontstonden.

Advertentie

911-oproepen kunnen normaal gesproken worden gedaan, zelfs wanneer mobiele apparaten de registratie bij het IP Multimedia Subsystem niet kunnen voltooien, maar in dit geval werd 911 getroffen door de congestie van het 3G- en 2G-netwerk “omdat dezelfde netwerkknooppunten die gateways kiezen voor oproepen die bestemd zijn voor 2G- en 2G-netwerken, ook gateways kiezen voor 911-oproepen. Toen de rekenhulpbronnen van die knooppunten werden overweldigd door de resource-reserveringen van afgebroken oproepsessies, zorgde dit er ook voor dat veel 911-oproepen mislukten”, aldus de FCC.

T-Mobile vertelde de FCC dat 23.621 oproepen naar 911 de alarmcentrales niet bereikten als gevolg van congestie tijdens de uitval. Nog eens 111.253 noodoproepen werden met succes afgerond. Inclusief zowel 911- als niet-spoedoproepen, mislukte ten minste 41 procent van de oproepen op het netwerk van T-Mobile tijdens de storing, zei de FCC.

Dit had kunnen worden vermeden of geminimaliseerd als T-Mobile “redelijke 911-netwerkmonitoring” had geïmplementeerd, die “T-Mobile in realtime zou hebben geopenbaard dat de storing oproepblokkering veroorzaakte op administratieve lijnen van PSAP’s,” zei de FCC.

Advertentie

T-Mobile heeft sindsdien technische problemen gecorrigeerd die als gevolg van de uitval zijn geïdentificeerd en andere wijzigingen aangebracht om de ernst van toekomstige uitval te voorkomen of te verminderen, zei het commissierapport.

Hey T-Mobile-please don’t do that again

In een persbericht van gisteren bekritiseerde Pai T-Mobile opnieuw. “De uitval van T-Mobile was een mislukking,” zei Pai. “Uit ons onderzoek is gebleken dat het bedrijf verschillende gevestigde beste praktijken voor netwerkbetrouwbaarheid niet heeft gevolgd die de uitval hadden kunnen voorkomen of op zijn minst de impact ervan hadden kunnen beperken. Alle telecommunicatieproviders moeten ervoor zorgen dat ze zich houden aan relevante beste praktijken in de sector, en ik moedig instanties voor netwerkbetrouwbaarheidsnormen aan om hun expertise toe te passen op de kwesties die in dit rapport zijn geïdentificeerd voor verder onderzoek.”

Desondanks kondigde Pai geen straf aan.

Advertentie

“In overeenstemming met de praktijk in het verleden is het Bureau van plan een openbare kennisgeving te publiceren, gebaseerd op zijn analyse van deze en andere recente uitval, waarin bedrijven worden herinnerd aan door de industrie geaccepteerde beste praktijken, waaronder die welke worden aanbevolen door de Communications Security, Reliability, and Interoperability Council van de FCC, en het belang ervan,” zei de FCC. “Bovendien zal het Bureau contact opnemen met grote transportproviders om hun netwerkpraktijken te bespreken en hulp te bieden aan kleinere providers om ervoor te zorgen dat de communicatienetwerken van onze natie robuust, betrouwbaar en veerkrachtig blijven.”

Dit is vergelijkbaar met wat er vorig jaar gebeurde toen een FCC-onderzoek naar de reactie van mobiele vervoerders op orkaan Michael in Florida aantoonde dat vervoerders zich niet hielden aan hun eigen vrijwillige roamingverbintenissen, waardoor de uitval onnodig werd verlengd. Pai noemde de reacties van de carriers op de orkaan “volledig onaanvaardbaar”, maar legde geen straf op in verband met de slechte orkaanreactie en bleef vertrouwen op vrijwillige maatregelen om herhaling te voorkomen.

De FCC van Pai liet Verizon, T-Mobile en US Cellular ook ongestraft gaan nadat ze hadden vastgesteld dat ze hun 4G-dekking overdreven in officiële ingediende stukken. Pai heeft boetes voorgesteld voor AT&T, Verizon, T-Mobile en Sprint om de illegale verkoop van telefoon-locatiegegevens door de carriers te straffen, maar de boetes van $ 12 miljoen tot $ 91 miljoen per carrier werden bekritiseerd door Democraten als niet groot genoeg in verhouding tot de schade voor de consument.

Geef een antwoord

Het e-mailadres wordt niet gepubliceerd.