T-Mobile fejl forårsagede landsdækkende nedbrud, men FCC straffer ikke operatøren

Forstørre / T-Mobile-reklame på Times Square i New York City den 15. oktober 2020.
Getty Images | SOPA Images

The Federal Communications Commission er færdig med at undersøge T-Mobile for en netværksafbrydelse, som formand Ajit Pai kaldte “uacceptabel”. Men i stedet for at straffe mobilselskabet udsender FCC blot en offentlig meddelelse for at “minde” telefonselskaberne om “branchens bedste praksis”, som kunne have forhindret T-Mobiles nedbrud.

Efter det 12 timer lange landsdækkende nedbrud den 15. juni, som afbrød sms- og opkaldstjenester, herunder 911-nødopkald, skrev Pai, at “T-Mobiles netværksnedbrud er uacceptabelt”, og at “FCC iværksætter en undersøgelse”. Vi kræver svar – og det samme gør de amerikanske forbrugere.”

Se mere

Pai har en tradition for at tale hårdt til udbyderne og ikke følge op med sanktioner, der kan have en større afskrækkende effekt end strenge advarsler. Det ser ud til at være det, der skete igen i går, da FCC offentliggjorde resultaterne af sin undersøgelse af T-Mobile. Pai sagde, at “T-Mobiles nedbrud var en fiasko”, fordi operatøren ikke fulgte den bedste praksis, som kunne have forhindret eller minimeret det, men han bebudede ingen straf. Sagen synes at være afsluttet på baggrund af gårsdagens meddelelse, men vi kontaktede formand Pai’s kontor i dag for at spørge, om der er en eventuel straf til T-Mobile på vej. Vi opdaterer denne artikel, hvis vi får et svar.

FCC beskriver T-Mobiles fejltagelser

I rapporten om personaleundersøgelsen blev der identificeret flere fejl begået af T-Mobile under afbrydelsen, som begyndte, da T-Mobile var i gang med at installere nye routere i det sydøstlige USA. Da en fibertransportforbindelse i regionen brød sammen, skulle T-Mobiles netværk have overført trafikken over en anden forbindelse. Men operatøren “havde fejlkonfigureret vægten af forbindelserne til en af sine routere”, hvilket “forhindrede trafikken i at flyde til den nye aktive router som planlagt”. T-Mobile havde ikke implementeret nogen fejlsikret proces til at forhindre fejlkonfigurationen eller til at advare netværksteknikerne om problemet.

Atlanta-markedet “blev isoleret” fra resten af netværket, hvilket fik alle LTE-brugere i området til at miste forbindelsen. En softwarefejl gjorde tingene endnu værre ved at forhindre mobile enheder i Atlanta-området i at genregistrere sig med IP Multimedia Subsystem via Wi-Fi. I stedet for at videresende forsøg på enhedsregistrering til en anden knude, “videresendte registreringssystemet gentagne gange forsøg på genregistrering for hver mobil enhed til den sidste knude, der var registreret i dets optegnelser, som ikke var tilgængelig på grund af markedsisolationen.”

Annonce

Softwarefejlen havde eksisteret i T-Mobiles netværk i flere måneder. “Denne softwarefejl har sandsynligvis ikke forårsaget problemer, før denne afbrydelse opstod, fordi afbrydelsen var den første bemærkelsesværdige markedsisolation, siden T-Mobile integrerede denne software i sit netværk”, sagde FCC. Regelmæssig testning “kunne have opdaget softwarefejlen og fejlkonfigurationen af routing, før de kunne påvirke live-opkald”, sagde FCC også.

Efter problemerne den 15. juni begyndte, “endte T-Mobiles ingeniører med at forværre virkningen, fordi de fejldiagnosticerede problemet”. FCC-rapporten fortsatte:

T-Mobile troede, at den fibertransportforbindelse, der svigtede tidligere på dagen, fortsat var årsag til den igangværende afbrydelse. På baggrund af denne tro lukkede T-Mobile manuelt ned for forbindelsen i et forsøg på at overføre trafik væk fra den. På grund af de stadig fejlkonfigurerede Open Shortest Path First-vægte genskabte disse skridt imidlertid de oprindelige forhold i forbindelse med afbrydelsen. LTE-kunder på Atlanta-markedet blev igen afbrudt fra LTE-netværket og tvunget til at etablere opkald via Wi-Fi, og deres registreringsforsøg mislykkedes igen og skabte en registreringsstorm, der skabte yderligere overbelastning af T-Mobiles IP Multimedia Subsystem.

T-Mobiles teknikere erkendte næsten øjeblikkeligt, at de havde fejldiagnosticeret problemet. De var imidlertid ikke i stand til at løse problemet ved at genoprette forbindelsen, fordi de netværksstyringsværktøjer, der var nødvendige for at gøre det på afstand, var afhængige af de samme stier, som de netop havde deaktiveret. Da T-Mobiles teknikere kunne få adgang til udstyret på stedet og rette deres fejl ved at genskabe forbindelsen en time senere, kunne kunderne på Atlanta-markedet igen forsøge at registrere sig til VoLTE . Dette skabte dog igen yderligere overbelastning, fordi T-Mobiles teknikere endnu ikke havde rettet op på den softwarefejl, der forhindrede registreringerne i at blive gennemført.

Udfaldet går over hele landet

FCC-rapporten forklarede, hvordan udfaldet spredte sig fra Atlanta-markedet og gik over hele landet. Ekstern trafik, der var bestemt for Atlanta-systemet, blev omdirigeret til andre regioner, hvilket “skabte tilstrækkelig overbelastning i disse registreringssystemer til at få T-Mobile-netværket til at sende registreringsforsøgene til andre knudepunkter”. Softwarefejlen omdirigerede igen genregistreringsforsøg til den sidst registrerede knude, som sandsynligvis allerede var alvorligt overbelastet.” Kort efter begyndte “IP Multimedia Subsystem-, VoLTE- og Voice over Wi-Fi-registreringer at mislykkes i hele landet.”

De fleste T-Mobile-kunder kunne ikke oprette forbindelse til Voice over LTE- eller Voice over Wi-Fi-netværk og “faldt derfor tilbage til T-Mobiles 3G- og 2G-kredsløbskoblede netværk for at foretage og modtage opkald, mens enheden fortsatte sine registreringsforsøg til VoLTE-netværket.” Dette resulterede i overbelastning af 3G og 2G, hvilket fik mange telefonopkald til at mislykkes. Netværksnoderne fortsatte med at holde ressourcer til disse opkaldssessioner, efter at opkaldene var afsluttet, hvilket overbelastede knudernes computerressourcer og forårsagede endnu flere fejlslagne opkald.

Annonce

911-opkald kan typisk foretages, selv når mobile enheder ikke kan fuldføre registreringen med IP Multimedia Subsystem, men i dette tilfælde blev 911-opkald påvirket af overbelastningen af 3G- og 2G-netværket, “fordi de samme netværksnoder, der vælger gateways til opkald, der er bestemt for 2G- og 2G-netværk, også vælger gateways til 911-opkald. Da disse knudepunkters computerressourcer blev overbelastet af de opgivne opkaldssessioners ressourcereservationer, fik det også mange 911-opkald til at mislykkes,” sagde FCC.

T-Mobile fortalte FCC, at 23.621 opkald til 911 ikke nåede frem til alarmcentralerne på grund af overbelastning under afbrydelsen. Andre 111.253 nødopkald blev gennemført med succes. Hvis man medregner både 911-opkald og ikke-nødopkald, mislykkedes mindst 41 procent af opkaldene på T-Mobiles netværk under afbrydelsen, sagde FCC.

Dette kunne have været undgået eller minimeret, hvis T-Mobile havde gennemført “rimelig overvågning af 911-netværket”, hvilket “ville have afsløret for T-Mobile i realtid, at afbrydelsen forårsagede blokering af opkald på de administrative linjer til alarmcentralerne”, sagde FCC.

Annonce

T-Mobile har siden da korrigeret de tekniske problemer, der blev identificeret som følge af afbrydelsen, og foretaget andre ændringer for at forhindre eller reducere alvoren af fremtidige afbrydelser, hedder det i Kommissionens rapport.

Hey T-Mobile-please don’t do that again

I en pressemeddelelse i går kritiserede Pai igen T-Mobile. “T-Mobiles nedbrud var en fiasko,” sagde Pai. “Vores personaleundersøgelse viste, at selskabet ikke fulgte flere etablerede bedste praksis for netværkssikkerhed, som enten kunne have forhindret afbrydelsen eller i det mindste have mindsket dens konsekvenser. Alle telekommunikationsudbydere skal sikre, at de overholder relevant bedste praksis i branchen, og jeg opfordrer standardiseringsorganer for netværkssikkerhed til at anvende deres ekspertise på de spørgsmål, der er identificeret i denne rapport med henblik på yderligere undersøgelse.”

Pai annoncerede på trods heraf ingen straf.

Annonce

“I overensstemmelse med tidligere praksis planlægger Bureauet at udsende en offentlig meddelelse baseret på sin analyse af denne og andre nylige udfald, der minder virksomhederne om de i branchen accepterede bedste praksis, herunder dem, der anbefales af FCC’s Communications Security, Reliability, and Interoperability Council, og deres betydning,” sagde FCC. “Desuden vil Bureauet kontakte større transportudbydere for at drøfte deres netværkspraksis og tilbyde hjælp til mindre udbydere for at hjælpe med at sikre, at vores nations kommunikationsnetværk forbliver robuste, pålidelige og modstandsdygtige.”

Dette svarer til det, der skete sidste år, da en undersøgelse fra FCC af mobilselskabernes reaktion på orkanen Michael i Florida viste, at selskaberne ikke fulgte deres egne frivillige roamingforpligtelser, hvilket unødigt forlængede nedbruddene. Pai kaldte selskabernes reaktion på orkanen for “fuldstændig uacceptabel”, men pålagde ingen straf i forbindelse med den dårlige reaktion på orkanen og fortsatte med at stole på frivillige foranstaltninger for at forhindre gentagelser.

Pais FCC lod også Verizon, T-Mobile og US Cellular slippe uden straf efter at have konstateret, at de havde overdrevet deres 4G-dækning i officielle indgivelser. Pai har foreslået bøder til AT&T, Verizon, T-Mobile og Sprint for at straffe selskabernes ulovlige salg af telefonlokaliseringsdata, men bøderne på mellem 12 og 91 millioner dollars pr. selskab blev kritiseret af Demokraterne for ikke at være store nok i forhold til den skade, forbrugerne blev påført.

Skriv et svar

Din e-mailadresse vil ikke blive publiceret.