Federal Communications Commission har avslutat utredningen av T-Mobile för ett nätverksavbrott som ordförande Ajit Pai kallade ”oacceptabelt”. Men i stället för att straffa mobiloperatören utfärdar FCC bara ett offentligt meddelande för att ”påminna” telefonbolagen om ”branschens bästa praxis” som kunde ha förhindrat T-Mobiles avbrott.
Efter det 12 timmar långa, rikstäckande avbrottet den 15 juni, som störde sms- och telefontjänsterna, inklusive 911-nödsamtal, skrev Pai att ”T-Mobiles nätverksavbrott är oacceptabelt” och att ”FCC inleder en utredning”. Vi kräver svar – och det gör de amerikanska konsumenterna också.”
Pai har en historia av att prata hårt med operatörerna och inte följa upp med bestraffningar som skulle kunna ha en större avskräckande effekt än strängt formulerade varningar. Detta verkar vara vad som hände igen i går när FCC tillkännagav resultaten från sin undersökning av T-Mobile. Pai sade att ”T-Mobiles avbrott var ett misslyckande” eftersom operatören inte följde bästa praxis som kunde ha förhindrat eller minimerat avbrottet, men han tillkännagav inget straff. Ärendet verkar vara avslutat baserat på gårdagens tillkännagivande, men vi kontaktade ordförande Pais kontor i dag för att fråga om någon bestraffning av T-Mobile är på gång. Vi uppdaterar denna artikel om vi får ett svar.
FCC beskriver T-Mobiles misstag
I personalutredningsrapporten identifierades flera misstag som gjordes av T-Mobile under avbrottet, som började när T-Mobile installerade nya routrar i sydöstra USA. När en fibertransportlänk i regionen gick sönder borde T-Mobiles nätverk ha överfört trafiken över en annan länk. Men operatören ”hade felkonfigurerat vikten av länkarna till en av sina routrar”, vilket ”hindrade trafiken från att flöda till den nya aktiva routern som det var tänkt”. T-Mobile hade inte infört någon felsäker process för att förhindra felkonfigurationen eller för att varna nätverksingenjörerna för problemet.
Marknaden i Atlanta ”blev isolerad” från resten av nätverket, vilket ledde till att alla LTE-användare i området förlorade sin uppkoppling. Ett programvarufel förvärrade situationen genom att hindra mobila enheter i Atlantaområdet från att omregistrera sig med IP Multimedia Subsystem via Wi-Fi. Istället för att dirigera försök till enhetsregistrering till en annan nod, ”dirigerade registreringssystemet upprepade gånger omregistreringsförsök för varje mobil enhet till den sista noden i dess register, som var otillgänglig på grund av marknadens isolering.”
Mjukvarufelet hade funnits i T-Mobiles nät i flera månader. ”Detta programvarufel orsakade sannolikt inga problem innan detta avbrott inträffade eftersom avbrottet var den första anmärkningsvärda marknadsisoleringen sedan T-Mobile integrerade denna programvara i sitt nät”, sade FCC. Regelbunden testning ”kunde ha upptäckt mjukvarufel och felkonfiguration av routingen innan de kunde påverka levande samtal”, sa FCC också.
När problemen den 15 juni började, ”slutade T-Mobiles tekniker med att förvärra effekterna eftersom de feldiagnostiserade problemet”. FCC-rapporten fortsatte:
T-Mobile trodde att den fibertransportlänk som misslyckades tidigare under dagen fortsatte att orsaka det pågående avbrottet. I tron på detta stängde T-Mobile manuellt av länken i ett försök att överföra trafik från den. På grund av den fortfarande felkonfigurerade Open Shortest Path First-vikten återskapade dessa åtgärder dock de ursprungliga förhållandena för avbrottet. LTE-kunder på Atlanta-marknaden kopplades återigen bort från LTE-nätet och tvingades upprätta samtal via Wi-Fi, och deras registreringsförsök misslyckades återigen och skapade en registreringsstorm som ökade ytterligare överbelastning av T-Mobiles IP Multimedia Subsystem.
T-Mobiles ingenjörer insåg nästan omedelbart att de hade feldiagnostiserat problemet. De kunde dock inte lösa problemet genom att återställa länken eftersom de nätverkshanteringsverktyg som krävdes för att göra det på distans var beroende av samma vägar som de just hade inaktiverat. När T-Mobiles tekniker kunde komma åt utrustningen på plats och rätta till sitt misstag genom att återställa länken en timme senare, kunde kunderna på Atlanta-marknaden återigen försöka registrera sig för VoLTE . Detta skapade dock ytterligare överbelastning eftersom T-Mobiles tekniker ännu inte hade åtgärdat det mjukvarufel som hindrade registreringarna från att slutföras.
Avbrottet går ut över hela landet
FCC-rapporten förklarade hur avbrottet spred sig från Atlanta-marknaden och gick ut över hela landet. Extern trafik som var avsedd för systemet i Atlanta omdirigerades till andra regioner, vilket ”skapade tillräckligt mycket överbelastning i dessa registreringssystem för att få T-Mobile-nätverket att skicka registreringsförsöken till andra noder”. Programvarufelet dirigerade återigen omregistreringsförsöken till den sista noden i registret, som troligen redan hade en allvarlig överbelastning”. Kort därefter började registreringarna av IP Multimedia Subsystem, VoLTE och Voice over Wi-Fi att misslyckas i hela landet.”
Den stora majoriteten av T-Mobiles kunder kunde inte ansluta till Voice over LTE- eller Voice over Wi-Fi-nätverk och ”föll tillbaka till T-Mobiles 3G- och 2G-kretsförmedlade nätverk för att ringa och ta emot samtal, medan enheten fortsatte sina registreringsförsök till VoLTE-nätverket”. Detta resulterade i överbelastning av 3G och 2G, vilket ledde till att många telefonsamtal misslyckades. Nätverksnoderna fortsatte att hålla resurser för dessa samtalssessioner efter att samtalen avslutats, vilket överväldigade nodernas datorresurser och orsakade ännu fler misslyckade samtal.
911-samtal kan vanligtvis genomföras även när mobila enheter inte kan slutföra registreringen med IP Multimedia Subsystem, men i det här fallet påverkades 911-samtalen av 3G- och 2G-nätets överbelastning ”eftersom samma nätverksnoder som väljer gateways för samtal avsedda för 2G- och 2G-nät även väljer gateways för 911-samtal. När dessa noders datorresurser blev överväldigade av övergivna samtalssessioners resursreservationer, ledde det också till att många 911-samtal misslyckades”, säger FCC.
T-Mobile berättade för FCC att 23 621 samtal till 911 inte nådde fram till svarscentraler för den allmänna säkerheten på grund av överbelastning under avbrottet. Ytterligare 111 253 nödsamtal slutfördes framgångsrikt. Om man räknar in både nödsamtal och icke-nödsamtal misslyckades minst 41 procent av samtalen på T-Mobiles nät under avbrottet, sade FCC.
Detta hade kunnat undvikas eller minimeras om T-Mobile hade genomfört ”rimlig övervakning av 911-nätet”, vilket ”skulle ha avslöjat för T-Mobile i realtid att avbrottet orsakade samtalsblockering på de administrativa linjerna till larmcentralerna”, sade FCC.
T-Mobile har sedan dess korrigerat tekniska problem som identifierats på grund av avbrottet och gjort andra förändringar för att förhindra eller minska allvaret av framtida avbrott, enligt kommissionens rapport.
Hej T-Mobile – gör inte om det igen
I ett pressmeddelande igår kritiserade Pai återigen T-Mobile. ”T-Mobiles avbrott var ett misslyckande”, sade Pai. ”Vår personalutredning visade att företaget inte följde flera etablerade bästa metoder för nätverkstillförlitlighet som antingen kunde ha förhindrat avbrottet eller åtminstone mildrat dess konsekvenser. Alla telekomleverantörer måste se till att de följer relevanta bästa praxis inom branschen, och jag uppmuntrar standardiseringsorganen för nätverkstillförlitlighet att tillämpa sin expertis på de frågor som identifierats i den här rapporten för ytterligare studier.”
Trots detta meddelade Pai inget straff.
”I enlighet med tidigare praxis planerar byrån att släppa ett offentligt tillkännagivande, baserat på sin analys av detta och andra nyligen inträffade avbrott, för att påminna företagen om branschens accepterade bästa praxis, inklusive de som rekommenderas av FCC:s råd för kommunikationssäkerhet, tillförlitlighet och driftskompatibilitet, och om deras betydelse”, sade FCC. ”Dessutom kommer byrån att kontakta större transportleverantörer för att diskutera deras nätverksrutiner och erbjuda hjälp till mindre leverantörer för att hjälpa till att se till att vårt lands kommunikationsnätverk förblir robusta, tillförlitliga och motståndskraftiga.”
Detta liknar det som hände förra året när en FCC-utredning av mobiloperatörernas reaktion på orkanen Michael i Florida visade att operatörerna misslyckades med att följa sina egna frivilliga roamingåtaganden, vilket förlängde avbrotten i onödan. Pai kallade operatörernas svar på orkanen för ”helt oacceptabelt”, men utdömde inget straff i samband med den dåliga orkanreaktionen och fortsatte att förlita sig på frivilliga åtgärder för att förhindra upprepningar.
Pais FCC lät också Verizon, T-Mobile och US Cellular slippa undan utan straff efter att ha funnit att de överdrivit sin 4G-täckning i officiella dokument. Pai har föreslagit böter för AT&T, Verizon, T-Mobile och Sprint för att bestraffa operatörernas olagliga försäljning av uppgifter om telefonens lokalisering, men böterna på mellan 12 och 91 miljoner dollar per operatör kritiserades av demokrater för att de inte var tillräckligt stora i förhållande till skadan för konsumenterna.