La Federal Communications Commission ha finito di indagare su T-Mobile per un’interruzione di rete che il presidente Ajit Pai ha definito “inaccettabile”. Ma invece di punire il vettore di telefonia mobile, la FCC sta semplicemente emettendo un avviso pubblico per “ricordare” alle compagnie telefoniche le “migliori pratiche accettate dall’industria” che avrebbero potuto prevenire l’interruzione di T-Mobile.
Dopo l’interruzione di 12 ore a livello nazionale il 15 giugno ha interrotto i servizi di sms e chiamate, comprese le chiamate di emergenza 911, Pai ha scritto che “l’interruzione della rete T-Mobile è inaccettabile” e che “la FCC sta avviando un’indagine.
Pai ha una storia di parlare duro con i vettori e non seguire con punizioni che potrebbero avere un effetto deterrente maggiore di avvertimenti severi. Questo sembra essere quello che è successo di nuovo ieri quando la FCC ha annunciato i risultati della sua indagine su T-Mobile. Pai ha detto che “l’interruzione di T-Mobile è stata un fallimento” perché il vettore non ha seguito le migliori pratiche che avrebbero potuto prevenire o minimizzare, ma non ha annunciato alcuna punizione. La questione sembra essere chiusa in base all’annuncio di ieri, ma abbiamo contattato l’ufficio del presidente Pai oggi per chiedere se è prevista una punizione per T-Mobile. Aggiorneremo questo articolo se avremo una risposta.
FCC dettaglia gli errori di T-Mobile
Il rapporto d’indagine dello staff ha identificato diversi errori fatti da T-Mobile durante l’interruzione, iniziata mentre T-Mobile stava installando nuovi router nel sud-est degli Stati Uniti. Quando un collegamento di trasporto in fibra nella regione è fallito, la rete di T-Mobile avrebbe dovuto trasferire il traffico attraverso un collegamento diverso. Ma il vettore “aveva mal configurato il peso dei collegamenti a uno dei suoi router”, che “ha impedito al traffico di fluire verso il nuovo router attivo come previsto”. T-Mobile non aveva implementato alcun processo fail-safe per prevenire la configurazione errata o per avvisare gli ingegneri di rete del problema.
Il mercato di Atlanta “si è isolato” dal resto della rete, causando a tutti gli utenti LTE nella zona di perdere la connettività. Un errore del software ha peggiorato le cose impedendo ai dispositivi mobili nell’area di Atlanta di registrarsi nuovamente con l’IP Multimedia Subsystem tramite Wi-Fi. Invece di instradare i tentativi di registrazione del dispositivo a un nodo diverso, “il sistema di registrazione ha ripetutamente instradato i tentativi di ri-registrazione per ogni dispositivo mobile all’ultimo nodo conservato nei suoi record, che non era disponibile a causa dell’isolamento del mercato.”
L’errore software esisteva nella rete di T-Mobile da mesi. “Questo errore software probabilmente non ha causato problemi prima di questa interruzione si è verificato perché l’interruzione è stato il primo isolamento del mercato notevole da quando T-Mobile ha integrato questo software nella sua rete”, ha detto la FCC. Test regolari “avrebbero potuto scoprire il difetto del software e la cattiva configurazione del routing prima che potessero avere un impatto sulle chiamate dal vivo”, ha detto anche la FCC.
Dopo l’inizio dei problemi il 15 giugno, gli ingegneri di T-Mobile “hanno finito per esacerbare l’impatto perché hanno sbagliato la diagnosi del problema”. Il rapporto della FCC ha continuato:
T-Mobile ha creduto che il collegamento di trasporto in fibra che è fallito all’inizio della giornata stava continuando a causare l’interruzione in corso. Agendo su questa convinzione, T-Mobile ha spento manualmente il collegamento nel tentativo di trasferire il traffico da esso. A causa dei pesi ancora mal configurati di Open Shortest Path First, tuttavia, questi passi hanno ricreato le condizioni iniziali del guasto. I clienti LTE nel mercato di Atlanta sono stati nuovamente disconnessi dalla rete LTE e costretti a stabilire le chiamate su Wi-Fi, e i loro tentativi di registrazione sono nuovamente falliti e hanno creato una tempesta di registrazione che ha aggiunto ulteriore congestione all’IP Multimedia Subsystem di T-Mobile.
I tecnici di T-Mobile hanno riconosciuto quasi immediatamente di aver sbagliato la diagnosi del problema. Tuttavia, non sono stati in grado di risolvere il problema ripristinando il collegamento perché gli strumenti di gestione della rete necessari per farlo da remoto si basavano sugli stessi percorsi che avevano appena disattivato. Quando gli ingegneri di T-Mobile sono stati in grado di accedere alle apparecchiature in loco e correggere il loro errore ripristinando il collegamento un’ora dopo, i clienti del mercato di Atlanta sono stati di nuovo in grado di tentare di registrarsi a VoLTE. Tuttavia, questo ha nuovamente creato un’ulteriore congestione perché gli ingegneri di T-Mobile non avevano ancora affrontato l’errore del software che ha impedito il completamento delle registrazioni.
L’interruzione si estende a tutta la nazione
Il rapporto della FCC ha spiegato come l’interruzione si è diffusa dal mercato di Atlanta, andando a livello nazionale. Il traffico esterno destinato al sistema di Atlanta è stato reindirizzato ad altre regioni, che “ha creato abbastanza congestione in quei sistemi di registrazione per causare la rete T-Mobile per inviare i tentativi di registrazione ad altri nodi. L’errore del software ha nuovamente instradato i tentativi di ri-registrazione all’ultimo nodo in registrazione, che probabilmente stava già vivendo una grave congestione”. Poco dopo, “IP Multimedia Subsystem, VoLTE e Voice over Wi-Fi le registrazioni hanno cominciato a fallire in tutta la nazione.”
La stragrande maggioranza dei clienti di T-Mobile non sono stati in grado di connettersi a Voice over LTE o Voice over Wi-Fi e quindi “è ricaduta sulle reti a commutazione di circuito 3G e 2G di T-Mobile per effettuare e ricevere chiamate mentre il dispositivo ha continuato i suoi tentativi di registrazione alla rete VoLTE.” Questo ha provocato una congestione 3G e 2G, causando il fallimento di molte telefonate. I nodi di rete hanno continuato a mantenere le risorse per queste sessioni di chiamata dopo che le chiamate sono terminate, sovraccaricando le risorse di calcolo dei nodi e causando ancora più fallimenti delle chiamate.
Le chiamate 911 possono tipicamente essere effettuate anche quando i dispositivi mobili non possono completare la registrazione con l’IP Multimedia Subsystem, ma in questo caso, il 911 è stato influenzato dalla congestione della rete 3G e 2G “perché gli stessi nodi di rete che scelgono i gateway per le chiamate destinate alle reti 2G e 2G scelgono anche i gateway per le chiamate 911. Quando le risorse di calcolo di quei nodi sono state sopraffatte dalle prenotazioni di risorse delle sessioni di chiamata abbandonate, ha anche causato il fallimento di molte chiamate al 911”, ha detto la FCC.
T-Mobile ha detto alla FCC che 23.621 chiamate al 911 non hanno raggiunto i punti di risposta di sicurezza pubblica a causa della congestione durante l’interruzione. Altre 111.253 chiamate di emergenza sono state completate con successo. Comprese le chiamate 911 e non di emergenza, almeno il 41% delle chiamate sulla rete di T-Mobile non è riuscito durante l’interruzione, la FCC ha detto.
Questo avrebbe potuto essere evitato o ridotto al minimo se T-Mobile avesse implementato “un ragionevole monitoraggio della rete 911”, che “avrebbe rivelato a T-Mobile in tempo reale che l’interruzione stava causando il blocco delle chiamate sulle linee amministrative PSAP”, la FCC ha detto.
T-Mobile da allora ha corretto i problemi tecnici identificati a causa del guasto e ha fatto altri cambiamenti per prevenire o ridurre la gravità delle interruzioni future, il rapporto della commissione ha detto.
Hey T-Mobile-per favore non farlo di nuovo
In un comunicato stampa di ieri, Pai ha nuovamente criticato T-Mobile. “L’interruzione di T-Mobile è stata un fallimento”, ha detto Pai. “La nostra indagine del personale ha scoperto che l’azienda non ha seguito diverse buone pratiche di affidabilità della rete che avrebbero potuto prevenire l’interruzione o almeno mitigare il suo impatto. Tutti i fornitori di telecomunicazioni devono assicurarsi di aderire alle migliori pratiche del settore, e incoraggio gli organismi di standard di affidabilità della rete ad applicare la loro esperienza alle questioni identificate in questo rapporto per ulteriori studi.”
Nonostante ciò, Pai non ha annunciato alcuna punizione.
“In linea con la pratica passata, l’Ufficio prevede di rilasciare un avviso pubblico, basato sulla sua analisi di questo e altri recenti guasti, ricordando alle aziende le migliori pratiche accettate dal settore, comprese quelle raccomandate dal Consiglio per la sicurezza delle comunicazioni, l’affidabilità e l’interoperabilità della FCC, e la loro importanza”, ha detto la FCC. “Inoltre, l’ufficio contatterà i principali fornitori di trasporto per discutere le loro pratiche di rete e offrire assistenza ai fornitori più piccoli per contribuire a garantire che le reti di comunicazione della nostra nazione rimangano robuste, affidabili e resistenti.”
Questo è simile a quello che è successo l’anno scorso quando un’indagine della FCC sulla risposta dei vettori mobili all’uragano Michael in Florida ha scoperto che i vettori non sono riusciti a seguire i loro impegni volontari di roaming, prolungando inutilmente le interruzioni. Pai ha chiamato le risposte dei vettori all’uragano “completamente inaccettabili”, ma non ha imposto alcuna punizione relativa alla cattiva risposta all’uragano e ha continuato a fare affidamento su misure volontarie per evitare il ripetersi.
La FCC di Pai ha anche lasciato andare Verizon, T-Mobile e US Cellular senza alcuna punizione dopo aver scoperto che hanno esagerato la loro copertura 4G in documenti ufficiali. Pai ha proposto multe per AT&T, Verizon, T-Mobile e Sprint per punire le vendite illegali di dati di localizzazione dei telefoni da parte dei vettori, ma le sanzioni da 12 a 91 milioni di dollari per vettore sono state criticate dai democratici come non abbastanza grandi rispetto al danno per i consumatori.