A Comissão Federal de Comunicações terminou a investigação da T-Mobile por uma queda de rede que o presidente Ajit Pai chamou de “inaceitável”. Mas ao invés de punir a operadora móvel, a FCC está apenas emitindo um aviso público para “lembrar” as companhias telefônicas das “melhores práticas aceitas pela indústria” que poderiam ter evitado o corte da rede T-Mobile.
Após o corte de 12 horas em todo o país em 15 de junho ter interrompido os serviços de mensagens de texto e ligações, incluindo as chamadas de emergência 911, Pai escreveu que “o corte da rede T-Mobile é inaceitável” e que “a FCC está lançando uma investigação. Estamos exigindo respostas – e os consumidores americanos também”
Pai tem um histórico de falar duro com as operadoras e não acompanhar com punições que podem ter um efeito dissuasor maior do que advertências com palavras severas. Isso parece ser o que aconteceu novamente ontem quando a FCC anunciou os resultados da sua investigação sobre a T-Mobile. Pai disse que “a interrupção da T-Mobile foi um fracasso” porque a operadora não seguiu as melhores práticas que poderiam tê-lo prevenido ou minimizado, mas não anunciou nenhuma punição. O assunto parece estar encerrado com base no anúncio de ontem, mas nós contatamos o escritório do presidente Pai hoje para perguntar se há alguma punição para a T-Mobile. Vamos atualizar este artigo se obtivermos uma resposta.
FCC detalhes erros da T-Mobile
O relatório de investigação da equipe identificou vários erros cometidos pela T-Mobile durante a interrupção, que começou quando a T-Mobile estava instalando novos roteadores no sudeste dos EUA. Quando um link de transporte de fibra na região falhou, a rede da T-Mobile deveria ter transferido tráfego através de um link diferente. Mas a operadora “tinha configurado mal o peso dos links para um de seus roteadores”, o que “impediu que o tráfego fluísse para o novo roteador ativo como pretendido”. A T-Mobile não tinha implementado nenhum processo à prova de falhas para evitar a má configuração ou para alertar os engenheiros de rede para o problema.
O mercado de Atlanta “ficou isolado” do resto da rede, fazendo com que todos os usuários de LTE na área perdessem conectividade. Um erro de software piorou as coisas ao impedir que os dispositivos móveis da área de Atlanta se registrassem novamente com o Subsistema Multimídia IP sobre Wi-Fi. Ao invés de rotear tentativas de registro de dispositivos para um nó diferente, “o sistema de registro roteou repetidamente as tentativas de recadastramento de cada dispositivo móvel para o último nó retido em seus registros, que não estava disponível devido ao isolamento do mercado”
O erro de software já existia na rede da T-Mobile há meses. “Este erro de software provavelmente não causou problemas antes desta interrupção porque a interrupção foi o primeiro isolamento notável do mercado desde que a T-Mobile integrou este software à sua rede”, disse a FCC. Os testes regulares “poderiam ter descoberto a falha de software e a má configuração do roteamento antes que pudessem causar impacto nas chamadas ao vivo”, disse também a FCC.
Após o início dos problemas em 15 de junho, os engenheiros da T-Mobile “acabaram exacerbando o impacto porque diagnosticaram o problema de forma errada”. O relatório da FCC continuou:
T-Mobile acreditava que a ligação de transporte de fibra que falhou no início do dia continuava a causar a interrupção contínua. Agindo nessa crença, a T-Mobile desligou manualmente o link em uma tentativa de transferir o tráfego para longe dele. No entanto, devido aos pesos ainda não configurados do Open Shortest Path First, estes passos recriaram as condições iniciais da interrupção. Os clientes LTE no mercado de Atlanta foram novamente desconectados da rede LTE e forçados a estabelecer chamadas através de Wi-Fi, e suas tentativas de registro falharam novamente e criaram uma tempestade de registro que adicionou mais congestionamento ao Subsistema Multimídia IP da T-Mobile.
T-Mobile engenheiros quase imediatamente reconheceram que tinham diagnosticado mal o problema. No entanto, eles não conseguiram resolver o problema restaurando o link porque as ferramentas de gerenciamento de rede necessárias para fazê-lo remotamente se basearam nos mesmos caminhos que eles tinham acabado de desativar. Quando os engenheiros da T-Mobile conseguiram acessar o equipamento no local e corrigir o erro restaurando o link uma hora depois, os clientes no mercado de Atlanta puderam novamente tentar se registrar na VoLTE . No entanto, isso novamente criou congestionamentos adicionais porque os engenheiros da T-Mobile ainda não tinham resolvido o erro de software que impedia os registros de completar.
Outage goes nationwide
O relatório da FCC explicou como a interrupção se espalhou do mercado de Atlanta, indo para todo o país. O tráfego externo destinado ao sistema de Atlanta foi redirecionado para outras regiões, o que “criou congestionamento suficiente nesses sistemas de registro para que a rede T-Mobile enviasse as tentativas de registro para outros nós”. O erro de software novamente encaminhou as tentativas de recadastramento para o último nó registrado, que provavelmente já estava passando por um grave congestionamento”. Pouco tempo depois, “o Subsistema Multimídia IP, VoLTE e os registros de Voz sobre Wi-Fi começaram a falhar em todo o país”
A grande maioria dos clientes da T-Mobile não conseguiu se conectar às redes de Voz sobre LTE ou Voz sobre Wi-Fi e assim “caiu de volta às redes comutadas em circuito 3G e 2G da T-Mobile para fazer e receber chamadas enquanto o dispositivo continuava suas tentativas de registro na rede VoLTE”. Isto resultou em congestionamentos de 3G e 2G, causando muitas chamadas telefónicas a falhar. Os nós de rede continuaram a manter recursos para essas sessões de chamadas após o término das chamadas, sobrecarregando os recursos computacionais dos nodos e causando ainda mais falhas nas chamadas.
911 chamadas podem ser feitas normalmente mesmo quando os dispositivos móveis não conseguem completar o registro no Subsistema Multimídia IP, mas neste caso, o 911 foi afetado pelo congestionamento da rede 3G e 2G “porque os mesmos nós de rede que escolhem gateways para chamadas destinadas a redes 2G e 2G também escolhem gateways para chamadas 911”. Quando os recursos computacionais desses nós ficaram sobrecarregados pelas reservas de recursos das sessões de chamadas abandonadas, isso também causou a falha de muitas chamadas 911″, disse a FCC.
T-Mobile disse à FCC que 23.621 chamadas para o 911 não chegaram aos pontos de atendimento de segurança pública devido ao congestionamento durante a paralisação. Outras 111.253 chamadas de emergência foram completadas com sucesso. Incluindo tanto as chamadas 911 como as não urgentes, pelo menos 41% das chamadas na rede da T-Mobile falharam durante a interrupção, disse a FCC.
Isso poderia ter sido evitado ou minimizado se a T-Mobile tivesse implementado “monitoramento razoável da rede 911”, que “teria revelado à T-Mobile em tempo real que a interrupção estava causando bloqueio de chamadas nas linhas administrativas do PSAP”, disse a FCC.
T-Mobile corrigiu desde então os problemas técnicos identificados devido à queda de energia e fez outras alterações para prevenir ou reduzir a gravidade de futuras quedas, disse o relatório da comissão.
Hey T-Mobile-por favor não faça isso novamente
Em um comunicado de imprensa ontem, Pai criticou novamente a T-Mobile. “A queda da T-Mobile foi um fracasso”, disse Pai. “Nossa investigação de pessoal descobriu que a empresa não seguiu várias boas práticas de confiabilidade de rede estabelecidas que poderiam ter evitado a interrupção ou pelo menos mitigado o seu impacto”. Todos os provedores de telecomunicações devem garantir que estão aderindo às melhores práticas relevantes do setor, e eu encorajo os órgãos de padrões de confiabilidade de rede a aplicarem seus conhecimentos especializados nas questões identificadas neste relatório para um estudo mais aprofundado”
Embora isso, Pai não anunciou nenhuma punição.
“De acordo com a prática passada, o Bureau planeja lançar um Aviso Público, com base em sua análise desta e de outras interrupções recentes, lembrando as empresas das melhores práticas aceitas pela indústria, incluindo as recomendadas pelo Conselho de Segurança, Confiabilidade e Interoperabilidade de Comunicações da FCC, e sua importância”, disse a FCC. “Além disso, o Bureau entrará em contato com os principais provedores de transporte para discutir suas práticas de rede e oferecer assistência aos provedores menores para ajudar a garantir que as redes de comunicação do nosso país permaneçam robustas, confiáveis e resilientes”, disse a FCC. Pai chamou as respostas das operadoras ao furacão de “completamente inaceitáveis”, mas não impôs nenhuma punição relacionada à resposta ruim do furacão e continuou confiando em medidas voluntárias para evitar recidivas.
A FCC da Pai também permitiu que Verizon, T-Mobile e US Cellular saíssem sem nenhuma punição após descobrir que exageraram sua cobertura de 4G em registros oficiais. Pai propôs multas para AT&T, Verizon, T-Mobile, e Sprint para punir as vendas ilegais de dados de localização telefônica das operadoras, mas as penalidades de $12 milhões a $91 milhões por operadora foram criticadas pelos Democratas como não suficientemente grandes em relação ao dano aos consumidores.