T-Mobile screwups caused nationwide outage, but FCC isn’t punishing carrier

Enlarge / Reklama T-Mobile na Times Square w Nowym Jorku 15 października 2020 r.
Getty Images | SOPA Images

Federalna Komisja Łączności zakończyła dochodzenie w sprawie T-Mobile za awarię sieci, którą przewodniczący Ajit Pai nazwał „niedopuszczalną”. Ale zamiast karać przewoźnika komórkowego, FCC jest tylko wydanie publicznego zawiadomienia, aby „przypomnieć” firmy telefoniczne z „przemysłu akceptowanych najlepszych praktyk”, które mogłyby zapobiec T-Mobile outage.

Po 12-godzinnej ogólnokrajowej przerwy w dniu 15 czerwca zakłócił SMS-ów i usług telefonicznych, w tym 911 połączeń alarmowych, Pai napisał, że „T-Mobile awarii sieci jest nie do przyjęcia” i że „FCC rozpoczyna dochodzenie. Jesteśmy żądając odpowiedzi – i tak są amerykańscy konsumenci.”

View more

Pai ma historię mówienia ciężko z przewoźnikami i nie po karach, które mogą mieć większy efekt odstraszania niż surowo sformułowane ostrzeżenia. To wydaje się być to, co stało się ponownie wczoraj, gdy FCC ogłosił ustalenia z dochodzenia w sprawie T-Mobile. Pai powiedział, że „T-Mobile’s outage była awaria”, ponieważ przewoźnik nie przestrzegać najlepszych praktyk, które mogłyby zapobiec lub zminimalizować go, ale ogłosił żadnej kary. Sprawa wydaje się być zamknięta na podstawie wczorajszego ogłoszenia, ale skontaktowaliśmy się z biurem przewodniczącego Pai dziś zapytać, czy jakakolwiek kara T-Mobile jest nadchodzące. Będziemy aktualizować ten artykuł, jeśli dostaniemy response.

FCC szczegóły T-Mobile błędy

Raport staff-investigation zidentyfikowane kilka błędów popełnionych przez T-Mobile podczas outage, który rozpoczął się jako T-Mobile był instalowanie nowych routerów w południowo-wschodniej USA. Kiedy łącze światłowodowe w tym regionie uległo awarii, sieć T-Mobile powinna była przenieść ruch na inne łącze. Ale przewoźnik „miał źle skonfigurowane wagi łączy do jednego z jego routerów,” który „uniemożliwił ruch z przepływu do nowego aktywnego routera zgodnie z przeznaczeniem.” T-Mobile nie wdrożył żadnego procesu awaryjnego, aby zapobiec błędnej konfiguracji lub do ostrzegania inżynierów sieci do problemu.

Rynek Atlanta „stał się odizolowany” od reszty sieci, powodując wszystkich użytkowników LTE w tym obszarze, aby stracić łączność. Błąd w oprogramowaniu pogorszył sytuację, uniemożliwiając urządzeniom mobilnym w rejonie Atlanty ponowną rejestrację w Podsystemie Multimedialnym IP przez Wi-Fi. Zamiast kierować próby rejestracji urządzeń do innego węzła, „system rejestracji wielokrotnie kierował próby ponownej rejestracji dla każdego urządzenia mobilnego do ostatniego węzła zachowanego w jego rejestrach, który był niedostępny ze względu na izolację rynku.”

Reklama

Błąd oprogramowania istniał w sieci T-Mobile od miesięcy. „Ten błąd oprogramowania prawdopodobnie nie powodować problemy przed tym przestoju wystąpił, ponieważ przestój był pierwszy zauważalny izolacji rynku od T-Mobile zintegrowane to oprogramowanie do swojej sieci,” FCC powiedział. Regularne testy „mógł odkryć wadę oprogramowania i routingu błędnej konfiguracji, zanim mogły one wpływać na żywo połączeń,” FCC również powiedział.

Po kłopoty na 15 czerwca rozpoczął, inżynierowie T-Mobile „skończyło się pogorszenie wpływu, ponieważ błędnie zdiagnozowano problem.” Raport FCC kontynuował:

T-Mobile wierzył, że połączenie transportowe włókna, które nie powiodło się wcześniej w dzień był nadal powodować trwającą przerwę. Działając w oparciu o to przekonanie, T-Mobile ręcznie wyłączył łącze, próbując przenieść ruch z dala od niego. Jednak ze względu na wciąż nieskonfigurowane wagi Open Shortest Path First, te kroki odtworzyły początkowe warunki awarii. Klienci LTE na rynku w Atlancie zostali ponownie odłączeni od sieci LTE i zmuszeni do nawiązywania połączeń przez Wi-Fi, a ich próby rejestracji ponownie zakończyły się niepowodzeniem i wywołały burzę rejestracyjną, która spowodowała dalsze przeciążenie Podsystemu IP Multimedia T-Mobile.

Inżynierowie T-Mobile niemal natychmiast zauważyli, że źle zdiagnozowali problem. Jednakże, nie byli w stanie rozwiązać problemu poprzez przywrócenie łącza, ponieważ narzędzia do zarządzania siecią wymagane do tego zdalnie opierały się na tych samych ścieżkach, które właśnie wyłączyli. Kiedy inżynierowie T-Mobile byli w stanie uzyskać dostęp do sprzętu na miejscu i naprawić swój błąd poprzez przywrócenie łącza godzinę później, klienci na rynku w Atlancie mogli ponownie próbować zarejestrować się do VoLTE . Jednak to ponownie stworzyło dodatkowe zatory, ponieważ inżynierowie T-Mobile nie zajęli się jeszcze błędem oprogramowania, który uniemożliwił ukończenie rejestracji.

Outage goes nationwide

The FCC report explained how the outage spread from the Atlanta market, going nationwide. Ruch zewnętrzny przeznaczony dla systemu w Atlancie został przekierowany do innych regionów, co „stworzyło wystarczające zatłoczenie w tych systemach rejestracyjnych, aby spowodować, że sieć T-Mobile wyśle próby rejestracji do innych węzłów”. Błąd oprogramowania ponownie skierował próby ponownej rejestracji do ostatniego zarejestrowanego węzła, który prawdopodobnie już doświadczał poważnego przeciążenia.” Wkrótce potem, „rejestracja IP Multimedia Subsystem, VoLTE i Voice over Wi-Fi zaczęła kończyć się niepowodzeniem w całym kraju.”

Zdecydowana większość klientów T-Mobile nie była w stanie połączyć się z sieciami Voice over LTE lub Voice over Wi-Fi i w związku z tym „powróciła do sieci 3G i 2G T-Mobile z przełączaniem obwodów, aby wykonywać i odbierać połączenia, podczas gdy urządzenie kontynuowało próby rejestracji w sieci VoLTE.” Spowodowało to przeciążenie sieci 3G i 2G, powodując, że wiele połączeń telefonicznych zakończyło się niepowodzeniem. Węzły sieciowe nadal utrzymywały zasoby dla tych sesji połączeń po zakończeniu połączeń, przeciążając zasoby obliczeniowe węzłów i powodując jeszcze więcej niepowodzeń połączeń.

Reklama

Połączenia 911 mogą być zazwyczaj wykonywane nawet wtedy, gdy urządzenia mobilne nie mogą dokończyć rejestracji w Podsystemie Multimedialnym IP, ale w tym przypadku na połączenia 911 miały wpływ przeciążenia sieci 3G i 2G, „ponieważ te same węzły sieci, które wybierają bramy dla połączeń przeznaczonych dla sieci 2G i 2G, wybierają również bramy dla połączeń 911. Kiedy te zasoby obliczeniowe węzłów stał się przytłoczony przez porzuconych sesji połączeń rezerwacji zasobów, to również spowodowało wiele 911 połączeń do awarii,” FCC powiedział.

T-Mobile powiedział FCC, że 23,621 połączeń do 911 nie dotarł do punktów odbioru bezpieczeństwa publicznego z powodu zatorów podczas przerwy. Innym 111,253 połączeń alarmowych zostały pomyślnie zakończone. W tym zarówno 911 i połączeń innych niż alarmowe, co najmniej 41 procent połączeń w sieci T-Mobile nie powiodło się podczas awarii, FCC powiedział.

To można było uniknąć lub zminimalizować, jeśli T-Mobile wprowadził „rozsądne 911 monitorowania sieci,” który „ujawniłby T-Mobile w czasie rzeczywistym, że awaria była przyczyną blokowania połączeń na liniach administracyjnych PSAP,” FCC powiedział.

Reklama

T-Mobile od tego czasu poprawił problemy techniczne zidentyfikowane z powodu awarii i dokonał innych zmian w celu zapobiegania lub zmniejszenia dotkliwości przyszłych awarii, raport komisji said.

Hey T-Mobile-please don’t do that again

W komunikacie prasowym wczoraj, Pai ponownie skrytykował T-Mobile. „T-Mobile’s outage był porażką”, powiedział Pai. „Nasze dochodzenie pracowników okazało się, że firma nie przestrzegać kilku ustalonych niezawodności sieci najlepsze praktyki, które mogłyby albo zapobiec awarii lub przynajmniej złagodzić jego wpływ. Wszyscy dostawcy usług telekomunikacyjnych muszą zapewnić, że przestrzegają odpowiednich najlepszych praktyk branżowych, a ja zachęcam organy normalizacyjne niezawodności sieci, aby zastosować swoje doświadczenie w kwestiach określonych w tym raporcie do dalszego badania.”

Mimo to, Pai ogłosił brak kary.

Reklama

„Zgodnie z dotychczasową praktyką, Biuro planuje wydać publiczne zawiadomienie, w oparciu o jego analizę tego i innych ostatnich awarii, przypominając firmom z branży akceptowanych najlepszych praktyk, w tym tych zalecanych przez FCC w Bezpieczeństwo łączności, niezawodności i interoperacyjności Rady, a ich znaczenie,” FCC powiedział. „Ponadto Biuro skontaktuje się z głównymi dostawcami usług transportowych, aby omówić ich praktyki sieciowe i oferują pomoc mniejszym dostawcom, aby pomóc zapewnić, że nasz naród sieci łączności pozostają solidne, niezawodne i odporne.”

Jest to podobne do tego, co stało się w zeszłym roku, gdy dochodzenie FCC w sprawie odpowiedzi przewoźników komórkowych na huragan Michael na Florydzie okazało się, że przewoźnicy nie przestrzegać własnych dobrowolnych zobowiązań roamingowych, niepotrzebnie przedłużając przerwy. Pai nazwał przewoźników odpowiedzi na huragan „całkowicie nie do przyjęcia”, ale nie nałożył żadnej kary związane ze złym odpowiedzi huraganu i nadal polegać na dobrowolnych środków, aby zapobiec recurrences.

Pai’s FCC również niech Verizon, T-Mobile, i US Cellular off bez żadnej kary po stwierdzeniu, że przesadził ich 4G zasięg w oficjalnych aktach. Pai zaproponował grzywny dla AT&T, Verizon, T-Mobile i Sprint karać przewoźników nielegalnej sprzedaży danych lokalizacji telefonu, ale kary 12 milionów dolarów do 91 milionów dolarów na przewoźnika zostały skrytykowane przez Demokratów jako nie wystarczająco duże w stosunku do szkody dla konsumentów.

.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany.