Key takeaways
- Facebooks tekniske problemer var uheldige, men problemet ville sannsynligvis blitt løst mye raskere hvis det ikke var avhengig av så mange sammenkoblede systemer.
- Det er ingen måte å forhindre systemfeil fullstendig, men det finnes måter å gjøre dem mindre sannsynlige.
- Å ha backup-planer for når (ikke hvis, når) et system svikter kan utgjøre forskjellen mellom "irriterende" og "katastrofale".
Den nylige Facebook-debakelen viser hvordan sammenkoblede systemer er nødt til å mislykkes og hvorfor vi ikke bør bruke dem til alt.
Å miste Facebook, WhatsApp og Instagram i flere timer på mandag var ubeleilig, skadelig for bedrifter, og i noen tilfeller nesten katastrof alt. Ifølge Facebook skyldtes det hele konfigurasjonsendringer i nettverkskoordinerende rutere.
Det er en rimelig forklaring, men det faktum at en enkelt feil som dette kan få ikke bare Facebook, men andre Facebook-eide systemer til å stoppe opp, er litt alarmerende.
Én feil ruterkonfigurasjonsendring førte til at flere tjenester, og til og med VR-headset, sluttet å fungere helt. På toppen av det, etter Facebooks egen innrømmelse, hadde det også en gjennomgripende effekt på hvordan selskapets datasentre kommuniserer, og stoppet alle tjenestene deres.
"Avliten på sammenkoblede systemer medfører en iboende risiko for system- eller til og med tjenestefeil," sa Francesco Altomare, senior teknisk salgsingeniør hos GlobalDots, i et e-postintervju med Lifewire, "For å motvirke denne skremmende risikoen bruker bedrifter prinsippet om SRE (System Reliability Engineering), så vel som andre verktøy, som alle håndterer varierende redundansnivå innebygd i hvert lag av et systems infrastruktur."
What Can Go Wrong
Det er verdt å merke seg at når et slikt system svikter, krever det vanligvis en perfekt storm av ting som går g alt. Det er mindre som et korthus som venter på å falle og mer som en eksponert termisk eksosåpning på en romstasjon på størrelse med en liten måne.
De fleste selskaper tar skritt for å prøve å sikre at det eneste som kan kaste alt ut i kaos aldri skjer – men uansett, det kan skje.
"Uventede feil er en del av virksomheten og kan oppstå som et resultat av uaktsomhet fra ansatte, feil i Internett-leverandørens nettverk, eller til og med skylagringstjenester som har problemer," sa Sally Stevens, medgründer av FastPeopleSearch, i et e-postintervju.
"…Så lenge de nødvendige trinnene for å beskytte systemet - som sikkerhetskopier, ruter på stedet og lagdelt tilgang - er på plass, er disse feilene ganske usannsynlige." Selv med en hær av safer, er det fortsatt mulig for lynchpinen å mislykkes.
Hvis systemet som kontrollerer ting som primære kontaktformer, apparater, dører osv., feiler, kan resultatene bli betydelige. Fra milde ulemper til fullstendig katastrofale, avhengig av hvor mye enkeltpersoner og selskaper stoler på alt.
"Det er også risiko for at hackere kommer inn i systemet fra noen av de minst beskyttede enhetene, som kjøleskap og ovnsbrødristere," la Stevens til, "som kan føre til datatyveri og løsepengeprogramvare."
Hvordan vi kan forberede oss
Det er ingen måte å garantere at et system aldri vil svikte, men det er skritt som kan tas for enten å gjøre feil mindre sannsynlig eller for å løse feil mer jevnt. En kombinasjon av de to tilnærmingene som kombinerer feilsikker og mottiltak med beredskapsplaner og backup-systemer ville være ideell.
"For å eliminere disse farene skapt av tredjepartsprodukter og -tjenester som håndteres effektivt, må roller og plikter angående tredjeparts risikostyring være strengt skissert," sa Daniela Sawyer, grunnlegger og teknologisjef i FindPeopleFast, i et e-postintervju, "For å blomstre i disse nye omgivelsene, må risikoledere forstå de essensielle delene av et så sofistikert økosystem."
Det som skjedde med Facebook, WhatsApp og Instagram var uheldig, men forhåpentligvis også øyeåpnende. Folk som er avhengige av sammenkoblede systemer, må forstå at det riktige som går g alt kan forstyrre alt. Og tiltak må settes inn (eller granskes og foredles) for å gjøre slike forstyrrelser mindre sannsynlige og mindre virkningsfulle.
I Facebooks tilfelle var problemet ikke ruterproblemene, men snarere å ha nesten hele økosystemet koblet til alt annet. Dermed, med Facebook (tjenesten) nede, måtte Facebook (selskapet) bruke mye mer tid og energi på å organisere og adressere problemet. Hvis den enten ikke brukte et så dypt forankret, sammenkoblet system eller hadde backup-planer på plass for å håndtere et slikt strømbrudd, ville det sannsynligvis ha tatt langt mindre tid å fikse.