Häiriötilanteessa suunnitelmat eivät riitä – Porkka testasi palautumiskyvyn käytännössä

Palautumiskykyä ei voi todistaa paperilla. Decens ja Porkka Finland toteuttivat käytännön Disaster recovery (DR) -harjoituksen. Testi osoitti, ettei palautumiskykyä kannata jättää oletusten varaan – häiriötilanteesta palautuminen on kriittistä liiketoiminnan kannalta. Asiantuntija-artikkelissa Decensin IT-arkkitehti Petteri Saarikko pureutuu palautusharjoituksen saloihin.

”Palautumiskyvyn käytännön testi toteutettiin Decensin tiloissa. Todensimme Porkan kanssa käytännössä, miten palveluiden palauttaminen tapahtuu. Harjoitus keskittyi siihen, saadaanko kriittiset palvelut palautettua tuotantokelpoiseksi hyväksytyssä ajassa”, toteaa Petteri Saarikko.

Porkka ja Decens ovat tehneet yhteistyötä pitkään, ja toimiva kumppanuus on laajentunut jatkuvasti. Kumppanuuden perustana on avoin tiedonvaihto, joka auttaa molempia osapuolia valmistautumaan erilaisiin haasteisiin – ja vastaamaan myös odottamattomiin tilanteisiin.

”Nyt meillä on selkeä, käytännössä testattu suunnitelma palautumista varten. Harjoituksesta oli hyötyä sekä Porkalle että IT-kumppanillemme Decensille. Kehitämme yhdessä palveluita, jotka tukevat liiketoimintamme jatkuvuutta. Se vaatii kykyä palautua hallitusti silloin kun todella jotain tapahtuu”, sanoo Tommi Tähkänen, tietohallintopäällikkö Festivo-Porkka Groupilta.

Palautumiskyvyn suunnitelma muuttuu arvokkaaksi vasta testissä

Liiketoiminnan jatkuvuudesta puhutaan usein suunnitelmien, varmistusten tai tavoitteiden kautta. Monella organisaatiolla on dokumentoidut palautumisaika (RTO – kuinka nopeasti järjestelmä pitää saada takaisin käyttöön) ja palautuspiste (RPO – mihin hetkeen asti tiedot pitää pystyä palauttamaan) -tavoitteet, varmistuspolitiikka tai muita kirjallisia kuvauksia, mutta käytännön palautusharjoitus puuttuu.

”Oleellinen kysymys on se, mitä tapahtuu, kun palautus oikeasti käynnistyy. Palautusharjoituksen tärkein opetus on yksinkertainen: palautumiskykyä ei pidä olettaa, se pitää todentaa”, sanoo Saarikko.

DR-harjoitus ei kuitenkaan ala siitä hetkestä, kun palautus käynnistetään. Todellinen arvo syntyy jo suunnitteluvaiheessa. Ennen palautumiskyvyn testausta kannattaa määritellä ainakin nämä:

  • mitä palveluita palautetaan
  • miten sovellukset kytkeytyvät harjoitukseen
  • miten palautettu ympäristö eristetään tuotannosta
  • kuka vastaa mistäkin testauksen osasta
  • miten palveluiden toimivuus hyväksytään
  • mitä mittareita seurataan
  • miten havainnot ja poikkeamat dokumentoidaan

Turvallinen testaus toteutetaan suljetussa palautusympäristössä

Porkan palautusharjoitus toteutettiin suljetussa palautusympäristössä. Palautettavat palvelimet, palvelut, käynnistysjärjestys, riippuvuudet, pääsynhallinta ja testausvaiheet oli suunniteltu etukäteen. Oma, eristetty ympäristö on tärkeä kahdesta syystä:

  1. Tuotannon palveluihin, käyttäjiin tai liiketoiminnan normaaliin toimintaan ei aiheuteta häiriötä
  2. Testi pysyy realistisena ja palautettujen palveluiden toimivuutta voidaan arvioida hallitusti

”Suljetussa ympäristössä palautetut palvelimet ja palvelut voidaan käynnistää ja testata turvallisesti – ilman riskiä tai häiriötä tuotantoympäristöön. Palautuksen onnistumista ei tarvitse arvailla, kun palveluiden tila on todennettu käytännön testein. Porkan harjoituksessa neljän tunnin RTO-tavoite saavutettiin. Tämä antaa liiketoiminnalle ja johdolle konkreettista näyttöä siitä, että palautuminen on mahdollista määritellyssä ajassa”, sanoo Saarikko.

Palautusharjoitus paljastaa piiloriippuvuudet

Kriittiset palvelut eivät tapahdu tyhjiössä. Teknisessä ympäristössä AD-palvelut, tietokannat, sertifikaatit, nimipalvelut, etäkäyttö ja esimerkiksi palvelinten käyttöoikeudet ja käynnistysjärjestys muodostavat kokonaisuuden, jossa yhden osan puuttuminen voi estää ympäristön toiminnan.

”Porkan palautumiskyvyn testissä yksi tärkeimmistä tavoitteista oli selvittää, onko kaikki tarvittava otettu huomioon. Tarvitaanko yhteyksiä johonkin muuhun palveluun? Onko järjestelmässä teknisiä riippuvuuksia, joita ei ole huomioitu? Piiloriippuvuudet tulevat parhaiten esiin vasta kun ympäristö palautetaan ja palvelut käynnistetään”, toteaa Saarikko.

Kaikki piiloriippuvuudet eivät näy dokumentaatiosta, ja juuri siksi DR-harjoitus on arvokas. Se tuo esiin käytännön havaintoja – ennen kuin niitä joudutaan ratkaisemaan todellisessa häiriötilanteessa. Palautumiskyvyn testaus tekee liiketoiminnan riskeistä näkyviä.

”Palautusharjoitus on kuin koeajo – se tuottaa johdolle, tietohallinnolle ja asiantuntijoille yhteisen näkymän siihen, missä kunnossa organisaation palautumiskyky todella on”, sanoo Tähkänen.

Mitattu faktapohja auttaa kehityskohteiden valinnassa

Onnistunut palautumiskyvyn testi ei tarkoita sitä, ettei havaintoja syntyisi. Päin vastoin, havainnot ovat yksi DR-harjoituksen tärkeimmistä tuloksista.

Liiketoiminnan jatkuvuuden kannalta palautumisen onnistuminen ei ole vain tekninen kysymys. Se on myös johtamisen ja riskienhallinnan kysymys. Mittaamalla kuinka kauan palautus kestää, mihin vaiheisiin aika kuluu ja mitkä vaiheet vaativat manuaalista työtä, saadaan korvaamatonta tietoa siitä, miten palautumisprosessia voidaan parantaa.

”Porkan harjoituksessa esiin nousi muun muassa palveluiden käynnistysjärjestykseen ja manuaalisiin työvaiheisiin liittyviä havaintoja, jotka voidaan dokumentoida tulevaisuutta varten. Nämä eivät ole epäonnistumisia. Ne ovat juuri niitä asioita, jotka kannattaa löytää harjoituksessa eikä kriisitilanteessa”, toteaa Tähkänen.