Overvåking
Overvåking (Monitoring) er prosessen med kontinuerlig å samle inn, spore og analysere data fra IT-systemer, nettverk, applikasjoner og infrastruktur.
Hovedmålet er å oppdage og adressere problemer proaktivt før de fører til systemfeil eller nedetid for brukerne. Uten effektiv overvåking, blir IT-driften reaktiv (man fikser feil først etter at de inntreffer).
Mål og grunnleggende prinsipper
Overvåking er styrt av målet om å sikre at tjenester møter avtalte krav.
Overvåking fokuserer på de fire primære ressursene, ofte kalt CELT-prinsippet:
- CPU (Prosessor): Sjekke belastning og bruk. Høy, vedvarende CPU-bruk er et tegn på flaskehalser eller feil i applikasjonslogikken.
- Error/Events (Feil/Hendelser): Sporing av feilmeldinger i logger, unormal aktivitet og sikkerhetshendelser.
- Load (Belastning/Minne): Overvåke minnebruk (RAM) og disktilgjengelighet. Lavt ledig minne fører til dårlig ytelse og ustabilitet.
- Traffic (Nettverkstrafikk): Måling av båndbreddebruk, ventetid (latency) og pakketap. Hjelper med å identifisere nettverksflaskehalser.
Mål og terskelverdier (Thresholds)
Overvåking krever definerte terskelverdier. En terskel er en forhåndsdefinert grense som, når den overskrides, utløser et varsel (Alert).
- Eksempel: En terskel kan settes til “Varsle hvis CPU-bruken på databaseserveren overstiger 85% i mer enn 5 minutter.” Terskelverdiene må være realistiske og forankret i organisasjonens SLA (Service Level Agreement).
Typer overvåking
Overvåking kan deles inn i flere spesialiserte kategorier, avhengig av hva som spores.
Infrastruktur- og ytelsesovervåking
Dette er den tradisjonelle formen for overvåking som fokuserer på maskinvare, nettverk og operativsystemer (OS).
- Systemhelse: Spore tilstanden til redundante komponenter (RAID, strømforsyning) og kritiske OS-prosesser.
- Nettverk: Bruk av protokoller som SNMP (Simple Network Management Protocol) til å samle inn data fra rutere og svitsjer om trafikk og feil på porter.
- Virtuelle miljøer: Overvåking av Hypervisor-laget for å sikre at VM-er har tilstrekkelig med ressurser (CPU, RAM).
Applikasjons- og tjenesteovervåking
Dette fokuserer på funksjonaliteten og ytelsen til de applikasjonene som leverer forretningsverdi.
- Syntetiske transaksjoner: Systematisk testing av en applikasjon ved å simulere en brukers handling (f.eks. logge inn og legge til en vare i handlekurven) for å sjekke om tjenesten fungerer som den skal.
- API-overvåking: Sjekke tilstanden og responstiden til grensesnittene (API-ene) applikasjoner bruker for å kommunisere med hverandre.
Sikkerhetsovervåking
Dette er i stor grad basert på loggføring for å oppdage trusler.
- Overvåking av brannmurlogger for uautoriserte tilkoblingsforsøk.
- Spore mislykkede påloggingsforsøk i Active Directory for å oppdage brute-force-angrep eller kompromitterte kontoer.
Verktøy og automatisering
Effektiv overvåking krever sentraliserte verktøy for å håndtere det store datavolumet.
- Overvåkingsplattformer (NMS/APM): Verktøy som Zabbix, Nagios, SolarWinds er designet for å samle inn, visualisere og analysere data fra tusenvis av kilder. I skymiljøer brukes verktøy som Azure Monitor eller AWS CloudWatch.
- SIEM (Security Information and Event Management): Spesialiserte verktøy som samler og korrelerer sikkerhetslogger fra hele infrastrukturen for å identifisere komplekse angrepsmønstre som er umulige å oppdage manuelt.
- Varslingsrutiner (Alerting): Varsler må ha en klar prosedyre for eskalering. Hvis en kritisk feil ikke løses innen et definert tidsrom (f.eks. 15 minutter), må varselet automatisk eskaleres til neste nivå av driftere eller vaktpersonell.
- Automatisering: I avansert drift kan overvåkingssystemet utløse automatiserte skript (f.eks. ved hjelp av PowerShell eller Ansible) for å forsøke å løse enkle, kjente feil automatisk, for eksempel ved å restarte en fastlåst tjeneste.
Proaktiv overvåking er et fundament for å oppfylle SLA-kravene og sikre stabil drift.
Relaterte kompetansemål
- planlegge, innføre og dokumentere IT-systemer slik at de er stabile, sikre og effektive gjennom hele livssyklusen
- bruke og gjøre rede for rutiner og systemer for avviksrapportering og vurdere tiltak for håndtering av avvik
- reflektere over og anvende virksomhetens retningslinjer for datasikkerhet og personvern i virksomheten
- vurdere og gjøre rede for konsekvensene ved sikkerhetsbrudd for virksomheten, samfunnet og individet og foreslå tiltak
- bruke verktøy for å automatisere og effektivisere driftsoppgaver
- utforske og bruke metoder for feilsøking, utføre utbedringer og dokumentere løsninger