I artikler publisert før november 2015, ble tiltaket klassifisert i ett av 4 evidensnivåer. Når det forelå effektstudier (tiltak på evidensnivå 3 og 4), ble tiltakene også klassifisert i dokumentasjonsgrad for å differensiere graden av dokumentasjon ytterligere. Kriteriene bygger på hverandre slik at kravene til klassifisering i ett evidensnivå alltid vil inkludere kravene til evidensnivåene under. Her beskrives kriteriene i detalj.

 

Etablering av kriteriene

Kriteriene for klassifisering av tiltak ble utarbeidet i 2008 av en vitenskapelig komité bestående av professor Willy-Tore Mørch, RBUP Nord (leder), forsker Simon-Peter Neumer, RBUP Øst og Sør og professor Per Holth, Høgskolen i Akershus.

 

Evidensnivå 1: Potensielt virksomt tiltak

Når et tiltak er et potensielt virksomt, er tiltakets målsettinger og målgruppe beskrevet. Videre er det en tydelig beskrivelse av metoder, teknikker og materiell. Det er flere forskningsmetoder som kan bidra til å klargjøre hvilke komponenter et tiltak inneholder som for eksempel intervju, tekstanalyse, beskrivelser, analyser av observasjoner, kvalitative studier og kasusstudier.

Denne type forskning kan hjelpe praktikere og ledere til å få en oversikt over tiltaket og hvilke elementer det inneholder. I et forskningsperspektiv vil denne type deskriptiv evidens være helt nødvendig for å kunne gå videre med forskning som tar sikte på å forstå tiltakets rasjonale og om det har effekt.

Praktikere gjennomfører tiltak som de har god erfaring med, men som enten ennå ikke er beskrevet, eller som ikke er nedskrevet i den formen som er nevnt ovenfor. Hvis disse tiltakene kan bli beskrevet vil det representere en enorm økning av evidens for tiltak som foregår i praksis samtidig som det danner en solid base for fremtidig forskning. Tiltak på dette nivået betegnes som potensielt virksomme tiltak.

Evidensnivå 2: Sannsynlig virksomt tiltak

Evidensnivå 2 går ett trinn videre fra Potensielt virksomt tiltak (Evidensnivå 1) ved at det foreligger en fornuftig og plausibel rasjonale for at tiltaket bør ha en effekt.

Det må beskrives en teori som sannsynliggjør effekt i forhold til målsetninger og målgruppe. En slik teori kan foreligge som en allment kjent teori om årsaker til debut av et psykisk helseproblem, for eksempel at teorien om lært hjelpeløshet (learned helplessness) kan føre til depresjon. Det kan også foreligge teoretisk kunnskap på bakgrunn av litteraturgjennomgåelser eller ekspertuttalelser som bekrefter eller styrker kunnskap som figurerer ”stilltiende” i et faglig samfunn.

Et eksempel på dette kan være Norges Forskningsråds ekspertuttalelse om effekter av psykososial behandling av barn og unge med atferdsproblemer som førte til import og implementering av flere psykososiale tiltak overfor barn og unge med atferdsproblemer. At et tiltak er effektivt kan også sannsynliggjøres ved at det foreligger enkle n=1 studier (studerer en person av gangen) med få deltagere. Når det bare foreligger internasjonale studier av tiltaket, eller når man bare baserer seg på internasjonal forskning vil tiltaket tilhøre dette evidensnivået.

Med dette ønsker vi å signalisere at vi ikke slår oss til ro med internasjonal forskning, men ønsker å stimulere til norsk forskning. En plausibel teori vil gi praktikeren hjelp til å begrunne hvorfor tiltaket skulle ha effekt overfor en spesiell klient. Nivå 2 er en helt essensiell plattform for å komme videre i utviklingsmodellen for evidensbasert kunnskap.

En plausibel teoretisk rasjonale er veiledende for hvilke type effekter man kan forvente i forskjellige målgrupper og hvilke mekanismer som kan føre til forandringer. Hvis det ikke foreligger noen som helst evidens for at tiltaket har effekt, vil en plausibel teoretisk rasjonale kunne overbevise beslutningstagere om å avsette ressurser til å prøve ut metoden. Tiltak i dette nivået vil bli betegnet som et sannsynlig virksomt tiltak.

Evidensnivå 3: Funksjonelt virksomt tiltak

Funksjonelt virksomme tiltak har alle kriteriene som er beskrevet for nivå 1 og 2 (detaljert beskrivelse av tiltaket og en plausibel teoretisk rasjonale for tiltaket). I tillegg har tiltak på dette nivået vært utsatt for en systematisk evaluering som viser at man får ønskede forandringer i målgruppen. Dette betyr at man gjennom tiltaket har nådd sine mål, problemene er redusert og målpersonene er fornøyd.

Det finnes et utall av metoder for å gjøre slike evalueringer. Noen av disse er brukerfornøydhetsundersøkelser, før- og ettermålinger og andre måloppnåelsesundersøkelser for eksempel nedgang i re-innleggelser. Dette er evalueringer som viser at noe har skjedd etter at tiltaket ble iverksatt, og at det er positivt det som har skjedd. Slike evalueringer kan brukes til å forbedre kvaliteten på tilbudet i organisasjonen.

På dette evidensnivået åpnes det opp for at designet kan forbedres ved å legge til en eller annen form for referansemål for måloppnåelse.

En referansestudie (benchmark study) kan være å sammenligne gjennomsnittsresultater fra det utvalgte tiltaket med resultatene fra et randomisert kontrollgruppedesign (RCT) som viser signifikant bedre effekt for et lignende tiltak for det samme psykiske helseproblem. Hvis gjennomsnittsresultatet i tiltaket ligger høyere enn kontrollgruppen i RCT studien er dette et viktig signal om at tiltaket ser ut til å ha en effekt.

En normreferansestudie vil innebære at man sammenligner resultatet av tiltaket med en norm, for eksempel at en viss andel av klientene er fornøyd (95 %), at 90 % av klientene nådde målsetningene for behandlingen eller at 80 % av klientene skårer i normalområdet målt med et standardisert instrument.

I Theory of change studier kan effekten av et spesielt behandlingselement undersøkes gjennom korrelasjonsstudier. I dose-respons studier avklares hvilket minimum av behandlingssesjoner (dose) som må til før man får den ønskede effekt.

I et kvasieksperimentelt design testes effekten av et tiltak ved å sammenligne med en plasebo-, sammenlignings-, eller ventelistekontrollgruppe uten at gruppene nødvendigvis er randomiserte. På dette evidensnivået finner vi også serier med n=1 studier eller multiple baselinestudier. Single subject design (n=1) kjennetegnes ved at subjektet blir grundig observert på viktige resultatmål før tiltaket iverksettes (baseline) og observasjonene fortsetter etter tiltaker har startet.

Gjennom disse designene får praktikere systematisk tilbakemelding om effekter av tiltaket både på individ og på gruppenivå og muliggjør systematisk overvåkning av tiltaket og modifiseringer av det. Disse designene kan imidlertid ikke sannsynliggjøre at effektene primært er forårsaket av tiltaket. Dokumentasjon av årsakssammenhenger forutsetter at andre mulige årsaker til forandring er eliminert eller kontrollert for. Design på evidensnivå 3 gir likevel forskeren en sterk indikasjon på at tiltaket påvirker resultatet slik at man har en foreløpig evidens på effektivitet. Dette gjelder spesielt hvis et design på evidensnivå tre er gjentatt under mange forskjellige betingelser og replikert av forskjellige forskergrupper.

Tiltak på evidensnivå 3 skal ha en klar implementeringsstrategi som tar hensyn til tilbudsorganisasjonens struktur og ressurser.

Funksjonelt virksomme tiltak vil klassifiseres i dokumentasjonsgrad *, ** og *** avhengig av forskningsmetode. For eksempel vil enkle før- og ettermålinger få klassifikasjonen *. Hvis tiltaket også er evaluert med referansestudie eller ”theory of change” studie gis klassifikasjonen ** og ved et kvasieksperimentelt kontrollgruppedesign med oppfølgingsmålinger etter 6 mnd eller serier med n=1 og multiple baseline design gis klassifikasjon ***.

Evidensnivå 4: Dokumentert virksomt tiltak

Tiltak i evidensnivå 4 tilfredsstiller kravene til evidensnivå 1 (beskrivelse), 2 (teoretisk rasjonale) og 3 (demonstrasjon av at tiltaker leder til ønsket resultat).

For at et tiltak skal bli vurdert til å være dokumentert effektivt trengs det forskningsdesign som sannsynliggjør at resultatet er forårsaket av tiltaket. Det er tre design som tilfredsstiller dette kravet.

Randomisert kontrollgruppe design (RCT) kjennetegnes ved at metoden for valg av subjekter til gruppene som skal sammenlignes sikrer at gruppene er sammenlignbare på viktige variabler. Dette sikrer en høy indre validitet. Avbrutte tidsserieanalyser innebærer at det tas en serie datapunkter som avbrytes gjennom et eller flere tiltak (såkallte A-B, ABA, ABC design der A er baseline og B,C osv representerer forskjellige tiltak). Hvis det framkommer systematiske forandringer på resultatmålene som følge av tiltakene på en stor serie av n=1 studier (minst 9 deltagere) er dette en sterk evidens for at det er tiltaket som forårsaker resultatene og kan som effektivitetsmål sammenlignes med et RCT design.

Avbrutte tidsseriedesign vil også være et nyttig supplement når tidsseriestudier gjøres i forhold til grupper av individer, for eksempel skoleklasser. Longitudinelle kohort-studier innebærer at en kohort (eks. en aldersgruppe barn) utgjør kontrollbetingelsene for en annen kohort for samme aldergruppe på et senere tidspunkt.

Studier under spesielt tilrettelagte betingelser (efficacy studier), kjennetegnes ved at de utføres i universitetskontekst med spesielt trenede terapeuter og med klientutvalg med ”rene diagnoser”, ofte rekruttert gjennom annonser eller aktiv selektiv rekruttering av forskerne.

Det er vanligvis programutviklere som gjennomfører efficacy studier som den første test på om tiltaket er årsak til resultatene. Da kan den eksterne validiteten være lav (generaliserbarhet).

Effektivitetsnivået ved evidensnivå 4 øker betydelig når studiet er utført under naturlige betingelser og av uavhengige forskere og dermed øker også den eksterne validiteten. Dette innebærer at forskningen foregår i en ordinær klinikk eller annet praksissted (normal ressurstilgang) med et klientutvalg som er representativt for de henviste klientene (med normal komorbiditet) og at tiltaket er gjennomført av klinikkens ordinære praktikere.

Praktikerne vil ha nytte av evidensnivå 4-evalueringer for å få et bedre bilde av hvilke tiltak som er virksomme på hvilke klientgrupper. Denne type kunnskap kan hjelpe til med å tilpasse tiltaket til klientkarakteristika. For forskeren er nivå 4 evaluering nødvendig for å validere tiltakets teoretiske basis og derved bidra til å få mer generell kunnskap om mekanismene bak de terapeutiske effekter.

Dokumentert virksomme tiltak vil få klassifikasjonene **** eller *****. RCT (efficacy) studier og avbrutt tidsseriedesign og fortløpende evaluering av implementeringsprosessen vil få klassifikasjonen ****. Hvis studien i tillegg er replikert av minst én uavhengig forsker under naturlige betingelser (efficiency studium) klassifiseres tiltaket med *****.

Ønskede tilleggskvaliteter ved evalueringen

Tiltak som er plassert på evidensnivå 4 og dokumentasjonsgrad ***** møter alle kriteriene for nivåene 1 til 4. Det vil si at de er godt beskrevet (1), har en plausibel teori (2), har demonstrert at tiltaket fører til måloppnåelse (3) og har dokumentert at tiltaket er ansvarlig for resultatene (4), inkludert replikasjon av minst én uavhengig forsker og under naturlige betingelser.

Til tross for en evaluering av denne høye standarden er det ønskelig at et tiltak utsettes for ytterligere forskning som gir oss mer kunnskap om tiltakets validitet. Det er også ønskelig med kunnskap om konsekvenser av implementering av tiltaket i et gitt miljø.

Det er således ønskelig, men ikke nødvendig at følgende spørsmål er besvart gjennom forskning: Hva er langtidseffektene av tiltaket (mer enn ett år)? Hva er nytten av tiltaket i forhold til kostnadene (kostnad-nytte analyser). Er det en lavere insidens av det psykiske helseproblem som skal forebygges etter langtidsbruk av tiltaket (for eksempel etter 5-10 år)? Opprettholdes tiltaket over tid med høy integritet og kvalitet (program fidelity). Er det spesielle elementer ved tiltaket som er kritisk viktige for å få optimal effekt (elementanalyse)? Har implementeringen av tiltaket hatt effekter på organisasjonens arbeidsformer, organisering og ressursbruk (kvalitative analyser)? Inngår evaluering av tiltaket i meta-analyser der tiltakets effekter kan kombineres og sammenlignes med resultater fra tilsvarende studier?

Tilleggsevalueringer av denne art styrker tiltakets validitet og effektivitet og blir eksplisitt beskrevet i databasen som en del av vurderingsgrunnlaget for kvalitetsklassifikasjonen.

Tabell 1. Evidensnivåer

Evidensnivå Evidenstyper Forskningsmetoder
4. Dokumentert virksomt tiltak Som i 1, 2 og 3, men det foreligger sikker evidens på at tiltaket forårsaker forandringene Randomiserte kontrollgruppedesign (RCT efficacy og effectiveness). Avbrutte tidsseriedesign. Longitudinelle kohortstudierØnskede tilleggsstudier
3. Funksjonelt virksomt tiltak Som i 1 og 2, men har demonstrert at tiltaket fører til ønskede resultater Kvasieksperimenter med kontrollgrupper, theory of change, referansestudier, normstudier. Før-og ettermålinger, serier med n=1 studier (multiple baseline).
2. Sannsynlig virksomt tiltak Som i 1, men tiltaket har en teoretisk rasjonale Reviewer, litteraturgjennomgåelser, ekspertuttalelser, enkle n=1 med få subjekter. Baserer seg bare på internasjonal forskning
1. Potensielt virksomt tiltak Eksplisitt beskrivelse av tiltaket (mål, målgrupper, metoder, materiell) Deskriptive studier, observasjoner, dokumentanalyse, intervjuer, kvalitative studier, kasusbeskrivelser

 

Tabell 2 Klassifikasjon av dokumentasjonsgrad

Dokumentasjonsgrad Forskningsmetode Ønskede tilleggskvaliteter for Dokumentasjonsgrad 5 *****
***** RCT under naturlige betingelser(effectiveness). Studien er replikert av minst én uavhengig forsker og 1 års oppfølging. Langtids oppfølging >3 år, kostnad-nytte analyser, insidensberegning, ”program fidelity” forskning, elementanalyser, kvalitative analyser, organisasjonsanalyser, meta-analyser.
**** RCT efficacy studium eller avbrutte tidsserieanalyser med 1 års oppfølging. Longitudinelle kohortstudier.
*** Kvasieksperiment med kontrollgruppe og 6 mnd. oppfølging.
** Referansestudier, theory of change, normstudier.
* Enkle før- og ettermålinger, serier med n=1 (multiple baseline)

 

Tabell 3 Evidensnivå knyttet til klassifikasjon av dokumentasjonsgrad

Evidensnivå Forskningsmetode Dokumentasjonsgrad
4. Dokumentert virksomt tiltak RCT under naturlige betingelser (effectiveness), replikert av minst én uavhengigforsker og 1 års oppfølging. *****
RCT laboratoriestudie (efficacy) eller avbrutte tidsseriedesign med 1 års oppfølging. Longitudinelle kohortstudier. ****
3. Funksjonelt virksomt tiltak Kvasieksperiment med kontrollgrupper ***
Theory of change studier, referansestudier, normstudier. **
Enkle før- og ettermålinger, serier med n=1 (multiple baseline). *
2. Sannsynlig virksomt tiltak Reviewer, litteraturgjennomgåelser, ekspertuttalelser, enkle n=1 med få subjekter. Baserer seg bare på internasjonal forskning
1. Potensielt virksomt tiltak Deskriptive studier, observasjoner, dokumentanalyser, intervjuer, kvalitative studier, kasusstudier

 

Kunnskapsbasert og forskningsbasert praksis

Tiltak på evidensnivå 1 og 2 vil antagelig representere det man kaller kunnskapsbasert praksis mens tiltak på Evidensnivå 3 antagelig vil kunne kalles forskningsbasert praksis.

Gjennom tidsskriftet Ungsinn ønsker vi imidlertid å vise at evidens kan skaffes tilveie på mange forskjellige måter og med mange forskjellige forskningsmetoder. Vi velger derfor å kalle tiltak på Evidensnivå 1 og 2 for tiltak som har evidens og ikke reservere evidensbaserte tiltak bare for tiltak på Evidensnivå 4 med fem stjernes dokumentasjonsgrad.

Etter vårt syn avsporer en slik begrensning evidensdebatten og skaper unødig konflikt i fagmiljøene. Ungsinn ønsker imidlertid å visualisere gjennom sin struktur både kompleksiteten i forskning på høyt nivå og overkommeligheten av å gjøre verdifulle evalueringer med enklere metoder og design og som bringer et tiltak høyere opp i evidensnivåene

Tiltak med negativ effekt

Ungsinn har også kategorien ”Negativ effekt” fordi det en gang i mellom publiseres evalueringer som, på et høyt evidensnivå, påviser at enkelte tiltak har negativ effekt.

Kravet fra praksisfeltet om at tidsskriftene i større grad tillater å publisere 0-effekt studier og studier med negativ effekt tilsier at det kan bli en økende publiseringsrate med slike studier. Det er et alvorlig etisk problem at tiltak med påvist negativ effekt anvendes i praksisfeltet. Tiltak i denne kategorien skal ha et forskningsgrunnlag som tilsvarer kvalitetsklassifisering *** på evidensnivå 3. (kvasieksperimentelt kontrollgruppedesign med 6 mnd. oppfølging).

 

Teksten under er hentet fra de fullstendige kriteriene:

Mørch, W-T., Neumer, S-P., Holth, P., & Eng, H. (2009). Ungsinn. Virksomme tiltaks for 
barn og unges psykiske helse. Kriterier for klassifisering av evidensnivå og 
dokumentasjonsgrad. Tromsø: Universitetet i Tromsø