Ulike dimensjoner legges til grunn for vurdering og klassifisering av enkelttiltak i Ungsinns artikler. Hvor godt tiltaket er beskrevet, dets teoretiske forankring, resultater fra eventuelle effektevalueringer og tiltakets implementeringsstrategier avgjør hvilket evidensnivå tiltaket får i Ungsinn.

 

Dette er sider ved et tiltak som enten gir informasjon om dets effekter eller som har betydning i utvikling av denne kunnskapen. De ulike aspektene bygger naturlig på hverandre. En god beskrivelse er en forutsetning for å kunne utarbeide en teoretisk forankring for de tenkte virkningsmekanismene i tiltaket. Både beskrivelsen og den teoretiske forankringen ligger til grunn når en skal undersøke tiltakets mulige effekter. En strategi som sikrer god kvalitet i implementering og spredning av tiltaket er dernest nødvendig for å sikre at de effektene som er funnet gjennom forskning, opprettholdes når tiltaket tas i bruk i ordinær praksis ((Fixsen m. fl. 2005; Greenhalgh, Robert, Macfarlane, Bate & Kyriakidou, 2004; Durlak & DuPre, 2008; Meyers m. fl.., 2012; Sørlie .m. fl., 2010). I artiklene skåres kvalitet på de ulike dimensjonene etter fastsatte metoder.


Skåring av beskrivelsens kvalitet

Ulike aspekter ved beskrivelsen av tiltaket vurderes på en tredelt skala fra «Ikke beskrevet» til «Godt beskrevet». Disse er angitt i tabell 1.

Tabell 1. Skjematisk oversikt over skåring av beskrivelsens kvalitet

 Dimensjoner i beskrivelsen Ikke beskrevet Noe beskrevet Godt beskrevet
Problembeskrivelse
Målgruppe
Hovedmål
Sekundærmål
Utforming av tiltaket
Metoder som benyttes
Kjerneelementer/fleksibilitet
Utøvere av tiltaket
Manual/veileder for utøvere
Materiell for mottakere av tiltaket
Undersøkelser som styrker beskrivelsen

 

Dimensjoner ved beskrivelsen av tiltaket som vurderes:

Problembeskrivelse:
Problemområdet er beskrevet med for eksempel omfang, risikofaktorer, konsekvenser av problemet, samvariasjon med andre problemer eller risiko for å utvikle andre vansker.

 Målgruppe:
Målgruppe er beskrevet med relevante karakteristika. Inklusjons- og eksklusjonskriterier er oppgitt.

Hovedmål:
Det kommer tydelig frem av beskrivelsen hva som er tiltakets hovedmål.

 Sekundærmål:
Det kommer tydelig frem av beskrivelsen om tiltaket har sekundærmål og hva de er. Dette kan for eksempel være reduksjon av risikofaktorer eller fremming av beskyttelsesfaktorer, eller det kan være målsetninger som anses som mindre betydningsfulle enn hovedmål.

Utforming av tiltaket:
Det kommer frem av beskrivelsen hvordan tiltaket er organisert og strukturert. For eksempel om det skal tilbys i grupper eller individuelt, hvem som er tilbydere, varighet, hyppighet, tematisk struktur, rekkefølge, progresjon og lokalisering av aktiviteter.

Metoder som benyttes:
Det beskrives så detaljert som mulig hvilke metoder som benyttes for å oppnå de ønskede målene som for eksempel kognitive teknikker, atferdsterapi eller psykoedukasjon, og om metodene involverer praktiske øvelser, hjemmelekser, videofilm eller rollespill.

Kjerneelementer og fleksibilitet:
Det kommer frem av beskrivelsen hva som anses som helt nødvendige kjerneelementer i utøvelsen av tiltaket, og på hvilke områder det er rom for fleksibilitet.

Utøvere av tiltaket:
Det fremkommer hvem som kan tilby tiltaket. Det kan være hvilke profesjonsgrupper som kan utøve tiltaket, hvilken opplæring som er nødvendig og ved hvilke tjenester tiltaket kan tilbys.

Manual/Veileder:
Det foreligger en manual/veileder for utøverne som beskriver detaljert hvordan tiltaket skal utøves.

Materiell for mottakere av tiltaket:
Det foreligger materiell til mottakere av tiltaket.

 

Skåring av forskningsmetodisk kvalitet: 

For hver studie skåres fem ulike metodologiske aspekter som er skissert i tabell 2. Hvert aspekt vurderes på en skala fra 0 til 4. Skåringen av hver studie oppsummeres både med en poengskåre for hvert aspekt, en gjennomsnittlig skåre og en helhetlig beskrivelse.

Tabell 2. Skåring av forskningsmetodisk kvalitet

Studie

1. Statistiske analyser

2. Måling

3. Indre validitet

4. Tro mot tiltaket

5. Ytre validitet

 Gj. snitt

Studie 1
Studie 2
Studie K

Note. Skalaen som benyttes er: 0 = ikke rapportert eller undersøkt, 1 = dårlig/utilfredsstillende, 2 = tilfredsstillende, 3 = godt, 4 = svært godt.

1. Statistiske analyser
Her vurderes det om de statistiske analysene er adekvate og at nødvendige forutsetninger for å anvende disse er oppfylt. De statistiske analysene må være tilpasset det aktuelle designet som er
brukt i studien (Shadish et al., 2004). Det vurderes om studien hadde tilstrekkelig statistisk styrke (statistical power), og om det er gjort frafallsanalyser. Det må også være rapportert effektstørrelser i tillegg til de aktuelle signifikanstestene eller resultater slik at det er mulig å beregne disse. Signifikansnivået bør være på minimum p < 0.05 og effektene være i forventet retning. Det må ikke foreligge signifikante negative effekter på sentrale variabler. Effektstørrelsene kan presenteres i en tabell eller i teksten (se Appenix A- forfatterveiledning) der man angir effekter for de mest relevante utfallsmålene (f.eks. atferdsvansker) og vurderer disse i forhold om de kan sies å være av praktisk/klinisk betydning.

2) Måling (reliabilitet og validitet)
Her vurderes målingenes reliabilitet og validitet med tanke på det aktuelle formålet. Det er fordelaktig at det anvendes måleinstrumenter som er vel utprøvd, og der relevant reliabilitet og validitet er undersøkt fortrinnsvis på norske eller nordiske utvalg. Det er en styrke om reliabiliteten er estimert for det aktuelle utvalget. Se Psyktestbarn.no for en nærmere beskrivelse av hvordan tester skal kvalitetssikres. Tilsvarende krav gjelder for andre målemetoder som observasjoner og intervju, det vil si at de er reliable og valide. Det er også ønskelig at de som kartlegger utfallsvariabler er «blind» for hvilket tiltak eller kontrollbetingelse deltakerne fordeles til og/eller har mottatt. Dette for å unngå at resultatet påvirkes av kjennskap til dette.

3) Indre validitet
Det må fremkomme i hvilke grad det er sannsynliggjort at det ikke er trusler mot den indre validiteten i studien (dvs. at det er tiltaket som er årsak til endringen og ikke andre faktorer). I utgangspunktet er det sterkeste designet et ekte eksperiment eller RCT når problemstillingen er å avdekke om tiltaket har en effekt. Det finnes imidlertid også faktorer som kan true den indre validiteten til et slikt design, for eksempel stort frafall eller svært ulikt frafall i de to gruppene. En annen feilkilde er såkalt smitteeffekt/diffusjon mellom eksperiment- og kontrollbetingelsen for eksempel ved at deltakere i kontrollbetingelsen prøver å få tilgang på det samme tiltaket som intervensjonsgruppen har fått.

Kvasi-eksperimentelle design kan ha ulike former for kontroll/sammenligningsgrupper. I sin enkleste form vil testpersonene selv utgjøre kontrollbetingelsen, for eksempel i form av en pretest-posttest design. I et slikt design vil det være mange trusler mot den indre validiteten, for eksempel historie (andre ytre faktorer som har forårsaket endringen) eller modning (personene endrer seg som en følge av at tiden har gått og ikke på grunn av tiltaket). Studier med kvasieksperimentelle design kan også ha ulike former for sammenligningsgrupper. Disse kan være grupper valgt fordi de ligner intervensjonsgruppen, andre ganger kan dette være mer tilfeldig og i verste fall en funksjon av selv-seleksjon. I vurderingen av designet blir det derfor viktig å vite hvordan gruppene er valgt ut, om eventuelle pre-test forskjeller er undersøkt og om dette er tatt hensyn til i analysene. Ulike andre trusler mot den indre validiteten er beskrevet hos Shadish, Cook og Cambell (2002). Alle truslene er ikke like relevante i alle kontekster, og det må derfor vurderes hva som er relevant for den enkelte studien (se tabell 3). Andre eksempler på kvasieksperiementelle design som kan være aktuelle å anvende i effektivitetsstudier, er kohorte-studier eller «stepped wedge trial (SWT) (Brown & Lilford, 2006). I SWD introduseres tiltaket for alle deltakerne eller grupper av deltakere, men på ulike tidspunkt. Dette kan være en aktuell framgangsmåte i situasjoner der det av praktiske eller etiske hensyn vil være problematisk å la være å tilby tiltaket til noen. På slutten av tiltaksperioden har alle mottatt tiltaket, men tidspunktet dette skjer på er tilfeldig (random). Ved longitudinelle kohorte design (selection cohorts design), som blant annet er brukt i evaluering av skolebaserte tiltak, introduseres tiltaket på hele skolen og for alle klassetrinn. Etter en tid (for eksempel ett år etter innføringen av tiltaket) sammenlignes et gitt klassetrinn med samme klassetrinn på pre-test tidspunktet (Olweus, 2005).

4) Tro mot tiltaket
Dette punktet handler om i hvilken grad man har forsikret seg om at behandlingen/tiltaket leveres i tråd med intensjonene og på lik måte til alle deltakerne. En måte å sikre dette på er gjennom manualer og opplæring til de som skal gjennomføre tiltaket, og ved å etablere systemer som kvalitetssikrer dette i løpet av studien, for eksempel gjennom sjekklister eller videoanalyser (se for eksempel Mowbray, 2003).

5) Ytre validitet

Ytre validitet forstås som i hvilken grad resultatene fra studien kan generaliseres, for eksempel over tid (er det gjennomført oppfølgingsstudier), til det virkelige liv (fra idelle betingelser til ordinære tjenester/arenaer) eller til andre målgrupper (f.eks andre aldersgrupper). Hvilke generaliseringer som er aktulle må vurderes utifra det aktuelle tiltaket og det som er problemstillingen i Ungsinn-artikkelen, nemlig om tiltaket kan antas å være virksomt brukt i vanlig praksis. I forhold til dette punktet kan det være aktuelt å vurdere om studien er gjennomført under samme betingelser som når det vil bli gitt i vanlig prakis, og i hvilken grad det er gjort oppfølgingsstudier for å se om effekten(e) holder seg over tid, for eksempel etter 6 mnd., 12 mnd. eller lengre tid. Hva som er en rimelig oppfølgingsperiode avhenger av type tiltak, omfang, formål og alderen på barna. Tilsvarende for generaliseringer til andre settinger enn det studien er gjennomført i og andre målgrupper kreves som regel egne studier som belyser dette om da ikke den aktuelle studien inneholder flere aldersgrupper og settinger.

De fem metodiske aspektene som vurderes for hver studie er oppsummert i tabell 3 i form av kontrollspørsmål som Ungsinnforfatteren må vurdere.

Tabell 3 Oversikt over metodiske aspekter som vurderes for hver studie

1.      Statistiske analyser
Hvilke analyser er gjennomført for å avdekke effekter?
Er analysene adekvate og vurdert opp mot det aktuelle designet som er benyttet?
Er de statistiske forutsetningene for analysen oppfylt?
Har studien tilstrekkelig statistisk power?
Er frafall rapportert og vurdert?
Er det gjort frafallsanalyser og evt. ITT (Intention to Treat) analyser?
Er det rapportert effektstørrelser eller resultater som kan konverteres til effektstørrelser?
 
2.      Måling (reliabilitet og validitet)
Er det rapportert relevant reliabilitet for de ulike måleinstrumentene basert på det aktuelle utvalget (f.eks. i form av Cronbachs alpha)?
Er reliabiliteten tilstrekkelig, spesielt på sentrale utfallsvariabler?
Har måleinstrumentene god begrepsvaliditet, for eksempel ved at veletablerte måleinstrumenter er benyttet, eller at dette er dokumenter på annen måte?
Har man anvendt flere informanter (f.eks. barn, foreldre, lærere)?
Norsk/nordisk tilpasning: Benyttes måleinstrumenter som er utviklet i utlandet og som er oversatt til norsk? Hva er i tilfelle kvaliteten på dette arbeidet og hvor godt dokumentert er det at de psykometriske egenskapene er gode/tilstrekkelig for den norske versjonen?
Ved intervju eller observasjonsdata: Er reliabilitet og validitet undersøkt?
 
3.      Indre validitet – årsakssammenheng
Hvilket design er benyttet (RCT, kvasi-eksperiment, kohort, osv.)?
Hvordan er randomiseringen gjennomført (hvis RCT)? Ved kvasi-eksperimentelle design med sammenligningsgruppe: Hva er gjort for å sikre at gruppene blir så like som mulig?
Kan det være smitte/diffusjon mellom betingelsene?
Vurder om feilkilder som for eksempel historie, modning, testing, instrumentering, statistisk regresjon eller frafall er vurdert?
I hvilken grad har man vurdert og diskutert muligheten for feilkilder, samt foretatt seg noe for å eliminere disse?
 
4.      Tro mot tiltaket/fidelity
Finnes det manualer og opplæring for de som gjennomfører tiltaket?
Er det i studien rapportert kvalitetssikringsprosedyrer som sikret at tiltaket ble gjennomført i tråd med intensjonen og likt for alle deltagerne?
 
5.      Ytre validitet
Er det gjennomført flere studier, oppfølgingsundersøkelser og evt. over hvor lang tid?
Hvordan er utvalget i studien i forhold til de man ønsker å generalisere effekten til (for eksempel representativitet mht. til alder, kjønn og symptomer)?
Er tiltaket gjennomført i vanlig praksis eller under vanlige betingelser slik det er tenkt levert senere?

 

Skåring av implementeringskvalitet

Ulike aspekter ved tiltakets kvalitetssikringssystemer vurderes og skåres i et skjema.  Gode kvalitetssikringssystemer forventes å fremme god implementeringskvalitet. Hver kategori er listet i tabell 4 og vurderes i forhold til om dette er godkjent eller ikke,  alternativt ikke er relevant for det aktuelle tiltaket. Vurderingen oppsummeres i en totalskåre (antallet godkjent/antallet mulige).

Tabell 4. Vurdering av tiltakets systemer for å fremme god implementeringskvalitet.

Kategori Ja Nei  Ikke relevant
1. Implementeringsstøtte
2. Kvalifikasjonskrav
3. Opplæring
4. Sertifiseringsordninger
5. Monitorering av fidelity/etterlevelse
6. Veiledning
7. Identifisering av målgrupper
8. Kartleggings- og vedlikeholdsverktøy
9. Strategier for tilpasning
Samlet skåre Sum av antall mulige
F. eks. 5 ja/9 mulige

 

 

 

 

 

 

 

 

 

 

 

Aspekter som vurderes:

1.      Implementeringsstøtte.
Tilbyder gir støtte til organisasjoner som skal implementere tiltaket og til utøvere som skal tilby tiltaket. Støtten vil enten bli gitt fra en tilbyderorganisasjon eller av tiltakseier. Implementeringsstøtte kan ta form av informasjons- og forberedelsesmøter, opplæringsseminarer, veiledning av lokale lederoppfølgingsmøter (booster-sessions) eller lignende. Kriterium for godkjent: Tilbyder gir implementeringsstøtte til organisasjonen/tjenesten. Det foreligger beskrivelse av tilbyders forpliktelser overfor mottakerorganisasjonen.

2.      Utøverens kvalifikasjoner.
Det finnes et minimumskrav til utdanningsnivå eller erfaringer (for eksempel antall år i praksisfeltet eller erfaring fra arbeid med barn og unge) for å kunne tilby programmet på en god måte. Dette inkluderer utøvere, veiledere, mentorer, trainere og andre relevante roller. Kriterium for godkjent: Det fremkommer klart av tiltakets beskrivelser hvilke forhåndskvalifikasjoner som er nødvendige for å utøve tiltaket

3.      Opplæring i tiltaket.
Det gis opplæring i tiltaket og følgende aspekter må være beskrevet: varighet av opplæringen, opplæringsmetoder og hyppighet av opplæring som trengs for å tilby programmet. Opplæringen må fokusere på kjernekomponentene i tiltaket, det vil si de deler av tiltaket som er nødvendig for at det skal virke etter hensikten. I et godt kvalitetssikringssystem er opplæringen detaljert beskrevet, der det fremgår hvilke ferdigheter og kunnskap som skal oppnås, innhold, omfang, læringsmetoder, kvalifikasjoner til kursledere og læringsmateriell. Kriterium for godkjent: Det gis opplæring i tiltaket. Omfang og innhold i utdanningen er godt beskrevet.

4.      Sertifiseringsordning.
Det stilles krav om formell kompetanse for å kunne utøve tiltaket og det finnes en ordning som kvalitetssikrer kompetansen. Sertifiseringen kan for eksempel gis på bakgrunn av opplæring av en bestemt varighet og omfang pluss oppfølging og etterutdanning for å vedlikeholde kompetansen over tid. Sertifisering kan også baseres på testing av utøvernes ferdigheter. Kriterium for godkjent: Det finnes sertifiseringsordninger i tiltaket. Prosedyrene for sertifisering fremkommer av tiltakets beskrivelse.

5.      Kvalitetssikring av trofasthet.
Det finnes systematiske måter å registrere etterlevelse av trofasthet til kjernekomponentene i tiltaket slik det er tiltenkt fra programutvikler. Dette kan for eksempel være skåring av videoopptak av utøveren under praktisering av tiltaket eller tilbakemelding via spørreskjemaer eller sjekklister fylt ut av utøveren. Kriterium for godkjent: Tilbyder har systematisk monitorering av kvaliteten på utøvelsen av tiltaket, samt oppfølging av tjenestene basert på dette.

6.      Veiledning.
Det gis veiledning under utøvelse av tiltaket, etter endt opplæring. Dette kommer i tillegg til eventuell vanlig veiledning som tilbys på arbeidsplassen og beskrivelsen av denne kan inkludere varighet og hyppighet av tiltaksrelatert veiledning, veilederens rolle under implementeringen av tiltaket og krav til kompetanse hos veilederen. Kriterium for godkjent: Tiltaket har beskrevet systemer for veiledning av utøverne.

7.      Identifisering, screening og rekruttering av målgrupper for tiltaket. Målgruppen for tiltaket er nøyaktig spesifisert gjennom inklusjons- og eksklusjonskriterier for deltagelse i tiltaket, og det er utarbeidet anbefalte metoder for rekruttering. Dette kan også inkludere anbefaling av instrumenter til screening eller utredning. Barn som skårer over bestemte kriterier for psykisk helseproblemer eller barn med alvorlig kognitiv svikt kan tjene som eksempler på inklusjonskriterier. Kriterium for godkjent: Inklusjons- og eksklusjonskriterier for målgruppen er nøyaktig spesifisert i beskrivelsen samt at det foreligger anbefalte metoder for rekruttering av de barna/ungdommene/familiene som forventes å ha nytte av tiltaket.

8.      Retningslinjer for datainnsamling og verktøy for vedlikehold av effekter.
Det finnes instrumenter som utøveren kan bruke for å følge utviklingen til den enkelte klienten/brukeren/eleven/familie for å undersøke om han eller hun nyttiggjør seg av tiltaket og om de er fornøyde. Kriterium for godkjent: Det foreligger instrumenter som kan benyttes for å registrere utbyttet av tiltaket på individnivå.

9.      Strategier for tilpassing av tiltaket.
Det foreligger kunnskap om i hvilken grad og eventuelt hvordan tiltaket kan tilpasses til ulike målgrupper, tjenester (vil for eksempel et tiltak som er prøvd ut i skolehelsetjenesten også kunne tilbys i barneverntjenesten?) og kulturkontekst uten å redusere effektiviteten av tiltaket. Begrunnelsen for generealisering og tilpasning av tiltaket bør være begrunnet i egen empiri eller sannsynliggjort gjennom diskusjone av andre studier. Kriterium for godkjent: Beskrivelse av arena der tiltaket kan tilbys.

Brown, C. A., & Lilford, R. J. (2006). The stepped wedge trial design: A systematic review. BMC Medical Research, 6:54. doi: 10.11861/1471-2288-6-54

Durlak J. A. & DuPre E. P. (2008). Implementation matters: A review of research on the influence of implementation on program outcomes and the factors affecting implementation. American Journal of Community Psychology, 41, 327-350. doi: http://dx.doi.org/10.1007/s10464-008-9165-0

Fixsen, D. L., Naoom, S. F., Blasé, K. A., Friedman, R. M. & Wallace, F. (2005). Implementation Research: A Synthesis of the Literature. Tampa: University og South Florida.

Greenhalgh, T., Robert, G., Macfarlane, F., Bate, P. & Kyriakidou, O. (2004). Diffusion of innovations in service organizations: Systematic review and recommendations. Milbank Quarterly, 82, 581–629. doi: 10.1111/j.0887-378X.2004.00325.x

Meyers, D. C., Durlak, J. A. & Wandersman, A. (2012). The Quality Implementation Framework: A Synthesis of critical steps in the implementation process. American Journal of Community Psychology,  50,  462-480. doi: 10.1007/s10464-012-9522-x

Mowbray, C. T. (2003). Fidelity criteria: Development, measurement, and validation. American Journal of Evaluation, 24, 315-340.

Olweus, D. (2005). A useful evaluation design, and effects of the Olweus Bullying Prevention Program. Psychology, Crime, and Law, 11, 389-402.

Shadish, W. R., Cook, T. D., & Campbell, D. T. (2002). Experimental and quasi-experimental designs for generalized causal inference. Boston: Houghton Mifflin.

Sørlie, M-A., Ogden, T., Solholm, R. & Olseth, A. R. (2010). Implementeringskvalitet – om å få tiltak til å virke: En oversikt. Tidsskrift for norsk psykologforening, 47, 315-321.