Lukk

Tiltaksutvikling og evaluering

Sammendrag

Behandlingsforskningen lenge fokusert på evaluering av omfattende tiltakspakker og utviklingen av tiltakene var ofte tilpasset forskningen mer enn kontekst. Artikkelen ser på hvordan tiltaksutvikling, og tiltaksevaluering, kan å bevege seg videre. Tre ­forskjellige spor kan være 1) å studere tiltakenes enkeltelementer og forenklede tiltak, 2) vurdering av behandlingskontekst og arbeid med lokal forankring og 3) ved å ta i bruk mulighetene i standardiserte utfallsmålinger, pasientstatistikk og maskinlæring. De tre sporene er ikke bare forenelige med hverandre, men har også en mulighet for å informere og forsterke hverandres nytte.

 

Forskning på tiltak for barn og unges psykiske helse har en i overkant av 50 år lang historie, og mesteparten av studiene man finner er fra de siste 20 årene (Weisz et al. 2017). Veldig mye av denne forskningen har dreid seg om utprøving av manualbaserte tiltak og i liten grad forklart prosessene i tiltakene. Randomiserte kontrollerte studier (RCT) har vært sett på som en gullstandard, og man har gjennomført et stort antall evalueringer av tiltakspakker. Selv om dette har vært nyttig for både tiltaksutvikling og forståelse av klinisk effekt, tar flere nå til orde for at tiltaksforskningen må bevege seg ut av dette paradigmet. Noe av problemet med RCT-forskning på tiltakspakker er at man har evaluert tiltak med for lite øye for tilpasning til kontekst og til enkeltpasienter. Dette bør bøtes på ved at tiltaksutviklingen lener seg mer på både aktørene i helsevesenet og store datainnsamlinger og maskinkraft. Denne teksten vil utforske hvordan vi kan jobbe mer praksisnært i tiltaksutvikling og evaluering, samtidig som man benytter seg av vår tids muligheter for å lære av tilgjengelige pasientdata og kontinuerlige målinger av pasienters respons på behandling.

Et tiltak kan og bør evalueres både teoretisk og empirisk. På det teoretiske plan vurderer man hvorvidt tiltaket er godt formulert, og om det har en sannsynlig og gjennomførbar plan for å forbedre psykisk helse hos den aktuelle gruppen. Det må være dokumenterbart hva tiltaket inneholder, og hva aktørene i helsetjenesten skal gjøre. Man kan evaluere hvorvidt tiltakets antagelser holder vann og om det baserer seg på forventninger som det er grunnlag for å tro på. Allerede i tiltaksutviklingen og tiltaksbeskrivelsen bør det vurderes hvordan man kan vurdere tiltaket empirisk. Et godt tiltak bør ha en teori for endring ­— en eksplisitt idé om hva som skal forårsake endring og noe målbart som skal endre seg. Skillet mellom teoretisk og empirisk evaluering av tiltak har aldri hatt vanntette skodd, og det foreslås av flere å viske det ytterligere ut (Collins 2019, Lyon & Koerner 2016). Dette går ut på å konstruere konseptuelle modeller for tiltak, der man forklarer mekanismene for tiltaket, og prøve ut koblingene i modellen empirisk, heller enn tiltaket som helhet.

Mye av forskningen har vært viet til manualbaserte tiltak og det som etter hvert har fått stempel som «evidensbaserte tiltak». Det er ingen lov eller overordnet organ i Norge som godkjenner noe som «evidensbasert». En mulig definisjon er at det er «psykologiske intervensjoner som har blitt testet i studier og har vist å ha fordelaktige effekter» (Weisz & Kazdin, 2017 s. xi, min oversettelse). Intervensjonens prosedyrer bør være godt dokumenterte slik at andre praktikere kan gjøre akkurat det samme, gode studiedesign bør utelukke andre forklaringer på effekter og effektene bør ha vært undersøkt av flere (også forskere som ikke selv har utviklet eller eier tiltaket). Psykolog­foreningen har vedtatt en prinsipperklæring om å jobbe for en «evidensbasert psykologisk praksis» (EBPP) som integrerer «den beste tilgjengelige forskningen med klinisk ekspertise sett i sammenheng med pasientens egenskaper, kulturelle bakgrunn og ønskemål» (Norsk psykologforening, 2007). Tiltaksforskningen er en forutsetning for dette, men dette idealet kan være utfordrende å oppnå.

En stadig påpekt utfordring for psykisk helsevesen har vært at tiltak med forskningsmessig støtte i liten grad blir brukt. Forskningsresultatene kan være positive, men man mangler likevel å endre praksis og kliniske utfall i helsevesenet. Med hundrevis av evidensbaserte tiltak tilgjengelig (Chorpita, 2011) ville man kanskje håpet på et praksisfelt med sterk vitenskapelig forankring og stadig bedre effekter. I tillegg tar det ofte lang tid fra et tiltak er forsket på til det er vanlig praksis. Flere har estimert at «oversettelsesprosessen» fra forskning til praksis tar omkring 17 år (Balas & Boren 2000; Grant 2003; Wratschko 2009). I tillegg finnes det nok mange andre gode tiltak som forsvinner uten å få fotfeste i praksis. Ofte kan det kan være personavhengig hvilke tiltak som løftes ut av forskningen eller blir mer eller mindre forlatt for nye prosjekter. Lyon et al. (2020) forklarer fraværet av evidensbaserte tiltak i praksisfeltet med en tendens til at utviklere i for stor grad har laget tiltak for å passe i evaluering, men i for liten grad har tilpasset det til behov og begrensninger i praksisfeltet. Forskning på implementering kan vise oss barrierer og tilretteleggende variabler, men også dette krever en «implementering av implementering» som kan være vanskelig å få til. For å få effektene fra forskning og over til pasientpopulasjonen for øvrig, må det fokuseres på å lage tiltak som er enkle å ta i bruk og som er tilpasset rett kontekst. Vi trenger å «bake inn» tilretteleggende faktorer for implementering i tiltaksdesignet (Lyon & Koerner 2016).

For å gjøre tiltak mer tilpasset en spesifikk kontekst kan en løsning være utvikling i tråd med human-centered design (HCD)-prinsipper. Tanken i HCD er at tiltak utvikles, samtidig som det evalueres i utviklingsfasen, i samarbeid med tjenesten der det skal tas i bruk. Man utforsker brukergruppen og konteksten, utvikler ideer på bakgrunn av dette, lager prototyper av tiltakselementer, gjør evalueringer, for så å gjøre endringer i prototypene. Etter denne prosessen, som gjerne må gå tilbake til tidligere faser flere ganger, kan man implementere og evaluere tiltaket.

Enkelt og tilgjengelig design er et viktig prinsipp gjennom hele prosessen, og man antar at desto mindre endring som kreves hos praktikerne, desto bedre blir implementeringen (Aarons & Chaffin, 2013). For en tiltaksutvikler kan det være fristende å lage kompliserte tiltak med mye «innhold», men dette er ikke nødvendigvis det som blir tatt mest i bruk. Et alternativ er også å utvikle og spre elementer for behandling, ikke hele tiltakspakker. Med elementer mener man spesifikke handlinger, prosedyrer eller aktiviteter som terapeut og klient gjennomfører som en del av et tiltak. Lyon et al. (2020) skriver om «minste levedyktige produkt» (minimally viable product) som et ideal når vi skaper og tester ut deler av behandlingstiltak. Disse skal utsettes for tester for å utfordre antagelsene i modellen for tiltaket.

For å vite hvilke antagelser i tiltaket man må teste, bør man utvikle en konseptuell modell. En god konseptuell modell spesifiserer hva ved et tiltak som påvirker mental helse eller andre ønskede utfall. Den spesifiserer hva som kan få resultatene til å variere (moderatorer) og gjennom hvilke mekanismer man kan oppnå resultater (mediatorer). Vil vi forvente lignende resultater for alle aldersgrupper? Fungerer tiltaket kun når foreldrene har tatt i bruk enkelte komponenter? Hvilke deler av tiltaket er antatt å påvirke hva? Den konseptuelle modellen forklarer hvilken teori som er bakgrunnen for delene av modellen, og hvilke tiltakselementer som er ment å påvirke hvilke aspekter (Collins, 2019). Hva forklarer prosessen som gjør at elementet man innfører påvirker helsen? Å teste en konseptuell modell blir å bevege seg forbi RCT-designet der man setter kontrollgrupper opp mot grupper som mottar et helt tiltak. Poenget er, som nevnt, snarere å teste antagelser i modellen. Er det for eksempel slik at man kan oppnå redusert stress av mindfulness-øvelser? Vil eksponeringstimen føre til mindre unngåelsesatferd? Eller vil foreldretreningstimen føre til økt kompetanse for samspill med barnet? For å besvare slike spørsmål trenger man hyppigere målinger på mer spesifikke mål.

Mer spesifikk måling av effekt underveis i tiltaket kan gjøres i form av Ecological Momentary Assessment, der man henter inn data fra dagliglivet for eksempel ved korte spørreskjemaer i en mobil-app. Tilbakemeldingssystemer og kontinuerlig utfallsmåling ved klinikker er også data man kan støtte seg på for å teste koblinger mellom tiltaksinnholdet og proksimale mål. I tillegg bør alternative design til RCT bli hyppig brukt i denne fasen, som single case experimental-design og andre tidsserie-studier, men også evaluering av tiltakselementenes mottakelse og aksept fra aktørene skal være vesentlig. De endelige svarene på klassiske utfallsmål fra RCT-forskningen, som generell mental helse eller internaliserende vansker, vil komme langt senere i en evalueringsprosess.

Samtidig med trendene mot mer brukerinvolvering og mer utforskning av kontekst for tiltak, står vi nå i en æra av «big data» og maskinlæring (ML). Ved å prosessere store mengder data kan man finne mønstre for hvilke individer som sannsynligvis vil ha utbytte av et tiltak og hvem som vil trenge andre tiltak. Personalised medicine eller precision medicine er en tilnærming der man forsøker å forbedre kliniske utfall ved å identifisere hvilke intervensjoner som har størst sjanse for å ha best mulige konsekvenser for den individuelle pasient (Khoury & Galea, 2016). Dette er ikke en ny ting, man gjennomfører for eksempel blodoverføringer fra donorer som passer med pasientens blodtype. Likevel har slik individualisert tankegang vært begrenset i tiltaksutvikling og evaluering for psykisk helse. De randomiserte kontrollerte studiene har gitt oss kunnskap om hva som er nyttig for et gjennomsnittsmenneske, men gjennomsnittsmennesket viser seg å ikke eksistere (Subramanian et al. 2018).

Allerede uten ML og med mer konvensjonelle statistiske metoder er det mulig å finne forskjellige underliggende, latente grupper og beskrive hva slags utvikling disse personene har. Saunders og kollegaer (2019, 2020) viser hvordan man kan identifisere slike latente grupper som endrer seg forskjellig under behandling. De finner også noen mål, som ved oppstart av behandling for vanlige psykiske vansker kan predikere hvem som tilhører gruppen som responderer raskt på tiltak, hvilke som responderer sakte og hvem som ser ut til å ha liten nytte av behandlingen. Potensielt kan man gjøre det samme for flere tilgjengelige tiltak og få indikasjoner på hvem som bør motta hvilke tiltak, men også informere terapeuter om hva slags forventninger de bør ha om pasientens umiddelbare og mer langsiktige utvikling. Lignende Latent Class Growth Analysis (LCGA) har også blitt gjort for deltagere i den norske evalueringen av multisystemisk terapi (MST), og viser blant annet at kjønn og alder kan ha innvirkning på hvor godt tiltaket treffer (Keles, Taraldsen & Olseth, 2020). Ved å vite hvem som tilhører hvilken av vekstkurvene, kan man gi empirisk støttede, individuelt tilpassede tiltak. Slike analyser kan bidra til at vi vet hvem når man kan forvente effekt fra tiltak og hvor lang tid eller hvor mye av tiltaket man kan forvente å tilby før denne effekten inntreffer.

Selv om LCGA, og mer «klassiske» moderatoranalyser, kan bidra til presisjon i valg av tiltak, er slike analyser fortsatt begrenset til de moderatorene forskerne vurderer. Overgangen til ML tilbyr noe mer. RCT-designet skal ha hatt sitt opphav i jordbruksstudier, der man kan dele en åkerlapp i flere seksjoner og studere forskjeller. Moderatoranalyser tillater at vi deler opp i flere seksjoner, men løser ikke det fundamentale problemet at psykologien nok er nærmere meteorologien enn jordbruket. Psykologien har tusenvis av variabler som danner et menneske og et sykdomsbilde, variabler som konstant endrer seg (som affekt, kognisjoner, atferd) og vi kommer til kort dersom vi skal forhåndsdefinere moderatorer for tiltakseffektivitet.

Maskinlæring (ML) er en form for kunstig intelligens (KI) som lar maskiner lære fra data uten at man har programmert eksplisitt hva slags mønster eller modell man undersøker. Det gjør at man kan gå gjennom store datamengder og finne sammenhenger som ikke kan oppfattes av mennesker og som forskere ikke har laget modeller for. Helserelatert kunstig intelligens har som mål å finne sammenhenger mellom tiltak og utfall for pasientgrupper. Man skiller mellom veiledet og ikke-veiledet ML. Ved veiledet ML har man definert noen kategorier når man «trener» maskinen for å gi eksempler på noen riktige svar. Dette kan f.eks. være klinisk signifikante endringer i symptomtrykk som man gir en «merkelapp» og lar maskinen lete etter hva som kjennetegner slike tilfeller og skiller dem fra behandlingsforløp uten stor symptomlette. I ikke-veiledet ML overlater man til maskinen å finne både kategorier av utfall og sammenhenger med disse. Begge former vil ha en plass i fremtidig videreutvikling og testing av tiltak.

Mye av forskningen innen psykisk helsevern med ML er så langt såkalte «proof of concept»-studier. Der bruker man data for å vise hvordan det sannsynligvis ville gått, dersom man slapp maskinene fri og tillot seg å la dem bestemme tiltaksmetode eller tiltaksnivå. Tidlig KI-bruk innenfor medisin har vært brukt i analyse av bilder, hvor KI har vist seg å være like presise som sertifiserte dermatologer i diagnose av hudkreft (Esteva et al. 2017) og kan bruke 10 minutter på å finne tilsvarende effektive behandlingsplaner for hjernesvulst som menneskelige eksperter trengte 160 arbeidstimer på (Wrzeszczynski et al. 2017). Innen psykisk helse for barn og unge vil derimot lite av datagrunnlaget være bilder, men heller en skog av variabler som symptomnivåer, alder, familiesituasjon, evnenivåer, osv. Ved tilgang til rikholdig datamateriale kan KI indikere hva slags tiltak som har størst sjanse for å lykkes og gi tidlige indikatorer for om et tiltak er effektivt for klienten. Det har blitt illustrert at KI, basert på data fra helsejournaler, effektivt kan avgjøre hvilke pasienter som har behov for utvidet depresjonsbehandling (Kasthurirathne et al. 2019) og tidlig kan identifisere hvilke depresjonspasienter som vil respondere på behandling (Pigoni et al. 2019).

Flere steder har man i senere tid implementert tilbakemeldingssystemer og kvalitetsregistre i det psykiske helsevernet for barn og unge. Dette kan ha en egenverdi i at standardiserte målinger av pasienter med tilbakemelding til behandlere kan føre til bedre behandlingseffekter (Kendrick et al. 2016) og til at man bedre fanger opp «risiko-pasienter» som ikke responderer som ønsket på behandling (Lambert et al. 2001, Delgadillo et al. 2018). I tillegg kan slike initiativer bli svært viktige i veien mot å forstå mer av hva som fungerer, hvem det fungerer for og når man må revurdere tiltak for enkeltindivider og for pasientgrupper. For at maskinlæringen skal se mønstre og kunne gjøre prediksjoner, trengs det store datasett å gå løs på. Helsejournaler og data fra utredning kan være nyttige kilder, men det bør også være noe mer.

Det kan virke som et paradoks, men tilsynelatende kalde, inhumane «big data» og ML kan gå hånd i hånd med brukerorientert, kontekstrelatert tiltaksutvikling. Precision medicine trenger tilgang til data fra mange pasienter og fra flere kilder for å være vellykket. Samtidig åpner kontinuerlige målinger av umiddelbare behandlingseffekter for at man kan ha mer evaluering med forankring og på initiativ fra praksisfeltet. Man vil kunne evaluere tiltak uten at rammeverk som datainnsamling og lagring må innføres parallelt dersom utfallsmåling blir en standard i tjenestene. Der ML kan vise oss hvem vi hjelper og hvor vi bør gjøre nye tiltak, kan en kontekstorientert tiltaksutvikling hjelpe der ML påpeker at vi ikke når frem. Tjenesteleverandører kan få svar på hva av deres «vanlige praksis» som er virksomt for hvem og under hvilke betingelser.

Vi ønsker tjenester der forskningsfunn, behandlererfaringer og pasientenes ønsker gis rom. Datastyrt precision medicine bør ikke få overstyre personlige verdier og ønskemål, men informere pasientens valg mellom effektive tiltak. Samtidig må vi la konteksten for enhver behandling bli en del av datagrunnlaget. Systemer som lar tiltaksutvikling og evaluering komme fra praktikere og andre interessenter, kan settes opp slik at tiltak kvalitetssikres kontinuerlig. Vi bør måle utfall av både igangsatte tiltak og vanlig praksis fortløpende, og samtidig være lyttende til og undersøkende av konteksten der hjelpen gis. Slik unngår vi at tiltak utvikles for diagnoser eller konstruerte gjennomsnittsmennesker i et ideelt forskningsscenario, og sørger for at de tilrettelegger for reell behandlingskontekst og enkeltmennesker.

Litteraturliste
Kristian Rognstad
Om forfatter