Value in Health, organo ufficiale dell'International Society for Pharmacoeconomics and Outcome Research (ISPOR), considerata una delle due più prestigiose riviste di Farmacoeconomia, ha di recente pubblicato i risultati di due studi inglesi, entrambi a firma degli stessi autori, che hanno valutato il rapporto costo-utilità incrementale di due farmaci approvati per il trattamento del carcinoma renale metastatico in relazione al trattamento di confronto usato negli studi clinici originali: temsirolimus (approvato in prima linea di trattamento) verso interferone alfa1 e sorafenib (approvato in seconda linea) verso placebo2. In ambedue i casi sono stati usati modelli in cui i risultati di efficacia e tossicità sono stati ripresi dagli studi originali, mentre i costi (diretti di natura sanitaria) sono stati valutati dalla prospettiva del servizio sanitario inglese (NHS), ricorrendo, per quanto riguarda il consumo di risorse, ad assunzioni basate sulle linee-guida che definiscono la pratica clinica corrente ed al parere di esperti, mentre i costi unitari sono stati presi da prontuari e dalla letteratura. In assenza di dati ad hoc, le misure di utilità, ottenute in entrambi i casi con l'EQ-5D, sono state derivate, per il temsirolimus, da uno studio clinico controllato di sunitinib verso interferone alfa e, per il sorafenib, da uno studio di fase 2. Ancora una volta ci si chiede le ragioni per cui, a fronte di costi elevatissimi di un trial clinico sponsorizzato dall'industria, non vengano rilevati anche i costi, magari solo quelli diretti di natura sanitaria, e misure di utilità, magari su un sottocampione dei pazienti arruolati, così da non costringere a fondare le conseguenti, inevitabili analisi economiche su assunzioni azzardate. I risultati hanno mostrato che ogni QALY aggiuntivo ottenuto con il temsirolimus rispetto all'interferone alfa costa in media per paziente £ 95.000 (circa 108.000 euro, ossia circa US $ 144.000), mentre lo stesso costo incrementale per il sorafenib rispetto al placebo è pari a £ 75.000 (circa 85.000 euro, ossia circa US $ 113.000). Nonostante i limiti insiti nel modello usato (dati di efficacia da un trial, misure di utilità tratte da un altro studio, costi del SSN inglese valutati "a tavolino" e non realmente osservati su pazienti), i costi incrementali appaiono così elevati (ad ulteriore testimonianza di benefici marginali conseguiti con i nuovi farmaci) che anche un loro prudenziale taglio li renderebbe palesemente insostenibili per qualunque servizio sanitario nazionale. Se non fosse per il riconosciuto valore della rivista e per l'elevata qualità dei due lavori, verrebbe da dubitare di risultati così eclatanti, raramente riscontrabili in letteratura, dove di solito vengono pubblicate valutazioni economiche sponsorizzate dall'industria. In questo caso i due studi sono stati finanziati dal Programma di Health Technology Assessment del servizio sanitario nazionale britannico: un esempio che tutti i servizi sanitari nazionali dovrebbero seguire!
Esportabilità dei risultati di analisi farmacoeconomiche
I costi di un trattamento terapeutico variano molto da paziente a paziente. E' possibile individuare una serie di determinanti di tale impressionante variabilità, così che la variabilità residua (quella dovuta proprio al paziente) si riduce sensibilmente. Ad esempio, nella nostra esperienza3 dalla prospettiva del Servizio Sanitario Nazionale, circa il 60% della variabilità dei costi totali dei trattamenti antiemetici, in pazienti che avevano ricevuto una chemioterapia contenente cisplatino, era spiegata dal fattore "centro" ossia era riconducibile alle differenti modalità assistenziali e prescrittive dei centri partecipanti. Si trattava di uno studio italiano limitato alle terapie di supporto, in cui era stato considerato un solo fattore sistematico. Si può quindi immaginare cosa possa accadere se lo studio è multinazionale, ha un obiettivo di portata più generale (ad esempio la sopravvivenza), che verosimilmente induce una maggiore variabilità, dove ciascun paese ha un proprio sistema assistenziale la cui influenza sulla variabilità dei costi va ad aggiungersi a quella dei centri e di altre possibili determinanti. Recentemente è stata pubblicata una revisione di 65 articoli che riferivano i risultati di analisi costo- efficacia (non solo in Oncologia) eseguite parallelamente ad uno studio clinico controllato multinazionale4. La prima cosa da osservare è l'esiguità numerica di tali studi, essendo stata la ricerca condotta in modo rigoroso esplorando tre banche dati (MEDLINE, EMBASE, database del National Health Service Economic Evaluation inglese), ed essendo il periodo di osservazione di 12 anni (dal 1996 al 2007). I risultati complessivi di tali studi sono evidentemente inapplicabili a qualsiasi realtà, in quanto si tratta di risultati medi che, da paese a paese, potrebbero essere invece assai diversi tra loro. Inoltre, la composizione dei pazienti in studio secondo la nazionalità non è mai equilibrata, potendo, ad esempio, predominare la rappresentativa statunitense ed essere sottodimensionata quella inglese o tedesca. La scarsa utilità dei risultati complessivi fa venire in mente quanto asseriva un famoso clinico francese della prima metà dell'800 che citava il seguente paradosso: dopo aver raccolto le urine di cittadini europei di diverse nazioni ed averle versate in un unico recipiente, la determinazione delle proprietà dell'urina media europea è del tutto inutile, in quanto nel risultato finale pesa troppo la diversità tra i vari paesi e, pertanto, è inapplicabile ovunque. Occorre, quindi, precisare fondamentali dettagli quali la composizione dei pazienti per nazione, costi ed efficacia per entità geografica, e così via. Ad aggravare il quadro di difficoltà di riferire i risultati a determinate realtà è il fatto che spesso i costi sono stati valutati solo in alcuni centri di alcuni (e non di tutti) paesi partecipanti e sono stati poi applicati a tutti i pazienti in quelle condizioni, indipendentemente dallo loro nazionalità. Ad esempio, il costo per il controllo di un evento avverso è stato determinato solo in alcuni centri francesi e tale valutazione è stata applicata anche a pazienti inglesi o tedeschi che avessero presentato quella sintomatologia. La revisione dei 65 articoli ha mostrato che in molti casi non sono stati riportati né il nome dei paesi partecipanti (20% degli articoli), né la proporzione dei pazienti per nazione (57%). Inoltre, nella maggior parte degli studi, il numero dei pazienti di una determinata nazionalità è stata trovata preponderante rispetto agli altri, con le implicazioni che ciò comporta sul costo incrementale complessivo. Ad esempio, se i pazienti canadesi rappresentassero il 90% del totale dei pazienti, è evidente che il risultato complessivo sarebbe applicabile solo al Canada. In conclusione, non solo occorrono analisi statistiche assai sofisticate per pervenire ad un risultato complessivo, ma soprattutto è necessario che l'autore del lavoro fornisca dettagli essenziali per nazione affinché il decisore di spesa possa valutare l'impatto dei risultati esposti sulla propria realtà.
Come migliorare le analisi farmaco-economiche
L'ISPOR ha raccomandato la formazione di una task force multidisciplinare con il compito di esaminare criticamente gli argomenti più rilevanti per il miglioramento della qualità della ricerca sul rapporto costo-efficacia dei trattamenti medici (Quality Improvement Cost-Effectiveness Research, QICER)5. Dopo un intenso lavoro, la task force per il QICER raccomandò che l'ISPOR si occupasse dei seguenti argomenti:
Qualità di vita. Tutti i PRO vanno validati
I Patient Reported Outcome (PRO) costituiscono un'ampia categoria di strumenti eterogenei che includono, oltre ai formali questionari per la misura della qualità di vita, ogni altro mezzo attraverso cui il paziente riferisce informazioni connesse all'impatto della malattia e della cura sulla sua vita quotidiana. Ma per raggiungere le sue numerose finalità12, un PRO, come ogni altro strumento psicometrico, deve essere validato, ossia sottoposto ad una serie di analisi i cui risultati dimostrino che misura proprio ciò per cui è stato progettato e che lo fa in modo accurato ed efficiente. Come viene precisato negli "standard per la costruzione dei test educazionali e psicologici" (American Educational Research Association APA, National Research Council on Measurement in Education. The Standards for Educational and Psychological testing. Washington DC, AERA, 1999), la prova di validità si raggiunge attraverso una valutazione globale del grado con cui evidenze e teoria supportano l'interpretazione degli score (punteggi) ottenuti con l'uso dello strumento finalizzato ad una determinata misura. Esistono diverse prove di validità, necessariamente indirette, in quanto, di norma, non esiste un gold standard per ciò che lo strumento deve misurare. Tra queste, ad esempio, particolarmente importante (e complessa) è la validità di "costrutto", cioè del concetto il cui livello lo strumento è chiamato a misurare. Ma a monte di tale prova di validità ne esiste un'altra particolarmente delicata, in quanto meno strutturata, che è la "validità di contenuto" (content validity). Un questionario a risposte chiuse (la risposta va scelta tra quelle elencate) ha il vantaggio di poter essere adoperato per un'indagine estensiva, cioè condotta su una pluralità di soggetti. Infatti, essendo standardizzato, consente di mettere insieme le risposte individuali così da avere, per mezzo della statistica, un'immagine dell'intero collettivo, cosa che sarebbe infattibile con le interviste libere. Il costo, però, è la impossibilità del questionario di raggiungere certi livelli di profondità nella conoscenza del soggetto; in altre parole, con un questionario possiamo indagare sui comportamenti, e raramente sugli atteggiamenti, ma mai sulle motivazioni. Com'è noto, nella misura del livello di un certo concetto, questo viene esploso in un insieme di domini (o dimensioni). Ad esempio, la qualità di vita (QdV) viene articolata in una serie di domini, quali la condizione fisica, la funzionalità psichica, il ruolo sociale e così via. Ciascun dominio è esplorato attraverso una serie di item (domande) che, però, non esauriscono tutti gli item in cui quel dominio può manifestarsi. Ad esempio (dovendo rilevare comportamenti), per valutare la condizione fisica si può chiedere quanto il soggetto si senta affaticato dopo aver percorso 200 metri in pianura, o dopo essere salito su una scala di 30 gradini. E' evidente che per misurare la condizione fisica vi sono numerosissime altre domande. Allora, dato il setting in cui il questionario sarà utilizzato (ad esempio, su pazienti neoplastici in fase metastatica), ci si può chiedere se gli item considerati costituiscano un campione rappresentativo di tutti gli item che esplorano quella certa dimensione, oppure se vi siano altri item che possano meglio centrare l'obiettivo della misura. La risposta a tale quesito è fornita dall'analisi di validità di contenuto che, evidentemente, può essere condotta solo attraverso interviste in profondità che possano cogliere il maggior numero possibile di aspetti di quel dominio. Di conseguenza, la validità di contenuto è importante, perché consente di cogliere l'obiettivo della misura nel modo più efficiente (ad esempio, dato il contesto, la condizione fisica dei pazienti), ma la prova che un certo insieme di item esplori in maniera soddisfacente quella dimensione può essere conseguita solo usando tecniche di ricerca qualitativa, ossia con interviste condotte da personale addestrato allo scopo. Inoltre, l'analisi della validità di contenuto va ripetuta per ogni setting diverso (se consideriamo pazienti in diversa condizione, occorre eseguire di nuovo l'analisi perché, ad esempio, gli item che valutano efficientemente la condizione fisica in pazienti metastatici certamente non sono gli stessi che servono a valutare lo stesso dominio in pazienti in terapia adiuvante, cioè, che stanno sostanzialmente bene). La ricerca qualitativa è però assai difficile da condurre per una serie di ragioni che vanno dalla possibile influenza del-l'osservatore sull'osservato, alla necessità di riflettere a lungo sulla registrazione dell'intervista, valutando anche le pause nelle risposte che potrebbero essere informative quanto i contenuti dichiarati, alla difficoltà di classificazione delle risposte. In troppi casi, la validità di contenuto non è stata valutata in modo adeguato e ciò ha indotto due gruppi di ricerca a pubblicare indipendentemente due note metodologiche sull'argomento che non solo fanno importanti precisazioni concettuali, ma indicano anche la strada da percorrere per eseguire nel modo migliore l'analisi di validità di contenuto13,14.