Descrivere uno studio: chi partecipa e cosa riceve
L’impiego giudizioso dei numeri è la chiave essenziale per comunicare e quindi comprendere come è stato progettato e realizzato uno studio clinico. I numeri ci forniscono le dimensioni dei campioni studiati e soprattutto quali sono le caratteristiche dei partecipanti alla ricerca in modo che possiamo poi valutarne la trasferibilità dei risultati ai “nostri” pazienti. Le informazioni da cercare che descrivono uno studio e che permettono di valutare la trasferibilità dei risultati ai pazienti reali da trattare possono essere ricordate utilizzando l’acronimo PICOT (P Population, I Intervention, C Control, O outcomes, T Time). Per quanto riguarda la P di popolazione, negli articoli che presentano i risultati dei trials clinici, una tabella (in genere la Tabella 1) dovrebbe contenere il “ritratto clinico” della popolazione studiata, con dati ad esempio su età media, genere, comorbilità, farmaci assunti, ecc): può sembrare una arida elencazione di numeri, ma la sua attenta consultazione è cruciale per capire in quale misura il paziente che abbiamo davanti è assimilabile a quelli che hanno partecipato allo studio. Negli studi controllati randomizzati questa tabella fornisce anche informazioni su quanto queste caratteristiche siano bilanciate nei gruppi a confronto. I numeri che descrivono le modalità del trattamento (dosi, durata etc.) sono fondamentali per capire se il confronto tra l’intervento da valutare (I) e i controlli (C) è realmente congruo o se invece sono state utilizzate dosi sbilanciate per aumentare le probabilità che l’effetto di un trattamento risulti favorito o sfavorito.
Un esempio dell’importanza della valutazione di questi numeri: l’efficacia clinica dell’esomeprazolo è stata studiata confrontandola con quella di altri inibitori di pompa protonica ed è risultata in genere superiore ai farmaci di controllo. In uno studio che valutava il pH nelle 24 ore i 40mg di esomeprazolo hanno addirittura sbaragliato tutti i concorrenti impiegati alle dosi usuali. A ben guardare l’esomeprazolo, S-isomero attivo dell’omeprazolo, viene impiegato alla dose di 40mg, doppia di quella dell’omeprazolo: in base alla farmacologia l’isomero attivo si sarebbe dovuto utilizzare ad una dose minore e non doppia rispetto al racemico. Gli studi clinici sull’esomeprazolo contro altri inibitori di pompa protonica hanno quindi dimostrato la superiorità di un trattamento somministrato con una dose almeno doppia rispetto a quella ipotizzabile come equivalente in base agli studi farmacocinetici1. Quella di impiegare trattamenti di controllo a dosi sub-ottimali è pratica di riscontro purtroppo molto frequente, sia in studi su esiti obiettivi (es. variazioni del pH) che su parametri che valutano esiti soggettivi (es. negli studi sugli psicofarmaci).
Numeri e scale di valutazione: le criticità nel “contare” i sintomi soggettivi
La valutazione degli esiti o Outcomes (la O dell’acronimo PICOT) soggettivi (dolore, disagio respiratorio, memoria, tono dell’umore etc.) necessita di appositi strumenti in grado di trasformare la soggettività in parametri numerici misurabili. Per ogni esito possono esistere diverse scale di valutazione elaborate per descrivere più in dettaglio un particolare aspetto del problema; per esempio i sintomi della menopausa possono essere valutati con strumenti che attribuiscono punteggi alle varie componenti del disagio della donna. Lo strumento di valutazione, per qualsiasi area esplorata, dovrebbe essere validato (cioè bisognerebbe dimostrare, in studi ad hoc, che fornisce una misurazione valida del fenomeno attraverso il confronto con un gold standard) ed il processo di validazione esplicitato chiaramente in una pubblicazione: nell’ambito dei sintomi menopausali, per esempio, se si analizzano gli studi su parametri soggettivi, l’efficacia del tibolone è stata valutata con scale validate solo in 6 su 42 studi.
Ma anche le scale validate devono essere utilizzate in modo opportuno. Prendiamo l’esempio principe del dolore per il quale esistono diversi strumenti di valutazione validati (VAS etc). Se somministriamo un farmaco e valutiamo le variazioni indotte sul dolore mediante una scala validata otteniamo una serie di dati numerici la cui valutazione statistica può indicare una riduzione statisticamente significativa: la conclusione automatica è di un’efficacia della terapia nella riduzione della percezione del dolore. Ma il medico pratico deve chiedersi quale significato clinico attribuire a questa riduzione: se una scala analogica passa da 5,46 a 3,99 punti come nello studio di Rosenstock2 sul dolore neuropatico, quale valore reale attribuire a questo scarto di 1,47 punti ottenuto col pregabalin rispetto al placebo?
Gli esperti del settore concordano che la riduzione del dolore è clinicamente percettibile dal paziente quando il punteggio del dolore si riduce almeno del 30% mentre diventa clinicamente importante quando la riduzione raggiunge il 50%3-4. Esprimere una variazione del dolore solo mediante una differenza tra le medie dei punteggi delle scale (anche validate), è ritenuto clinicamente poco significativo mentre molto più rilevante è sapere quale percentuale dei pazienti trattati col farmaco o sottoposti al trattamento di controllo, si dichiara pienamente soddisfatta o fa uso di farmaci aggiuntivi o consegue un miglioramento del 30 o del 50% del sintomo quantificato mediante lo strumento di valutazione. Questo vuol dire, nell’analisi dei numeri, distinguere tra le variazioni “che contano” e quelle che “contano poco”. Questo vale naturalmente anche per la scelta e l'interpretazione di esiti oggettivi, privilegiando quelli clinicamente rilevanti (ad es. nell'ipertensione contano le differenze negli infarti e negli ictus prevenuti più che la significatività sui mm Hg).
Comunicare i risultati di uno studio: preferire le variazioni assolute a quelle relative
Oltre che aiutarci a capire se i metodi dello studio sono adeguati al quesito clinico (che tipo di soggetti sono stati studiati, cosa hanno assunto i gruppi a confronto e che tipo di esiti sono stati valutati) i numeri sono naturalmente fondamentali nell’esposizione dei risultati degli studi. I risultati possono avere un impatto emotivo nettamente diverso a seconda di come vengono esposti, in base ai parametri utilizzati.
Il numero assoluto di eventi è l’indicatore più diretto: la parametrazione al numero di persone studiate costituisce un indice di rischio assoluto per quell’evento in quella popolazione ed il confronto col rischio riscontrato nel gruppo di controllo fornisce l’indice di riduzione assoluta del rischio (ARR) ritenuto il parametro di riferimento nella comunicazione dei risultati. Un rischio assoluto che passa dal 4 al 2% per un certo evento, per esempio una frattura, si traduce in un miglioramento del 2% del rischio assoluto di frattura. Analogo ragionamento si può ovviamente fare se invece di riduzione si valuta l’aumento dei rischi, e se invece dei rischi si considerano i benefici. In tutti i casi, si tratta di misurare la variazione (percentuale) di un parametro in termini di differenza tra i gruppi.
Un altro indicatore dell’impatto assoluto di un intervento è l’NNT (Number Needed to Treat), che esprime il numero di persone da trattare per evitare un esito negativo (o conseguire un esito favorevole) rispetto al gruppo di controllo. Il dato rappresenta un aiuto per il clinico che anche in caso di un esito “statisticamente significativo” riesce con l’NNT a quantificare l’impatto clinico del trattamento attraverso la stima di quante persone dovrà trattare per un dato periodo per evitare ad esempio un infarto o una frattura. Nell’esempio precedente, se il rischio assoluto di frattura si riduce del 2% (cioè 2 esiti in meno su 100 pazienti), per avere un esito negativo in meno occorrerà trattare 50 pazienti con l’intervento in questione. Lo Studio ASCOT hypertension5 è un ottimo esempio di applicazione dell’NNT: l’impiego di un trattamento basato su amlodipina e perindopril (che non modifica l’esito primario) ottiene una riduzione di alcuni esiti secondari, rispetto al trattamento con atenololo e bendroflumetiazide. Lo studio, pubblicato su The Lancet e diffuso capillarmente negli studi medici con milioni di reprint, riporta minuziosamente i risultati ottenuti sugli esiti primari, secondari e terziari con significatività ben evidenziate ma non riporta gli NNT che devono essere calcolati con buona volontà dal lettore. Si, è vero: il gruppo trattato con amlodipina e perindopril presenta un rischio di infarti e di ictus significativamente inferiore a quello del gruppo trattato con atenololo e bendroflumetiazide, tuttavia, nonostante la significatività bisogna trattare 167 pazienti per 5,5 anni per osservare un infarto in meno e 100 per risparmiare un ictus. Con questa lettura i risultati possono avere per il clinico un valore ben diverso. L’NNH (Number Needed to Harm) ha significato analogo all’NNT, anche se esprime una misura degli effetti avversi che si possono indurre con un dato trattamento. Specificamente, questo indicatore quantifica il numero di pazienti che bisogna trattare per osservare un effetto avverso.
Gli esiti appena visti possono essere espressi non solo come variazioni assolute (in termini di differenze nei rischi o benefici assoluti) rispetto al gruppo di controllo, ma anche in termini di rapporto verso i risultati del gruppo di controllo, cioè come variazioni relative. Utilizzando l’esempio della riduzione dal 4 al 2% del rischio assoluto di frattura, questa può essere sbandierata come una Riduzione Relativa del Rischio (RRR) di frattura del 50% (cioè, il rischio si è ridotto della metà), con un impatto emotivo decisamente diverso su chi legge: il trucco sta nel non specificare a quale rischio (assoluto o relativo) ci si riferisce, confidando che il lettore frettoloso non si ponga la domanda. Per intenderci, una riduzione in termini relativi del 50% si otterrebbe anche se il rischio passasse dal 40 al 20%, oppure dallo 0,4 allo 0,2%, o dallo 0,00004 allo 0,00002%, ma l’impatto clinico sarebbe ovviamente molto diverso.
Tra gli indicatori che esprimono i rischi in termini relativi rispetto al gruppo di controllo può essere utile, almeno a livello di glossario, ricordarne due che si possono incontrare spesso nella letteratura scientifica (e ancor più spesso nelle brochure informative): il Rischio Relativo e l’odds ratio. Il Rischio Relativo (RR) – da non confondere con la Riduzione Relativa del Rischio sopra analizzata – rappresenta il rapporto tra la percentuale di eventi riscontrati nel gruppo sottoposto a trattamento e la percentuale di eventi riscontrati nel gruppo di controllo. Un RR inferiore ad 1 indica una maggiore efficacia del trattamento in studio rispetto al gruppo di controllo e tanto più questo si avvicina allo zero tanto maggiore è la differenza osservata tra i due trattamenti. Molto simile come concetto è l’Odds Ratio (OR), rapporto tra gli “odds” osservati nei pazienti sottoposti al trattamento in esame e "odds" osservati nel gruppo di controllo, dove per “odd” di un trattamento (termine intraducibile in italiano) si intende il rapporto tra pazienti trattati che hanno subito un esito e soggetti trattati che non ne hanno sofferto. Un po’ come nelle corse di cavalli: se “Ronzino” viene dato 1 a 3, significa che ha una possibilità di vincere e 3 di perdere (le possibilità in totale sono 4 e Ronzino avrà il 25% di chance di vittoria, cioè 1 su 4). Anche l’OR come l’RR esprime un esito favorevole al trattamento in esame quando inferiore ad 1.
Da questa breve disamina si può dunque intuire l’importanza di valutare gli effetti dei trattamenti utilizzando misure assolute. La definizione del rischio assoluto è importantissima anche nella valutazione dei rischi legati ad un trattamento. Prendiamo l’esempio del rischio di eventi tromboembolici legati all’impiego dei contraccettivi di seconda e terza generazione: gli studi osservazionali mostrano un rischio doppio nelle donne che assumono formulazioni contenenti desogestrel, drospirenone o gestodene rispetto alle donne trattate coi “vecchi” preparati contenenti levonorgestrel6. La rilevanza clinica del dato va comunque valutata - al di là della significatività statistica – in rapporto al rischio assoluto dell’evento: nel caso in questione l’aumento è riferito ad un rischio molto esiguo, quantificato in 16,8 casi in più su 100.000 anni-donna di trattamento7. Indipendentemente dalla rivista sulla quale è pubblicato, un articolo che presenta nell’abstract solo le variazioni di rischio relativo mostra più l’intento di stupire che non di descrivere la realtà.
P< 0… Quando la significatività non ha significato
I corsi delle facoltà medico-scientifiche tendono spesso ad attribuire alla statistica un ruolo marginale, infinitamente inferiore a quello della clinica nonostante sia la chiave d’accesso per le acquisizioni scientifiche.
Tra le nozioni di pubblico dominio nella microcultura medica statistica c’è quella dello “statisticamente significativo” legata ad un celebratissimo indicatore “p”, vero Bollino Blu della ricerca che sembra poter discriminare tra ciò che serve e ciò che non funziona… e più il “p” ha degli zeri dopo la virgola…. meglio è. I rappresentanti dell’Industria mettono in risalto i bassi valori di “p” prendendoli come testimonianza ufficiale del valore del loro prodotto. Ma: che cos’è il test “p” e – soprattutto - che significato deve avere per il medico? Il valore “p” esprime la probabilità che il risultato ottenuto sia dovuto al caso e viene preso per convenzione il valore di 0.05 (che corrisponde alla probabilità del 5% che il dato sia casuale) come limite per la significatività statistica.
Il valore “p” quindi è un indicatore statistico che stima la “non casualità” del risultato, ma non possiede un significato quantitativo traslabile all’efficacia di un trattamento: avere un p < 0,00001 non significa che il risultato è molto rilevante sul piano clinico ma che è molto improbabile che sia legato al caso. Il valore clinico del risultato giudicato statisticamente significativo dal valore “p” dipende dalla buona metodologia di conduzione dello studio, dal tipo di indicatore prescelto e dalla differenza assoluta tra i gruppi a confronto.
I risultati di uno studio sono comunque legati alle caratteristiche del campione che è stato selezionato: non è detto che un altro campione con caratteristiche analoghe darebbe lo stesso risultato (ciò è in effetti piuttosto improbabile). Idealmente, ci affideremmo più volentieri a un risultato che – in linea teorica, visto che un determinato studio in genere si fa una volta - non variasse in modo rilevante attraverso molti campioni (selezionati però con gli stessi criteri). L’intervallo di confidenza al 95% (95% IC) ci offre un’indicazione di quanto può essere variabile la stima presentata nello studio: in termini molto semplificati, l’IC esprime l’intervallo di valori entro i quali si stima ricadrebbero i risultati 95 volte se l’esperimento venisse ripetuto per 100 volte su campioni diversi estratti dalla medesima popolazione. Intervalli di confidenza ampi sono indicativi di una stima poco precisa, situazione tipica in presenza di campioni di numerosità insufficiente. Più il campione è numeroso minore è l’incertezza della stima, minore risulta l’ampiezza dell’intervallo di confidenza e più affidabile è la stima stessa. L’intervallo di confidenza ci fornisce quindi un’informazione particolarmente utile: sapere che la differenza stimata tra 2 interventi è del 10% ha un certo significato se l’intervallo di confidenza va da 9 a 11% (la stima ci fornisce un’idea piuttosto indicativa di quale possa essere la differenza reale), ma ha un significato piuttosto diverso se l’intervallo di confidenza si estende da 1 a 19% (abbiamo un’idea molto più vaga di quale possa essere l’effetto reale dell’intervento).
In conclusione...
La lettura di un articolo che descrive uno studio clinico richiede tempo e molta attenzione. Per evitare le trappole della informazione fuorviante è essenziale riconoscere gli artifizi numerici che possono ingigantire piccoli benefici o nascondere l’irrilevanza di asserzioni enfatizzate. La scelta dei numeri “giusti” ai quali dar credito è di fondamentale importanza nel difficile processo di comprendere la attendibilità dei dati presentati e la loro trasferibilità nella pratica clinica. Nonostante la forte tendenza alla informazione fuorviante, gli strumenti per distinguere la buona dalla cattiva ricerca esistono e sono semplici da utilizzare. Valutare che tipo di soggetti sono stati studiati, cosa hanno assunto i gruppi a confronto e che tipo di esiti sono stati valutati è fondamentale per capire quanto siano trasferibili i risultati di uno studio. E per quanto riguarda questi risultati, la significatività statistica non è un mantra e va valutata rispetto alla rilevanza clinica, misurata attraverso differenze assolute (guardarsi dalle variazioni relative!). Inoltre, gli studi sono fatti su campioni e forniscono stime, delle quali può essere utile valutare il grado di incertezza (intervalli di confidenza). Si tratta di pochi elementi, tuttavia potenzialmente utili per valutare il valore vero di uno studio e dei suoi risultati. Senza dimenticare, naturalmente, che uno studio che sia metodologicamente adeguato andrebbe valutato nel contesto degli altri studi disponibili sullo stesso argomento, per avere un quadro il più possibile completo su ciò che si sa e che non si sa sull'efficacia e sulla sicurezza dei farmaci usati in quel contesto.
1. Hatlebakk JG Review article: gastric acidity--comparison of esomeprazole with other proton pump inhibitors. Aliment Pharmacol Ther 2003; 17 Suppl 1:10-15.
2. Rosenstock J et al. Pregabalin for the treatment of painful diabetic peripheral neuropathy: a double-blind, placebo-controlled trial. Pain 2004; 110:628-638. Pregabalin for the treatment of painful diabetic peripheral neuropathy: a double-blind, placebo-controlled trial.
3. Barden J et al Outcomes in acute pain trials: systematic review of what was reported? Pain 2004; 109:351-356.
4. John T. Farrar et al. Clinical importance of changes in chronic pain intensity measured on an 11-point numerical pain rating scale. Pain 2001; 94:149-158.
5. Dahlof B et al. Prevention of cardiovascular events with an antihypertensive regimen of amlodipine adding perindopril as required versus atenolol adding bendroflumethiazide as required in the Anglo-Scandinavian Cardiac outcomes Trial Blood Pressure Lowering Arm (ASCOT-BPLA): a multicentre randomised controlled trial. Lancet 2005; 366:895-906.
6. Lidegaard Ø et al Risk of venous thromboembolism from use of oral contraceptives containing different progestogens and oestrogen doses: Danish cohort study, 2001-9. BMJ 2011; 343:d6423. doi: 10.1136/bmj.d6423.
7. Farmer RD et al. Population-based study of risk of venous thromboembolism associated with various oral contraceptives. Lancet 1997; 349:83-8.
Data di Redazione 08/2014