Il New England Journal of Medicine (NEJM) è la più autorevole rivista di medicina interna, sia in termini di impact factor, sia perché nel suo programma vi è l'obiettivo di ospitare solo articoli che possano mutare la pratica clinica; inoltre, il NEJM accetta per la pubblicazione meno del 5% dei lavori sottoposti: pochissimi, dato che, conoscendo il rigore della rivista, molti possibili autori si autocensurano, preferendole più sicuri approdi offerti loro dalle infinite riviste specialistiche. Il malessere che attanaglia la ricerca clinica contemporanea si riflette anche sul NEJM che di recente ha pubblicato numerosi articoli discutibili e, tra questi, due studi controllati in cui non solo le conclusioni non appaiono in accordo con i risultati, ma anche i risultati stessi sono stati ottenuti in base a quella sorta dinouvelle cuisine che sembra essere diventato il metodo scientifico applicato nella ricerca clinica: quasi tutta immagine e poco contenuto. Il lettore medio, non potendo comprendere appieno cosa ci sia dentro il black box del processo da cui scaturiscono i risultati, non viene messo in grado di valutarne criticamente la validità e, dato il prestigio della rivista, non gli resta che accettare il take home contenuto nelle conclusioni. Abbiamo definito "casi clinici" i due suddetti articoli, in quanto paradigmatici della patologia da cui è affetta la ricerca clinica contemporanea. Il più recente confronta il gefitinib versus carboplatino + paclitaxel in prima linea nell'adenocarcinoma polmonare in una selezionata popolazione di pazienti asiatici di non fumatori o ex moderatissimi fumatori (Mok TS et al. N Engl J Med 2009; 361: 947-57). Il secondo riguarda il ruolo del cetuximab in aggiunta allo schema FOLFIRI come trattamento di prima linea nel tumore metastatico del colon-retto (Van Cutsem E et al. N Engl J Med 2009; 360: 1408-17). In entrambi gli studi la Progression-Free Survival (PFS) è stata assunta come endpoint principale; pertanto è opportuno iniziare con un discussione sul merito di tale scelta.
La sopravvivenza libera da progressione (PFS)
Poiché l'interesse del paziente è vivere più a lungo possibile nelle migliori condizioni, due sono gli endpoint di efficacia: la sopravvivenza globale (Overall Survival, OS) e la qualità di vita (Quality of Life, QoL).
La PFS, definita come il tempo che intercorre tra randomizzazione e progressione di malattia o morte per qualunque causa, non può essere assunta come endpoint di efficacia, in quanto, come sottolineato anche nel recente lavoro di Fleming (Fleming TR et al. JCO 2009; 27:2874-80), è raramente provato che un allungamento del tempo alla progressione si traduca poi in una più lunga sopravvivenza (i pazienti con più elevata PFS potrebbero far registrare intervalli mediamente più brevi tra progressione e morte), sia in quanto nel periodo libero da progressione potrebbero avere una peggiore qualità di vita. Negli studi clinici, dunque, la PFS è generalmente considerata un endpoint surrogato della sopravvivenza globale ed è evidente che, come per ogni altro endpoint surrogato, la sua affidabilità va ricercata nella grandezza dell'effetto su tale misura. Ad esempio, in pazienti con una OS mediana di 8 mesi, un miglioramento statisticamente significativo di un mese nella PFS produce un'evidenza assai meno persuasiva, in termini di beneficio in sopravvivenza, di quella che sarebbe prodotta da un allungamento mediano della PFS di 4 mesi. Nella situazione delineata, la significatività statistica è relativamente poco importante, in quanto potrebbe essere ottenuta con un sovradimensionamento del campione: non tutto ciò che è statisticamente significativo è anche clinicamente rilevante.
Vi è inoltre da osservare che tale misura è imprecisa perché la progressione della malattia è stabilita spesso nel corso di una visita di follow up e, pertanto, l'imprecisione della PFS è in relazione diretta con la lunghezza del periodo che intercorre tra una visita e l'altra: ci si chiede, dunque, quale possa essere il valore della PFS mediana quando questa è inferiore alla lunghezza del periodo che intercorre tra due visite di follow up. Sebbene si possano eccepire gli effetti della randomizzazione è pur vero che l'incertezza insita nella determinazione della PFS non può essere ritenuta uguale – ma solo simile – nei gruppi sperimentali. Pertanto, se la grandezza dell'effetto del trattamento sulla PFS è piccola, essa potrebbe anche essere imputabile al residuo di imprecisione, non bilanciato dalla randomizzazione, nella determinazione della PFS; ma questo non lo sapremo mai, dato che tale imprecisione non è conoscibile con esattezza, in quanto la progressione può verificarsi in qualunque istante nell'intervallo tra due visite di follow up.
L'argomentazione spesso addotta a sostegno della scelta della PFS in luogo della OS è che, in seguito alla progressione di malattia, il paziente potrebbe ricevere altri trattamenti che produrrebbero così tanto rumore da impedire di evidenziare il beneficio del nuovo trattamento. Ciò sembra particolarmente vero nel caso degli studi sui trattamenti di prima linea del carcinoma metastatico, mentre nelle linee successive perde gradualmente importanza a causa della scarsa efficacia dei trattamenti. La suddetta argomentazione ci sembra del tutto ingiustificata per via della randomizzazione che bilancia ogni caratteristica (nota o sconosciuta; passata, presente e futura) del paziente, tra i gruppi sperimentali. Quindi, il paziente viene assegnato in modo rigorosamente casuale ai bracci di trattamento, con tutte le sue caratteristiche, compresi gli effetti che su di lui avranno i successivi trattamenti. Pertanto, se il farmaco in studio produce benefici sulla sopravvivenza, questi dovrebbero comunque essere individuati, qualunque siano i trattamenti cui il paziente sarà sottoposto. D'altronde, se tale farmaco produce un miglioramento della PFS ma non della OS, ciò vuol dire che le successive terapie (ad es., il trattamento sperimentale nei pazienti trattati con la terapia di controllo: cross-in) sono in grado di recuperare la minore efficacia del comparator. Allora, non è chiaro quale sia stato il vantaggio del paziente nel ricevere il nuovo trattamento in prima anziché in seconda linea, dato che l'esito finale sarà sempre lo stesso. L'unica cosa che si potrebbe eccepire è che il paziente vive più a lungo libero da progressione, ma questo aspetto andrebbe indagato assai accuratamente e riguarderebbe l'altra dimensione di efficacia, cioè la qualità di vita, non la sopravvivenza. Ad esempio, si pensi al caso in cui il trattamento in studio si aggiunga a quello standard: aumentando la tossicità, non è detto che la qualità di vita nel periodo libero da progressione sia buona.
In conclusione, in moltissimi casi anziché la PFS andrebbe considerata la OS come endpoint principale. La PFS, come endpoint surrogato della OS, andrebbe usata solo nei casi in cui dalla progressione alla morte del paziente trascorra un lungo periodo di tempo e, comunque, andrebbe previsto un periodo di follow up così ampio da consentire la valutazione dell'effetto del farmaco sulla sopravvivenza globale. Non c'è alcuna ragione per scegliere come endpoint principale la PFS anziché la OS quando la sopravvivenza attesa è di pochi mesi.
Gefitinib vs carboplatino-paclitaxel nell'adenocarcinoma polmonare Scheda: Studio di non inferiorità, di fase III, condotto in aperto, in cui pazienti asiatici affetti da adenocarcinoma del polmone metastatico (stadi IIIB e IV), non precedentemente trattati, non fumatori o ex moderatissimi fumatori sono stati randomizzati a ricevere gefitinib (G) o carboplatino + paclitaxel (CP).
Endpoint principale: PFS; endpoint secondari: OS, risposta obiettiva, qualità della vita, riduzione dei sintomi, profilo di tossicità. E' stata pianificata anche la valutazione di efficacia in relazione alla mutazione o meno del gene del fattore di crescita epidermoidale (EGFR).
La randomizzazione è stata condotta con l'uso di una tecnica di bilanciamento dinamico rispetto a: 1) performance status (WHO), 2) condizione di non fumatori o ex moderati fumatori, 3) sesso, 4) centro, così da avere, con sicurezza, una forte rassomiglianza dei gruppi rispetto a tali fattori.
La valutazione della risposta è stata eseguita ogni 6 settimane fino alla progressione.
La qualità di vita è stata valutata con il Functional Assessment of Caner Therapy-Lung (FACT-L), il Trial Outcome Index (TOI), il Lung Cancer Symptoms (LCS).
L'analisi statistica primaria è stata eseguita mediante il modello di Cox, aggiustando l'effetto dei trattamenti per i fattori 1, 2, 3 sopra descritti. Sono state poi condotte altre analisi non pianificate; sulla base dei risultati con esse ottenuti, gli autori hanno sostenuto nella discussione la superiorità del gefitinib.
Riportiamo nel seguito i punti di criticità ai fini della valutazione dei risultati, nell'ordine con cui appaiono scorrendo il testo. 1. Analisi statistica primaria
Il modello di Cox si basa su un'ipotesi forte: il proportional hazard, nel senso che se questo assunto non fosse rispettato i risultati andrebbero considerati alla stregua di un esercizio matematico. Il proportional hazard – una sorta di "rischio proporzionale" tra i sottogruppi definiti dalle combinazioni di modalità dei fattori considerati: 2 x 2 x 2 = 8, nel caso dell'articolo – va testato tra tutti i sottogruppi. Non c'è traccia, né nel lavoro, né nell'appendice (pubblicata solo on-line) che sia stata condotta tale verifica né, quindi, quali fossero i risultati ottenuti. Per l'analisi dell'endpoint principale non ci sarebbe stato bisogno di ricorrere ad un così complesso strumento, anche per le insidie che esso può comportare (proportional hazard non rispettato); sarebbe stato sufficiente un semplice log-rank test (come fanno tutti) che, in quanto test non parametrico, non richiede alcuna assunzione. Inoltre, la randomizzazione "dinamicamente bilanciata" ha ottenuto eccellenti risultati: cade così anche la necessità di usare un modello multifattoriale per l'aggiustamento dell'effetto dei trattamenti per i tre fattori considerati. 2. I risultati di efficacia
La PFS mediana è stata di 5,7 mesi nel gruppo G e di 5,8 mesi in CP, dando così un verdetto di quasi assoluta parità. Ma gli autori non si sono accontentati di aver raggiunto l'obiettivo dello studio ed hanno voluto eseguire altre analisi (non pianificate) considerando un cut-off a 12 mesi e mostrando che, a tale data, la percentuale di pazienti sopravviventi ancora non in progressione era del 24,9% nel gruppo G e del 6,7% nel gruppo CP. Non solo tale analisi non era stata pianificata, ma scegliendo un diverso cut off, i risultati sarebbero stati differenti. Le due curve della PFS si intersecano in un istante all'incirca coincidente con la mediana, essendo per i primi 5-6 mesi la PFS superiore nel gruppo PC e nel restante periodo (6-22 mesi) superiore nel gruppo G. Quindi, se il cut off fosse stato scelto a 4, anziché a 12 mesi, i risultati sarebbero stati opposti, mostrando che CP dà una maggiore PFS di G. Per inciso, proprio a 12 mesi la differenza tra i due gruppi è maggiormente a favore di G. Inoltre, sulla base dell'intersezione delle due curve gli autori hanno osservato che la PFS è superiore nel gruppo G tra 6 e 22 mesi: un periodo ben più lungo di quello tra 0 e 6 mesi, in cui è superiore CP! In realtà, tale fenomeno potrebbe essere attribuibile ad una distorsione da selezione: poiché la progressione (o la morte) è imputabile (oltre che al trattamento) anche alle condizioni del paziente, essendosi registrata nei primi 6 mesi una maggior eliminazione di pazienti (è presumibile che si tratti soprattutto di quelli in peggiori condizioni) nel gruppo G, in esso sono rimasti, più che non nel gruppo CP, pazienti in mediamente migliori condizioni (quelli in peggiori condizioni sono andati in progressione) e ciò potrebbe spiegare il risultato osservato. In altre parole, a 6 mesi, i gruppi non sono più paragonabili in quanto è avvenuta un'eliminazione differenziale che ha lasciato un maggior numero di pazienti in migliori condizioni in G che non in CP. 3. La sopravvivenza globale
Gli autori presentano in appendice anche i risultati relativi alla sopravvivenza globale, avvertendo che il periodo di follow up considerato è ancora molto breve. Le curve di sopravvivenza, quasi sovrapponibili, si intersecano o si toccano in più punti e l'hazard ratio per OS è 0,91 con un intervallo di confidenza al 95% che va da un minimo di 0,76 ad un massimo di 1,10: la sopravvivenza globale è praticamente la stessa. 4. La valutazione della qualità di vita
I risultati a favore di G vanno presi con estrema cautela, non solo a causa della inevitabile selezione dei pazienti (non riportata nell'articolo), ma anche perché lo studio non è stato condotto in cieco. Pertanto, i risultati potrebbero essere inficiati da una distorsione di informazione. 5. Analisi per sottogruppi
Sempre con il modello di Cox sono stati analizzati i risultati divisi a seconda della presenza o meno della mutazione del gene per l'EGFR. I pazienti analizzati per tale caratteristica sono 437, poco più di 1/3 del totale dei pazienti arruolati; di essi 261 (59,7%) presentavano una o più mutazioni e 176 (40,3%) nessuna mutazione. Nel sottogruppo dei pazienti con mutazione, la PFS dei pazienti trattati con G era superiore rispetto a CP, mentre il contrario accadeva nel sottogruppo dei pazienti senza mutazione, in cui CP si dimostrava superiore a G. Anche l'interazione fra trattamento e stato delle EGFR era significativa. Sebbene, anche in questa analisi non sia stato testato il proportional hazard, le curve della PFS sembrano incontrovertibili. Tuttavia i risultati vanno presi con cautela per via della possibile presenza di distorsioni da selezione indotte dalla mancata valutazione di circa i 2/3 dei pazienti. Interessante è l'esame della risposta obiettiva (CR + PR):
- pazienti con EGFR non mutato: 1,1% (di 91) nel gruppo G e 23,5% (di 85) nel gruppo CP;
- pazienti con mutazione: 71,2% (di 132) nel gruppo G e 47,3% (di 129) nel gruppo CP.
Sembra che la mutazione favorisca la risposta in entrambi i gruppi, sebbene in misura maggiore nel gruppo G.
In conclusione, vi è un indizio (ma non una prova) che i pazienti (asiatici, non fumatori) con mutazioni dell'EGFR possano trarre più beneficio da G che da CP. Per le considerazioni precedenti, la prova di ciò potrebbe essere raggiunta solo con uno studio randomizzato programmato ad hoc.
Si tratta di uno studio senz'altro ben confezionato, in cui però le conclusioni sulla superiorità del gefitinib rispetto al carboplatino + paclitaxel, nei pazienti asiatici non fumatori affetti da adenocarcinoma del polmone in fase avanzata, non sembrano potersi desumere dai risultati, non solo per quanto sopra esposto, ma anche perché resta sempre il dubbio se un verdetto di superiorità possa essere raggiunto con uno studio programmato come di non inferiorità.
Cetuximab nella prima linea del cancro del colon-retto metastatico Scheda:Studio di fase III, in aperto, condotto in un ampio campione di pazienti affetti da cancro del colon-retto metastatico randomizzati a ricevere, in prima linea, lo schema FOLFIRI da solo o con l'aggiunta di cetuximab.
Endpoint principale: PFS. Endpoint secondari: OS, risposta obiettiva, profilo di tossicità.E' stata condotta un'analisi retrospettiva per sottogruppi, su un sottoinsieme di pazienti, per valutare l'importanza della mutazione del gene KRAS ai fini dell'effetto del trattamento sulla PFS, sulla OS, sulla risposta obiettiva. Strumenti statistici: Log-rank test (bidirezionale) per PFS e OS. Per l'analisi dei sottogruppi: modello di Cox per PFS e OS, modello logistico multifattoriale per la risposta. 1. Risultati di efficacia
La PFS mediana è di 8,9 mesi, con un intervallo di confidenza al 95% da 8,0 a 9,6 nel gruppo FOLFIRI + cetuximab (FC), mentre è di 8,0 mesi (95% IC: da 7,6 a 9,0) nel gruppo FOLFIRI (F) da solo. La differenza tra le mediane è di soli 0,9 mesi (27 giorni). Malgrado i due intervalli di confidenza si accavallino, l'hazard ratio vale 0,85 (indicando che l'aggiunta di cetuximab riduce il rischio di progressione del 15%) e risulta significativo (p=0,048), probabilmente dato l'alto numero di pazienti arruolati (599 + 599 = 1.298). La sopravvivenza globale è praticamente sovrapponibile nei due bracci.
La differenza di efficacia dei due trattamenti è stata analizzata separatamente per 348 pazienti con il gene KRAS non mutato (wild-type, WT-KRAS) e per 192 pazienti con KRAS mutato (M-KRAS) mediante il modello di Cox, senza aver condotto alcuna verifica dell'assunzione del proportional hazard. L'hazard ratio della PFS tra i due trattamenti è pari a 0,68 (32% di riduzione del rischio di progressione, p=0,02) per WT-KRAS, e 1,07 (n.s.) per M-KRAS. Per la OS le differenze non sono significative.
I risultati appaiono discutibili non solo per le ragioni legate all'analisi per sottogruppi, ma anche per due altri motivi specifici:
- l'interazione tra stato del gene KRAS e trattamento per la PFS non è risultata significativa (p < 0,07): malgrado l'elevato numero di pazienti considerati, non si può concludere per una differente efficacia dei trattamenti nei due sottogruppi, cioè il risultato potrebbe essere dovuto al caso;
- l'analisi riguarda solo 540 pazienti che non sono stati estratti a sorte dai 1.198 pazienti della popolazione in studio. Pertanto, la possibilità della presenza di una distorsione da selezione non può essere esclusa.
Invece di considerare l'analisi per sottogruppi come una ipotesi da verificare in un successivo studio randomizzato, gli autori esaltano questi risultati come prova convincente della maggior efficacia del cetuximab nei pazienti con WT-KRAS. Non solo. L'EMEA, e dal 17 luglio anche la FDA, approvando il cetuximab solo per pazienti WT-KRAS sembrano aver accettato acriticamente tale risultato, senza preoccuparsi che, in realtà, la sopravvivenza globale è la stessa. 2. Tossicità
Il profilo di tossicità tra i due trattamenti è reso evidente dalle numerose differenze significative tra gli eventi avversi. Nel gruppo dei pazienti trattati con cetuximab è significativamente più elevata l'incidenza di diarrea, rash cutanei, dermatiti acneiformi, reazioni correlate all'infusione. Ci si chiede quale sia stato l'impatto della tossicità aggiuntiva sui 27 giorni vissuti in più liberi da progressione.
Conclusioni
C'era una volta Marcia Angell … La ricordate come deputy editor del NEJM?
La responsabilità delle riviste scientifiche, soprattutto di quelle più prestigiose, dovrebbe spingere i referee ad essere più severi nelle loro valutazioni e gli editor a non accettare lavori i cui risultati mostrino un marginale miglioramento di efficacia del nuovo farmaco su un endpoint surrogato senza che vi sia conferma di ciò sulla sopravvivenza globale. Se manca un tale filtro (fino a qualche anno fa davvero severo per riviste come il NEJM), l'impatto sulla pratica clinica, mediato dalla autorità regolatorie, è rovinoso non solo in termini di tossicità aggiuntiva per i pazienti, ma anche per il Servizio Sanitario Nazionale, in quanto la pubblicazione di articoli come quelli sopra discussi conduce all'approvazione del nuovo farmaco. Sorgono allora due problemi rilevanti:come migliorare il livello degli articoli che possono avere un impatto sulla pratica clinica e come agire affinché il lettore ne dia una valutazione critica indipendente dal prestigio della rivista; quali comportamenti dovrebbero adottare le autorità regolatorie nell'approvazione dei nuovi farmaci.
A nostro avviso, la risposta al primo quesito è, nel medio periodo, intraprendere studi indipendenti mentre, nel breve periodo, il lettore dovrebbe vincere la propria pigrizia e scrivere lettere all'editore così da ammonirlo che il pubblico cui si rivolge la rivista è critico sulla politica editoriale seguita. Per potenziare tale azione, aumentando il numero dei possibili autori di lettere, è necessaria un'azione educazionale, che dovrebbe essere intrapresa dall'AIOM, o dalla sua Fondazione, o dal CIPOMO, assai più incisiva di quella finora espletata.Per quanto concerne il secondo quesito, ai fini autorizzativi, le autorità regolatorie non dovrebbero basarsi solo sull'autorevolezza delle riviste che pubblicano i risultati degli studi clinici, ma produrre un'autonoma, più critica valutazione dell'impatto dei nuovi farmaci sulla salute del paziente, pensando soprattutto alle ripercussioni delle loro decisioni sulla pratica clinica e sul servizio sanitario. D'altronde, la necessità di alzare la soglia di efficacia per l'approvazione da parte delle autorità regolatorie è sottolineata in un bellissimo editoriale di Sobrero e Bruzzi (Incremental advance or seismic shift? The need to raise the bar of efficacy for drug approval JCO 2009; 27: in corso di pubblicazione) e crediamo sia anche questa una strada da intraprendere per salvare la sanità pubblica. Sempre che lo si voglia.
Bibliografia 1. Gilron I et al. Nortriptyline and gabapentin, alone and in combination for neuropathic pain: a double-blind, randomised controlled crossover trial. Lancet 2009; 374:1252–61. 2. Jensen TS, Finnerup NB. Neuropathic pain treatment: a further step forward. Lancet 2009; 374:1218-9. 3.Finnerup NB et al. Algorithm 19 for neuropathic pain treatment: an evidence based proposal. Pain 2005;118:289-305. 4. Dworkin RH et al. Pharmacologic management of neuropathic pain: evidence-based recommendations. Pain2007; 132:237-51. 5. Moulin DE et al. 21 Pharmacological management of chronic neuropathic pain—consensus statement and guidelines from the Canadian Pain Society. Pain Res Manag 2007; 12:13-21. 6. Attal N et al. 22 EFNS guidelines on pharmacological treatment of neuropathic pain. Eur J Neurol 2006;13:1153-69. 7. Vedula SS et al. Outcome reporting in industry-sponsored trials of gabapentin for off-label use. N Engl J Med2009; 361:1963-71. 8. Steinman MA et al. The promotion of gabapentin: an analysis of internal industry documents. Ann Intern Med2006; 145:284-93.