Recentemente l'EMEA ha approvato nuove indicazioni per alcuni farmaci antitumorali sulla base dei risultati di analisi per sottogruppi. E' il caso del cetuximab e del panitumomab nel carcinoma del colon-retto metastatico nei pazienti con K-RAS "wild type" e del pemetrexed nel carcinoma del polmone non microcitoma (solo in pazienti con carcinoma non epidermoide metastatico). La FDA da parte sua ha approvato il pemetrexed con le stesse indicazioni, mentre ha chiesto all'Oncological Drug Advisory Committee (ODAC), una commissione consultiva, di rispondere ad alcune domande: 1) quando sarebbe appropriato limitare l'uso di un farmaco ad un sottogruppo di pazienti basandosi su un'analisi di uno o più studi non disegnati specificamente per esaminare tale sottogruppo; 2) quando sarebbe necessario uno studio prospettico disegnato ad hoc per valutare l'effetto di un trattamento su un pre-specificato sottogruppo di pazienti1.
Nell'articolo, dopo aver esaminato le problematiche relative all'analisi per sottogruppi all'interno di una sperimentazione clinica controllata, saranno valutate le scelte compiute dagli enti regolatori sulla base dei dati disponibili. L'analisi per sottogruppi I limiti
L'analisi per sottogruppi relativa all'efficacia di due trattamenti nei sottocollettivi di pazienti definiti da singoli fattori predittivi o da loro combinazioni produce nuove e preziose conoscenze in campo medico, ma presenta limiti intrinseci importanti.
Consideriamo dapprima il caso più semplice di un end point di efficacia (o di tollerabilità) dicotomico (esempi: successo/insuccesso terapeutico, sopravvivenza a 5 anni, sopravvivenza libera da progressione [PFS] a 2 anni, insorgenza di un determinato evento avverso grave).
I risultati di uno studio clinico randomizzato longitudinale vengono analizzati con un test statistico di tipo chi-quadrato o con il test esatto di Fisher se una frequenza è molto bassa in almeno uno dei due gruppi di trattamento (A, B). Respingere l'ipotesi nulla di uguale efficacia dei trattamenti al livello di significatività, poniamo del 5%, vuol dire considerare, ad esempio, A più efficace di B con una probabilità del 5% di sbagliare nel riconoscere la superiorità di A, quando, in realtà, i due trattamenti hanno la stessa efficacia. La logica di questa decisione è basata sulla rarità dell'evento osservato: se fosse vera l'ipotesi nulla, un valore così alto del test statistico e ogni altro suo possibile valore ancora più grande avrebbero complessivamente una probabilità non superiore al 5% di presentarsi e quindi costituirebbero un evento raro; poiché, con certezza, un evento raro non si presenta, non resta che respingere l'ipotesi nulla di uguale efficacia dei trattamenti, ricordando però che nel prendere tale decisione vi è una probabilità del 5% di commettere un errore (detto "errore di 1a specie": i trattamenti hanno la stessa efficacia, ma il test statistico è risultato significativo).
Il complemento a 1 del livello di significatività fissato pari a 0,05, cioè 0,95, rappresenta la probabilità di accettare l'ipotesi nulla quando essa è vera.
Analogamente, se accettiamo l'ipotesi nulla, siamo autorizzati a ritenere che i due trattamenti abbiano la stessa efficacia. Ma anche in questo caso vi è la possibilità di sbagliare: A e B sono diversamente efficaci, ma il test statistico utilizzato non ha consentito di cogliere tale differenza. Questo errore, detto "errore di 2a specie", risente fortemente della numerosità del campione studiato, nel senso che la sua probabilità di verificarsi è tanto maggiore quanto minore è la dimensione del campione.
Introduciamo ora un fattore predittivo, F, e classifichiamo i pazienti valutati nello studio clinico a seconda che presentino (FP) o meno (FA) F. In ciascuno dei due sottogruppi definiti da F è possibile applicare il test statistico considerato, per vedere se la differente efficacia di A e B, riscontrata nell'intero campione di pazienti, si conserva o muta (cioè è più grande, più piccola, di segno opposto) quando il fattore è presente (FP) e quando è assente (FA). Ovviamente, anche se i due trattamenti avessero mostrato la stessa efficacia nell'intero campione in studio (test non significativo), potrebbero mostrare un'efficacia differenziale significativa in FP (o in FA).
Ma cosa accade quando applichiamo il test ai due sottogruppi?
Come si è visto, considerando un solo test, se i trattamenti hanno la stessa efficacia, si ha il 95% di probabilità di accorgersene. Ora, poiché il test è ripetuto (indipendentemente) due volte sullo stesso materiale sperimentale, la probabilità di accettare l'ipotesi nulla in entrambi i casi (e, quindi, di raggiungere una decisione corretta), per il principio delle probabilità composte relative ad eventi indipendenti, è pari al prodotto 0,95 x 0,95 = 0,9025. Quindi, il complemento a 1 di tale valore (1 - 0,9025 = 0,0975) è la probabilità di sbagliare almeno una volta nel dichiarare A e B diversamente efficaci. Poiché il livello di significatività misura la probabilità dell'errore di 1a specie, in questo caso è pari al 9,75%. Cade così la logica del test statistico perché non possiamo più considerare "raro" un evento che ha una probabilità che è quasi doppia del 5% fissato come standard internazionale.
La strada per risolvere il problema dei "confronti multipli" è quella indicata da Bonferroni: diminuire il livello di significatività per ciascun confronto (o contrasto) in modo che lo stesso sia, complessivamente, non superiore al 5%. Ad esempio, se per ciascun confronto dimezzassimo il livello di significatività, portandolo al 2,5%, otterremmo all'incirca un livello di significatività complessivo del 5% (1 - 0,975 x 0,975 = 1 - 0,950625 = 4,9375%).
Per tante ragioni, di norma, nel caso di risposta dicotomica, l'analisi per sottogruppi è eseguita mediante modelli logistici considerando due fattori, trattamento (A, B) e fattore predittivo (FP, FA): sarà la significatività dell'interazione a mostrare se la differente efficacia dei trattamenti è diversa nei due sottogruppi definiti da F. Tuttavia, malgrado l'unitarietà dello strumento, il problema dei confronti multipli rimane.
Quando i fattori prognostici considerati sono due o più, la complessità dell'analisi cresce considerevolmente. Anzitutto si aggrava il problema dei confronti multipli, in quanto, al crescere del numero dei fattori considerati, occorrerebbe diminuire il livello di significatività per ogni singolo contrasto in modo che quello complessivo sia del 5% (approssimativamente, si divide il livello di significatività per il numero dei contrasti: ad esempio, se considerassimo 4 fattori con due modalità ciascuno, dovremmo eseguire 4 x 2 = 8 contrasti ed il livello di significatività per ciascuno di loro dovrebbe esser posto pari a 0,05 / 8 = 0,00625). In questo modo, però, quasi più nulla risulterebbe significativo.
In secondo luogo, i fattori prognostici considerati sono spesso correlati tra loro: i pazienti che presentano un fattore predittivo F1 potrebbero avere una diversa probabilità di presentare F2, e così via. Ad esempio, si potrebbe verificare che la significatività dell'efficacia differenziale dei trattamenti (o la mancata significatività) osservata in presenza di un fattore sia dovuta, in realtà, alla relazione del fattore con altri fattori. In conclusione la diversa efficacia dei trattamenti andrebbe esplorata aggiustando per tutti gli altri fattori, ossia, considerando un modello logistico più complesso, dove, come variabili esplicative, andrebbero considerati, oltre al trattamento, tutti i fattori predittivi che si ritengono importanti. Ciò, però, è quasi sempre inattuabile se i fattori sono numerosi, perché si corre il rischio che, nella partizione del gruppo originario di pazienti rispetto alle possibili combinazioni di modalità dei fattori, più di una casella risulti con frequenza nulla o piccolissima, per cui le stime dei parametri diventano inaffidabili ("tortura" dei dati). Ad esempio, se in uno studio clinico vengono valutati 400 pazienti, considerando 8 fattori dicotomici avremmo 16 possibili combinazioni di modalità, per cui il numero di pazienti per casella, nel migliore dei casi, sarebbe pari a 400 / 16 = 25. In realtà, però, vi saranno caselle con alcune decine di pazienti, mentre in altre le frequenze saranno piccolissime o addirittura nulle: il programma di calcolo stima tutto, ma l'attendibilità di queste stime è discutibile.
Veniamo ora all'errore di 2a specie, che abbiamo detto essere dipendente dalla numerosità del campione. E' ovvio che i fattori predittivi dividono il campione dei pazienti valutati per cui, in ciascun sottogruppo, la potenza (= 1 - probabilità dell'errore di 2a specie) risulta assai ridotta rispetto a quella valutata per l'intero campione, con il risultato che anche se un fattore fosse importante, in quanto l'efficacia differenziale dei trattamenti è diversa tra i pazienti in cui è presente o assente, sarebbe poco probabile che ce ne accorgessimo (test significativo) a causa dell'esiguità numerica di ciascun sottogruppo.
Consideriamo ora il caso in cui la risposta al trattamento sia una durata di tempo (sopravvivenza totale [overall survival], sopravvivenza libera da progressione [progression free survival], e così via). Se c'è un solo fattore, per valutare la diversa efficacia dei trattamenti nei due sottogruppi, potremmo eseguire, ad esempio, il log-rank test o l'hazard ratio, che non hanno bisogno di assunzioni, o, se l'ipotesi del proportional hazard fosse verificata, potremmo ricorrere al modello di Cox. Comunque, da un lato, il problema dei confronti multipli continuerebbe a conservare la sua criticità e, dall'altro, la ridotta potenza del test, dovuta ad una diminuzione della dimensione campionaria potrebbe impedire di constatare l'efficacia differenziale dei trattamenti nei sottogruppi.
Il quadro peggiora nel caso in cui volessimo aggiustare l'effetto di un fattore per gli altri fattori, considerando un unico modello, che, allo stato delle attuali conoscenze, non potrebbe che essere il modello di Cox. Questo modello, però, è incentrato sull'ipotesi del proportional hazard, che, in caso di una pluralità di fattori, è improbabile che sia rispettata o, comunque, diventa quasi impossibile testare.
In conclusione, l'analisi dell'efficacia di due trattamenti nei sottogruppi definiti da più fattori predittivi è una fonte preziosa di conoscenze. Anzitutto, perché le proprietà della randomizzazione si estendono anche ai sottogruppi (i pazienti FP, come gli FA, vengono randomizzati ai due trattamenti), sebbene, in caso di esiguità numerica di un sottogruppo, potremmo assistere a sbilanciamenti anche considerevoli. In secondo luogo, perché i suoi risultati potrebbero indurre a pensare a nuovi meccanismi fisiopatologici di azione dei farmaci in studio, ovvero ad avanzare ipotesi sulle ragioni sottostanti la documentata importanza dei fattori considerati.
Si tratta però di un'analisi essenzialmente esplorativa le cui conclusioni, nella ricerca clinica, dovrebbero essere sottoposte ad ulteriori studi programmati ad hoc. Ad esempio, se nel corso di tale analisi ci accorgessimo che la diversa efficacia di A rispetto a B è molto più accentuata nei pazienti FP, mentre non c'è differenza significativa nei pazienti FA, si dovrebbe condurre uno studio ad hoc per saggiare questa ipotesi. Quindi, dalla necessità di studi di conferma nasce l'esigenza di considerare i risultati di un'analisi per sottogruppi più che come probativa, semplicemente suggestiva di ipotesi. Per fare un'analogia, tra i risultati delle analisi per sottogruppi e quelle relative all'intero campione di pazienti valutati passa la stessa differenza concettuale che c'è, in campo penale, tra indizio e prova di colpevolezza Enti regolatori e analisi per sottogruppi
Per la prima volta in Oncologia, le autorità regolatorie hanno iniziato ad utilizzare i risultati delle analisi per sottogruppi presentati dalle industrie produttrici del panitumomab, cetuximab e pemetrexed, nel tentativo di definire nuovi criteri di approvazione per questi farmaci.
Carcinoma del colon-retto metastatico
Recentemente sono stati pubblicati i risultati di alcuni studi di fase III nelle varie linee di chemioterapia per il trattamento del carcinoma del colon-retto metastatico:
CRYSTAL, condotto in 1.198 pazienti, ha confrontato FOLFIRI (fluorouracile, irinotecan e acido folinico) + cetuximab verso FOLFIRI come prima linea di chemioterapia. Il cetuximab ha determinato un aumento statisticamente significativo dell'end point principale, la sopravvivenza libera da progressione (8,9 vs 8,0 mesi). Nessuna differenza è stata riscontrata in termini di sopravvivenza globale2.
CAIRO2, eseguito in 755 pazienti, ha confrontato capecitabina + oxaliplatino + bevacizumab ± cetuximab come prima linea di chemioterapia. L'aggiunta del cetuximab ha determinato una diminuzione statisticamente significativa della sopravvivenza libera da progressione (10,7 vs 9,4 mesi) con un peggioramento della qualità di vita. Anche in questo studio non sono emerse differenze nella sopravvivenza globale fra i due gruppi di pazienti3.
EPIC, realizzato su 1.298 pazienti già trattati con fluoropirimidine + oxaliplatino, ha confrontato irinotecan + cetuximab verso irinotecan da solo come seconda linea di chemioterapia. La sopravvivenza globale, end point principale dello studio, non è risultata significativamente differente (mediane: 10,7 vs 10,0 mesi) mentre la sopravvivenza libera da progressione (4,0 vs 2,6 mesi) e la qualità di vita sono risultati significativamente superiori con il cetuximab4. I risultati di questo studio, ben pianificato e condotto, inducono ad una riflessione: malgrado la sopravvivenza libera da progressione sia risultata superiore nel braccio di trattamento, basta guardare le curve di sopravvivenza globale per capire che i risultati sono sovrapponibili. Ma è corretto da parte delle autorità regolatorie basare la decisione di registrare sulla PFS anziché sulla sopravvivenza globale?
NCIC-017, condotto su 572 pazienti dopo chemioterapia con oxaliplatino, irinotecan e fluoropirimidine, ha confrontato cetuximab verso la terapia di supporto come terza linea di chemioterapia. La sopravvivenza a 1 anno (end point primario su cui era stata calcolata la dimensione del campione, considerando una differenza di almeno il 10% come clinicamente rilevante) è stata del 21% contro 16% e la sopravvivenza mediana globale è stata di 6,1 contro 4,6 mesi, differenze entrambe statisticamente significative5.
In conclusione i quattro studi randomizzati sul cetuximab, con l'eccezione dello studio CAIRO2, hanno dimostrato un aumento statisticamente significativo della sopravvivenza libera da progressione o della sopravvivenza globale rispetto ai trattamenti di controllo, ma le differenze appaiono davvero esigue. Analisi per sottogruppi
I dati raccolti in questi 4 studi sono stati rielaborati per vedere se in qualche sottogruppo di pazienti le differenze fossero più accentuate o meno. Si tratta di un'analisi non pianificata, di cui vengono riportati nellaTabella 1 i risultati relativi al K-RAS, considerato come fattore dicotomico: non mutato ("wild type") o mutato. Va ricordato che l'analisi per K-RAS non riguardava tutta la popolazione arruolata, ma rispettivamente il 45% (540/1198) nello studio CRYSTAL, il 69% (520/755) nello studio CAIRO2, il 23% (300/1298) nello studio EPIC e il 69% (394/572) nello studio NCIC-017.
Infine, per completezza, si riportano i risultati dello studio OPUS, di fase II, in cui si confrontava FOLFOX (fluorouracile, oxaliplatino, acido folinico) ± cetuximab in prima linea in 337 pazienti: la sopravvivenza libera da progressione e la sopravvivenza globale non sono risultate significativamente differenti tra i due trattamenti. L'analisi dello stato del K-RAS ha riguardato 233 pazienti (69%): la PFS nei casi con K-RAS WT era di 7,7 mesi (61 pz) con cetuximab e 7,2 mesi (73 pz) senza cetuximab; mentre nei pazienti con K-RAS mutato era di 5,5 mesi (52 pz) con cetuximab e 8,6 (47 pz) senza cetuximab6.
Con tutte le cautele che debbono essere adottate nel valutare i risultati delle analisi per sottogruppi, ci si chiede come i risultati sopra esposti siano potuti apparire all'EMEA così eclatanti da indurla ad approvare il cetuximab e il panitumumab solo per pazienti con K-RAS "wild type" senza chiedere ulteriori studi di conferma, pianificati ad hoc.
La FDA, nell'inviare le domande sulle analisi per sottogruppi all'ODAC, ha anche avvisato l'industria farmaceutica che l'approccio ottimale sarebbe quello di condurre uno studio controllato prospettico nei sottogruppi K-RAS di pazienti testati con metodologia validata. Inoltre, poiché le analisi retrospettive eseguite sul K-RAS avrebbero modificato la pratica clinica oncologica a tal punto da non rendere più fattibile uno studio prospettico (sic!), la FDA ha informato le ditte che avrebbe comunque valutato analisi retrospettive di studi clinici se tutte le seguenti condizioni fossero state rispettate:
studi controllati e ben condotti;
grande numero di pazienti arruolati con allocazione random approssimata dei fattori non utilizzati come variabili di stratificazione per la randomizzazione (ad es. lo stato del K-RAS);
esecuzione dello stato del K-RAS in una elevata percentuale dei pazienti (almeno il 95% dei pazienti registrati), valutabile in almeno il 90% dei pazienti;
esecuzione del dosaggio del K-RAS con metodica analitica accettabile;
esistenza di un accettabile predefinito piano di analisi.
In risposta, le ditte produttrici del cetuximab e panitumumab hanno presentato i dati riportati (vedi Tabella 1 eTabella 2) e hanno deciso di modificare gli studi in corso arruolando solo pazienti con K-RAS "wild type".
Ora mancano solo le decisioni dell'ODAC e della FDA in proposito.
I limiti
In ogni caso, va detto che queste analisi presentano grandi limitazioni in quanto:
non sono state pianificate per testare l'ipotesi del ruolo del K-RAS;
sono state condotte su un sottogruppo di pazienti sempre piuttosto scarso e comunque, tranne in uno studio, sempre decisamente inferiore al 90% dei pazienti arruolati;
i sottogruppi rappresentano frazioni del campione originale e sono pertanto caratterizzati da incontrollata variabilità nelle caratteristiche dei soggetti che li compongono. Ciò può determinare stime inaccurate del fenomeno indagato. Critici da questo punto di vista sono i risultati statisticamente significativi di un'analisi per sottogruppi (ad esempio, quelli riguardanti l'impatto sulla OS nei K-RAS "wild type" dello studio CRYSTAL e NCIC-017, vedi Tabella 1) in presenza di risultati statisticamente non significativi o clinicamente poco rilevanti nella coorte originale;
sebbene le analisi per sottogruppi siano state eseguite in cieco (così dichiarano le ditte produttrici), i risultati sono stati analizzati dopo una valutazione di efficacia che ha prodotto risultati molto modesti (sembra legittimo chiedersi se considerare lo stato del K-RAS sia un tentativo di rivitalizzare un farmaco che studi adeguati dimostravano sostanzialmente dare risultati clinicamente assai poco rilevanti);
i risultati di analisi multiple (per end point primario, per end point secondari, analisi per sottogruppi) nell'ambito di uno stesso campione vanno considerati con estrema cautela. Infatti, come già evidenziato, per la disuguaglianza di Bonferroni, quanto maggiore è il numero di tali analisi tanto più i loro risultati sono esposti al rischio che sia il caso a determinarne l'esito8.
Pertanto, poiché la probabilità di un abbaglio è grande, non resta che sperare che la FDA costringa le aziende a condurre uno studio prospettico per validare i risultati delle analisi per sottogruppi. Tale posizione potrebbe condizionare anche la scelta dell'EMEA che verrebbe così ad essere ridiscussa. Carcinoma non microcitoma polmonare
Uno studio di "non inferiorità" (come tale altamente criticabile) ha confrontato il pemetrexed in associazione al cisplatino col trattamento standard gemcitabina + cisplatino come prima linea di chemioterapia in 1.727 pazienti con carcinoma non microcitoma del polmone. Nello studio, il pemetrexed ha determinato una sopravvivenza globale mediana sovrapponibile alla gemcitabina (10,3 vs 10,3 mesi)9. Un'analisi per sottogruppi, però, ha suggerito che il pemetrexed fosse più efficace della gemcitabina negli adenocarcinomi (12,6 vs 10,9 mesi di sopravvivenza globale in 847 pazienti) o nel carcinoma a grandi cellule (10,4 vs 6,7 mesi in 153 pazienti) e meno efficace nei carcinomi epidermoidi (9,4 vs 10,8 mesi in 244 pazienti). In questo caso, senza troppo riflettere, sia l'EMEA che la FDA hanno approvato il pemetrexed associato al cisplatino solo per i carcinomi non epidermoidi.
Recentemente, un'analisi retrospettiva per sottogruppi dello studio di confronto tra pemetrexed e docetaxel come seconda linea di trattamento del carcinoma non microcitoma del polmone ha suggerito come il pemetrexed possa essere più efficace nei carcinomi non squamosi (9,3 vs 8,0 mesi di sopravvivenza globale) e il docetaxel nei carcinomi squamosi (7,4 vs 6,2 mesi)10.
Confronta confronta, qualcosa alla fine si trova sempre. Conclusioni
Le analisi per sottogruppi costituiscono una fonte preziosa di acquisizione di conoscenze in campo medico, ma sono indagini puramente esplorative i cui risultati, lungi dall'essere conclusivi, rappresentano solo ipotesi da sottoporre a verifica sperimentale. Da qui la necessità, e la forte richiesta, di studi pianificati ad hoc.
Sembra, però, che le più importanti autorità regolatorie la pensino diversamente, senza comprendere (o forse comprendendo benissimo) che un simile atteggiamento contribuisce ad allontanare sempre più la ricerca clinica dai canoni dalla ricerca scientifica. Bibliografia 1. www.fda.gov/ohrms/dockets/ac/08/briefing/2008-4409b1-01-fda.pdf. 2. Van Cutsem E et al. Cetuximab and chemotherapy as initial treatment for metastatic colorectal cancer. N Engl J Med 2009; 360: 1408-17. 3. Tol J et al. Chemotherapy, bevacizumab, and cetuximab in metastatic colorectal cancer. N Engl J Med 2009;360: 563-72. 4. Sobrero A et al. EPIC: phase III trial of cetuximab plus irinotecan after fluoropyrimidine and oxaliplatin failure in patients with metastatic colorectal cancer. J Clin Oncol 2008; 26: 2311-19. 5. Jonker DJ et al. Cetuximab for the treatment of colorectal cancer. N Engl J Med 2007; 357:2040-8. 6. Bokemeyer C et al. Fluorouracil, leucovorin, and oxaliplatin with or without cetuximab in the first-line treatment of metastatic colorectal cancer. J Clin Oncol 2009; 27: 663-71. 7. Van Cutsem E et al. Open-label phase III trial of panitumumab plus best supportive care compared with best supportive care alone in patients with chemotherapy-refractory metastatic colorectal cancer. J Clin Oncol 2007;25: 1658-64. 8. Analisi per sottogruppi: guardare ma non toccare. BIF 2008; 5: 201-203. 9. Scagliotti GV et al. Phase III study comparing cisplatin plus gemcitabine with cisplatin plus pemetrexed in chemotherapy-naive patients with advanced-stage non-small-cell lung cancer. J Clin Oncol 2008; 26: 3543-51 10. Scagliotti G et al. The differential efficacy of pemetrexed according to NSCLC: a review of two Phase III studies. Oncologist 2009; 14:253-63.