Applicazione dell’imputazione dei dati mancanti: un esercizio su una casistica del Registro Tumori della Regione Toscana

Titolo completo: 
Applicazione dell’imputazione dei dati mancanti: un esercizio su una casistica del Registro Tumori della Regione Toscana
E-mail (autore per corrispondenza): 
c.buzzoni@ispo.toscana.it
Autore/i: 
Buzzoni C1, Crocetti E2, Coviello V3, Caldarella A2, Corbinelli A2, Intrieri T2, Manneschi G2, Nemcova L2, Sacchettini C2, Paci E2.
Istituto/i: 
1 Banca Dati AIRTUM c/o UO Epidemiologia Clinica e Descrittiva - ISPO Istituto per lo studio e la prevenzione oncologica Firenze - 2 ISPO Istituto per lo studio e la prevenzione oncologica Firenze - 3 Azienda Sanitaria Locale BT – Barletta
Obiettivi: 
I Registri Tumori sono sempre più orientati alla raccolta di variabili cliniche e patologiche dei casi diagnosticati per definire e caratterizzare la loro storia clinica, ad esempio stadio, modalità di diagnosi e terapia effettuata. Le variabili raccolte dai Registri Tumori e oggetto delle analisi possono non essere sempre complete ma presentare dati mancanti. I dati mancanti possono essere classificati in base alle caratteristiche del processo generatore del fenomeno in (a) completamente casuali, (b) casuali, (c) non casuali. In funzione del processo generatore in letteratura sono stati identificati diversi metodi per l’imputazione dei dati mancanti. In questo lavoro abbiamo valutato l’effetto dei dati mancanti relativi alla definizione dello stadio patologico sulle stime di sopravvivenza e l’impatto su dette stime dell’imputazione dei dati mancanti effettuata mediante le tecniche di imputazione multipla.
Materiali e metodi: 
Sono stati selezionati i casi di tumore della mammella femminile infiltrante diagnosticati negli anni 1997-2001 con follow-up al 31.12.2008 dal Registro Tumori della Regione Toscana. E’ stata calcolata la sopravvivenza relativa a 5 anni dalla diagnosi; per il calcolo della sopravvivenza attesa si è utilizzato il metodo Ederer II. L’effetto dei dati mancanti è stato analizzato per la variabile stadio, codificata a partire dai valori del TNM patologico sulla base della VI° edizione. L’analisi di sopravvivenza è stata orientata a valutare l’eccesso del rischio di morte (excess-hazard ratio) delle categorie di stadio II, III,e IV rispetto alla categoria I (reference), prima e dopo l’applicazione della procedura di imputazione. E’ stato adottato il metodo dell’imputazione multipla, il quale può essere riassunto nelle seguenti tre fasi: (1) la generazione di m data-set contenenti i dati imputati in luogo dei valori mancanti, ottenuti in un contesto bayesiano da un modello di regressione sulla varabile che presenta valori mancanti in funzione delle altre; (2) l’analisi degli m data-set imputati con tecniche standard di analisi per dati completi; (3) la combinazione delle m stime ottenute e delle loro varianze in una stima globale, utilizzando le regole definite da Rubin. E’ stato utilizzato il software STATA.
Risultati: 
Dall’archivio del Registro Tumori della Regione Toscana sono stati estratti i record relativi a 4784 pazienti con diagnosi di tumore della mammella femminile negli anni 1997-2001. Per 879 pazienti l’informazioni sullo stadio è mancante, per mancanza di una o più delle tre variabili (T,N,M) necessarie per la sua definizione. Gli EHR ottenuti sulla casistica sottoposta al processo di imputazione sono superiori per lo stadio II (6.5 vs 5.5) e III (19.0 vs 14.9), inferiori per lo stadio IV (72.5 vs 86.0), ma con errori standard sempre inferiori. Nella tabella 1 è riportata la distribuzione per fascia di età e stadio alla diagnosi, sia della casistica originale sia della casistica ottenuta dopo l’applicazione della procedura di imputazione. Tra le donne in età <50 anni, 50-69 anni la distribuzione per stadio alla diagnosi non subisce sostanziali modificazioni a seguito del processo di imputazione. Tra le donne in età 70+ anni la proporzione di casi con stadio mancante è pari al 32% nella casistica originale, la proporzione di donne di stadio I, ad esempio, passa da 35% a 31%.
Discussione: 
Questa analisi preliminare mostra che una variabile importante dal punto di vista prognostico per una neoplasia che presenta un percorso diagnostico-terapeutico ben definito risulta mancante in una quota rilevante della casistica, soprattutto per le donne in fascia di età più avanzata, quindi l’applicazione delle tecniche di imputazione multipla può essere utile nelle analisi di sopravvivenza condotte sulla casistica dei registri tumori italiani.
Carica documento: