EDIT: Poiché questa domanda è stata gonfiata, un riassunto: trovare diversi set di dati significativi e interpretabili con le stesse statistiche miste (media, mediana, media e le loro dispersioni associate e regressione).
Il quartetto Anscombe (vedi Scopo della visualizzazione di dati ad alta dimensione? ) È un famoso esempio di quattro set di dati - , con la stessa media marginale / deviazione standard (sui quattro e quattro , separatamente) e lo stesso adattamento lineare OLS , regressione e somma residua dei quadrati e coefficiente di correlazione . Le statistiche di tipo (marginale e comune) sono quindi le stesse, mentre i set di dati sono abbastanza diversi.y x y R 2 ℓ 2
EDIT (dai commenti di OP) Lasciando da parte le dimensioni del piccolo set di dati, lasciatemi proporre alcune interpretazioni. Il set 1 può essere visto come una relazione lineare standard (affine, per essere corretti) con rumore distribuito. Il set 2 mostra una relazione pulita che potrebbe essere l'apice di una misura di livello superiore. Il set 3 mostra una chiara dipendenza statistica lineare con un valore anomalo. Il set 4 è più complicato: il tentativo di "prevedere" da sembra legato al fallimento. La progettazione di può rivelare un fenomeno di isteresi con un intervallo di valori insufficiente, un effetto di quantizzazione (la potrebbe essere quantizzata troppo pesantemente) o l'utente ha cambiato le variabili dipendenti e indipendenti.x x x
Quindi le riepilogo nascondono comportamenti molto diversi. Il set 2 potrebbe essere gestito meglio con un adattamento polinomiale. Set 3 con metodi resistenti alle ( o simili), così come Set 4. Ci si potrebbe chiedere se altre funzioni di costo o indicatori di discrepanza potrebbero sistemarsi o almeno migliorare la discriminazione del set di dati. EDIT (dai commenti di OP): il post sul blog Curious Regressions afferma che:ℓ 1
Per inciso, mi è stato detto che Frank Anscombe non ha mai rivelato come abbia inventato questi set di dati. Se pensi che sia un compito facile ottenere tutte le statistiche di riepilogo e i risultati della regressione uguali, allora prova!
Nei set di dati costruiti per uno scopo simile a quello del quartetto di Anscombe , vengono forniti diversi set di dati interessanti, ad esempio con gli stessi istogrammi a base quantile. Non ho visto un misto di relazione significativa e statistiche contrastanti.
La mia domanda è: esistono bivariati (o trivariati, per mantenere la visualizzazione) insiemi di dati simili a Anscombe tali che, oltre ad avere le stesse statistiche di tipo :
- le loro trame sono interpretabili come un rapporto tra e , come se si cerca di una legge tra le misurazioni,y
- possiedono le stesse ( marginali) proprietà marginali (stessa mediana e mediana di deviazione assoluta),
- hanno le stesse caselle di delimitazione: stesso min, max (e quindi statistiche di medio e medio intervallo di tipo " ).
Tali set di dati avrebbero gli stessi riepiloghi della trama "box-and-whiskers" (con min, max, mediana, deviazione assoluta mediana / MAD, media e std) su ciascuna variabile, e sarebbero comunque molto diversi nell'interpretazione.
Sarebbe ancora più interessante se qualche regressione meno assoluta fosse la stessa per i set di dati (ma forse sto già chiedendo troppo). Potrebbero servire da avvertimento quando si parla di regressione robusta rispetto a non robusta e aiutare a tenere presente la citazione di Richard Hamming:
Lo scopo dell'informatica è l'intuizione, non i numeri
EDIT (dai commenti di OP) Problemi simili sono stati affrontati nella generazione di dati con statistiche identiche ma grafica diversa, Sangit Chatterjee e Aykut Firata, American Statistician, 2007 o clonazione di dati: generazione di set di dati con esattamente la stessa regressione lineare multipla, J. Aust. N.-Z. Statistica. J. 2009.
In Chatterjee (2007), lo scopo è generare nuove coppie con gli stessi mezzi e deviazioni standard dal set di dati iniziale, massimizzando al contempo diverse funzioni oggettive di "discrepanza / dissomiglianza". Poiché queste funzioni possono essere non convesse o non differenziabili, usano algoritmi genetici (GA). I passaggi importanti consistono nella orto-normalizzazione, che è molto coerente con la conservazione della media e della varianza (unitaria). Le cifre del documento (metà del contenuto del documento) sovrappongono i dati di input e output GA. La mia opinione è che le uscite GA perdano molto dell'interpretazione intuitiva originale.
E tecnicamente, né la mediana né la gamma media vengono preservate e il documento non menziona le procedure di rinormalizzazione che preserverebbero le , e .ℓ 1 ℓ ∞