Set di dati simili a Anscombe con lo stesso riquadro e trama di baffi (media / std / mediana / MAD / min / max)


21

EDIT: Poiché questa domanda è stata gonfiata, un riassunto: trovare diversi set di dati significativi e interpretabili con le stesse statistiche miste (media, mediana, media e le loro dispersioni associate e regressione).

Il quartetto Anscombe (vedi Scopo della visualizzazione di dati ad alta dimensione? ) È un famoso esempio di quattro set di dati - , con la stessa media marginale / deviazione standard (sui quattro e quattro , separatamente) e lo stesso adattamento lineare OLS , regressione e somma residua dei quadrati e coefficiente di correlazione . Le statistiche di tipo (marginale e comune) sono quindi le stesse, mentre i set di dati sono abbastanza diversi.y x y R 2 2xyxyR22

Quartetto di Anscombe

EDIT (dai commenti di OP) Lasciando da parte le dimensioni del piccolo set di dati, lasciatemi proporre alcune interpretazioni. Il set 1 può essere visto come una relazione lineare standard (affine, per essere corretti) con rumore distribuito. Il set 2 mostra una relazione pulita che potrebbe essere l'apice di una misura di livello superiore. Il set 3 mostra una chiara dipendenza statistica lineare con un valore anomalo. Il set 4 è più complicato: il tentativo di "prevedere" da sembra legato al fallimento. La progettazione di può rivelare un fenomeno di isteresi con un intervallo di valori insufficiente, un effetto di quantizzazione (la potrebbe essere quantizzata troppo pesantemente) o l'utente ha cambiato le variabili dipendenti e indipendenti.x x xyxxx

Quindi le riepilogo nascondono comportamenti molto diversi. Il set 2 potrebbe essere gestito meglio con un adattamento polinomiale. Set 3 con metodi resistenti alle ( o simili), così come Set 4. Ci si potrebbe chiedere se altre funzioni di costo o indicatori di discrepanza potrebbero sistemarsi o almeno migliorare la discriminazione del set di dati. EDIT (dai commenti di OP): il post sul blog Curious Regressions afferma che:121

Per inciso, mi è stato detto che Frank Anscombe non ha mai rivelato come abbia inventato questi set di dati. Se pensi che sia un compito facile ottenere tutte le statistiche di riepilogo e i risultati della regressione uguali, allora prova!

Nei set di dati costruiti per uno scopo simile a quello del quartetto di Anscombe , vengono forniti diversi set di dati interessanti, ad esempio con gli stessi istogrammi a base quantile. Non ho visto un misto di relazione significativa e statistiche contrastanti.

La mia domanda è: esistono bivariati (o trivariati, per mantenere la visualizzazione) insiemi di dati simili a Anscombe tali che, oltre ad avere le stesse statistiche di tipo2 :

  • le loro trame sono interpretabili come un rapporto tra e , come se si cerca di una legge tra le misurazioni,yxy
  • possiedono le stesse ( marginali) proprietà marginali (stessa mediana e mediana di deviazione assoluta),1
  • hanno le stesse caselle di delimitazione: stesso min, max (e quindi statistiche di medio e medio intervallo di tipo " ).

Tali set di dati avrebbero gli stessi riepiloghi della trama "box-and-whiskers" (con min, max, mediana, deviazione assoluta mediana / MAD, media e std) su ciascuna variabile, e sarebbero comunque molto diversi nell'interpretazione.

Sarebbe ancora più interessante se qualche regressione meno assoluta fosse la stessa per i set di dati (ma forse sto già chiedendo troppo). Potrebbero servire da avvertimento quando si parla di regressione robusta rispetto a non robusta e aiutare a tenere presente la citazione di Richard Hamming:

Lo scopo dell'informatica è l'intuizione, non i numeri

EDIT (dai commenti di OP) Problemi simili sono stati affrontati nella generazione di dati con statistiche identiche ma grafica diversa, Sangit Chatterjee e Aykut Firata, American Statistician, 2007 o clonazione di dati: generazione di set di dati con esattamente la stessa regressione lineare multipla, J. Aust. N.-Z. Statistica. J. 2009.

In Chatterjee (2007), lo scopo è generare nuove coppie con gli stessi mezzi e deviazioni standard dal set di dati iniziale, massimizzando al contempo diverse funzioni oggettive di "discrepanza / dissomiglianza". Poiché queste funzioni possono essere non convesse o non differenziabili, usano algoritmi genetici (GA). I passaggi importanti consistono nella orto-normalizzazione, che è molto coerente con la conservazione della media e della varianza (unitaria). Le cifre del documento (metà del contenuto del documento) sovrappongono i dati di input e output GA. La mia opinione è che le uscite GA perdano molto dell'interpretazione intuitiva originale.(x,y)

E tecnicamente, né la mediana né la gamma media vengono preservate e il documento non menziona le procedure di rinormalizzazione che preserverebbero le , e .1 21


3
Se stai cercando insiemi di dati univariati con gli stessi grafici a scatole, ho fornito un set in una risposta a una domanda qualche tempo fa, in base allo sviluppo in un documento. Aspetta, lo scavero '. (modifica) ... qui . È facile creare più set di dati con le stesse proprietà ... Lo risolvo in un'altra risposta, qui .
Glen_b

2
Tuttavia, riflettendo, suppongo ora che tu non stia cercando insiemi di dati univariati con gli stessi grafici a scatole, ma cerchi invece insiemi di dati bivariati i cui 'e hanno tutti lo stesso insieme di due grafici a scatole e che hanno lo stesso linea dei minimi quadrati - giusto? yxy
Glen_b

Lo scavo mi è stato utile, soprattutto nella parte dell'asimmetria. Eppure io sto in effetti guardando più alla ricerca bivariata "naturale" (o più) appezzamenti, con dipendenze tra e . Un adattamento "robusto" simile sarebbe un vantaggio. Ho modificato e spero chiarito la domandayxy
Laurent Duval

3
Chatterjee & Firat ( The American Statistician , 2007) , collegato a questa risposta a questa domanda , fornisce un algoritmo genetico piuttosto generale che dovresti essere in grado di adattare in modo semplice ai tuoi scopi.
S. Kolassa - Ripristina Monica

1
Le trame sono esempi di momenti di popolazione insignificanti quando i momenti di distribuzione vengono ignorati. Media, deviazione standard, asimmetria e altri momenti della popolazione non corrispondono ai valori attesi, deviazioni standard, asimmetria e altri momenti delle distribuzioni che descrivono meglio quelle popolazioni. Quando i grafici sopra sono visti come distribuzioni di valori x e valori y, sono tutti diversi e quindi hanno momenti di distribuzione diversi. Questo è peggio che ignorando semplicemente la struttura residua, che forse era il punto, non si può ignorare nessuno con l'impunità.
Carl,

Risposte:


1

Per essere concreti, sto prendendo in considerazione il problema di creare due set di dati, ognuno dei quali suggerisce una relazione, ma la relazione di ciascuno è diversa e tuttavia ha approssimativamente la stessa:

  • significa x
  • significa y
  • SD x
  • SD y
  • mediana x
  • mediana y
  • minimo x
  • minimo y
  • massimo x
  • massimo y
  • deviazione assoluta mediana dalla mediana di x
  • deviazione assoluta mediana dalla mediana di y
  • coefficienti dalla semplice regressione lineare di y su x

meany=0miny=maxy

Considera, ad esempio,

x019293949596979891y11201211120121

che ha un grafico a forma di V verso l'alto come questo:

grafico

Sostituisci con e otterrai una V al ribasso con tutte le stesse statistiche, e non solo approssimativamente, ma esattamente.- yyy


Bel contributo. In effetti, ho perso la linea orizzontale è un po 'imbroglione rispetto a OLS. Il lancio è una buona idea, ma se i set di dati sono diversi, rimangono simili. Ma penso che tu abbia una buona idea, forse una forma a "N" e una a "W" allo stesso modo potrebbero essere l'inizio di un percorso
Laurent Duval,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.