Cosa si intende con "Lascia che i dati parlino da soli"?


10

Nel leggere il seguente documento , mi sono imbattuto nella seguente dichiarazione:

Come accennato, viene spesso presentato senza alcun riferimento a modelli probabilistici, in linea con l'idea di Benzecri [1973] di "lasciare che i dati parlino da soli".

(citazione di JP Benzécri. L'analisi dei données. Tomo II: L'analisi delle corrispondenze. Dunod, 1973.)

Da come sto leggendo questo documento, sembra che "lasciare che i dati parlino da soli" significa qualcosa sulla falsariga di considerare varie misure attraverso i dati senza riguardo a una funzione di verosimiglianza o processo di generazione di dati .

Anche se ho già sentito la citazione "lasciare che i dati parlino da soli" prima, non ho riflettuto molto su ciò che è implicito. La mia interpretazione di cui sopra è ciò che canonicamente implica questa citazione?


9
Lascia che la citazione parli da sola.
Mark L. Stone,

@ MarkL.Stone: Proprio come i dati, le citazioni sono meglio comprese con il contesto
Cliff AB,

Risposte:


8

L'interpretazione dipende dal contesto, ma ci sono alcuni contesti comuni in cui questo emerge. L'affermazione viene spesso usata nell'analisi bayesiana per sottolineare il fatto che idealmente vorremmo che la distribuzione posteriore nell'analisi fosse robusta rispetto alle ipotesi precedenti, in modo che l'effetto dei dati "domini" il posteriore. Più in generale, la citazione di solito significa che vogliamo che il nostro modello statistico sia conforme alla struttura dei dati, piuttosto che forzare i dati in un'interpretazione che è un'ipotesi strutturale non verificabile del modello.

La citazione particolare a cui ti riferisci è integrata dalla citazione aggiuntiva: "Il modello deve seguire i dati, non viceversa" (tradotto da Benzécri J (1973) L'Analyse des Données. Tomo II: L'Analyse des Correspondances . Dunod, p. 6). Benzécri ha sostenuto che i modelli statistici dovrebbero estrarre la struttura dai dati, piuttosto che imporre la struttura. Considerava l'uso di metodi grafici esplorativi molto importanti per consentire all'analista di "far parlare i dati".


(+1) Con questo in mente, suppongo che la citazione nel primo documento collegato implichi che questi metodi osservano la struttura della covarianza empirica, piuttosto che una struttura di dipendenza basata su modelli.
Cliff AB,

1
Sì, penso che sia giusto. Vale la pena notare che Benzécri ha affermato che l'analisi dei dati era sostanzialmente equivalente alla decomposizione degli automi in PCA. È citato dicendo: "tutto sommato, facendo un'analisi dei dati, in buona matematica, sta semplicemente cercando autovettori; tutta la scienza (o l'arte) è nel trovare la matrice giusta per diagonalizzare". (vedi Husson et al 2016 , p. 2)
Ben - Reinstate Monica il

2
Ah, è un'affermazione molto interessante per lui. Questo contesto rende la citazione nel documento molto più sensata.
Cliff AB,

Sì, è piuttosto estremo!
Ben - Ripristina Monica il

(+1). Mentre, a prima vista, la citazione sembra difficile non essere d'accordo (perché "imporre" qualcosa sarebbe una buona cosa, dopo tutto?), La maledizione della dimensionalità nelle statistiche non parametriche, ad esempio, mostra che è, per così dire, più facile ascoltare i dati parlando da soli quando li ascoltiamo attraverso un modello parametrico.
Christoph Hanck,

1

All'incirca nel 2005, quando "Data Mining" era l'ultima minaccia per la professione statistica, ricordo di aver visto un poster con "Principi di data mining", uno dei quali era "lascia parlare i dati" (non ricordo se "per se stesso" era incluso). Se si pensa ad algoritmi che potrebbero essere considerati "Data mining", vengono in mente apriori e il partizionamento ricorsivo, due algoritmi che possono essere motivati ​​senza ipotesi statistiche e comportano riassunti piuttosto basilari del set di dati sottostante.

@Ben capisce più della storia della frase di me, ma penso alla citazione come citata nel documento:

L'MCA può essere visto come la controparte del PCA per i dati categorici e comporta la riduzione della dimensionalità dei dati per fornire un sottospazio che rappresenti al meglio i dati nel senso di massimizzare la variabilità dei punti proiettati. Come accennato, viene spesso presentato senza alcun riferimento a modelli probabilistici, in linea con l'idea di Benz´ecri [1973] di "lasciare che i dati parlino da soli".

mi sembra che la procedura di MCA assomigli ad apriori o al partizionamento ricorsivo (o all'inferno, la media aritmetica per quella materia) in quanto può essere motivato senza alcuna modellazione ed è un'operazione meccanica su un set di dati che ha senso basato su alcuni primi principi.

Vi è uno spettro di lasciar parlare i dati. I modelli completamente bayesiani con priori forti sarebbero da un lato. I modelli non parametrici del frequentista sarebbero più vicini all'altro capo.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.