Le due culture: statistica vs. apprendimento automatico?


420

L'anno scorso ho letto un post sul blog di Brendan O'Connor intitolato "Statistiche contro apprendimento automatico, lotta!" che ha discusso alcune delle differenze tra i due campi. Andrew Gelman ha risposto favorevolmente a questo :

Simon Blomberg:

Dal pacchetto fortune di R: Per parafrasare in modo provocatorio, "l'apprendimento automatico è la statistica meno qualsiasi controllo di modelli e ipotesi". - Brian D. Ripley (sulla differenza tra apprendimento automatico e statistiche) usa R! 2004, Vienna (maggio 2004) :-) Saluti della stagione!

Andrew Gelman:

In tal caso, forse dovremmo sbarazzarci del controllo di modelli e ipotesi più spesso. Quindi forse saremmo in grado di risolvere alcuni dei problemi che la gente dell'apprendimento automatico può risolvere ma non possiamo!

C'era anche il "Modeling statistici: le due culture" carta di Leo Breiman nel 2001, che hanno sostenuto che gli statistici si basano troppo pesantemente sulla modellazione di dati, e che le tecniche di machine learning stanno facendo progressi affidandosi invece alla precisione predittiva dei modelli.

Il campo delle statistiche è cambiato nell'ultimo decennio in risposta a queste critiche? Fare i due culture esistono ancora o è cresciuta statistiche di abbracciare tecniche di apprendimento automatico come le reti neurali e le support vector machines?


21
Grazie @robin; fatto CW. Anche se non lo vedo interamente come "polemico"; ci sono due campi che si sono reciprocamente informati (questo è un dato di fatto) e la domanda è quanto si siano evoluti insieme nell'ultimo decennio.
Shane,

16
Aggiungi una terza cultura: data mining . I discenti di macchine e i minatori di dati parlano lingue abbastanza diverse. Di solito, gli studenti di macchine non capiscono nemmeno cosa sia diverso nel data mining. Per loro, è solo un apprendimento senza supervisione; ignorano gli aspetti della gestione dei dati e applicano il data mining delle parole d'ordine anche all'apprendimento automatico, aggiungendo ulteriore confusione.
Anony-Mousse,

4
C'è una domanda simile sul data mining e sulle statistiche
niente

2
Una discussione interessante nel blog di Wasserman .

2
Mi sembra che in realtà il legame tra ML e statistiche non sia sufficientemente enfatizzato. Molti studenti di CS ignorano di aver appreso nulla sulle statistiche durante i loro giorni di fondazione perché non comprendono l'importanza critica di una solida base statistica nel portare a termine compiti ML. Forse anche molti dipartimenti CS in tutto il mondo sarebbero lenti ad agire. Sarebbe un errore molto costoso e spero sicuramente che ci sia una maggiore consapevolezza dell'importanza delle conoscenze statistiche in CS. Fondamentalmente ML = Statistiche in molti sensi.
xji,

Risposte:


195

Penso che la risposta alla tua prima domanda sia semplicemente affermativa. Prendi qualsiasi numero di Statistical Science, JASA, Annals of Statistics degli ultimi 10 anni e troverai articoli su potenziamento, SVM e reti neurali, sebbene questa zona sia meno attiva ora. Gli statistici si sono appropriati del lavoro di Valiant e Vapnik, ma dall'altro lato, gli informatici hanno assorbito il lavoro di Donoho e Talagrand. Non credo che ci sia più molta differenza nella portata e nei metodi. Non ho mai comprato l'argomento di Breiman secondo cui le persone CS erano interessate a minimizzare le perdite usando qualunque cosa funzionasse. Tale opinione è stata fortemente influenzata dalla sua partecipazione alle conferenze delle reti neurali e dal suo lavoro di consulenza; ma PAC, SVM, Boosting hanno solide basi. E oggi, a differenza del 2001, Statistics è più interessato alle proprietà del campione finito,

Ma penso che ci siano ancora tre differenze importanti che non scompariranno presto.

  1. I lavori sulle statistiche metodologiche sono ancora formalmente formali e deduttivi, mentre i ricercatori di Machine Learning sono più tolleranti nei confronti di nuovi approcci anche se non hanno una prova allegata;
  2. La comunità ML condivide principalmente nuovi risultati e pubblicazioni in conferenze e procedimenti correlati, mentre gli statistici utilizzano documenti di giornale. Questo rallenta i progressi in Statistica e identificazione dei ricercatori stellari. John Langford ha un bel post sull'argomento da tempo;
  3. Le statistiche coprono ancora aree che (per ora) destano poca preoccupazione per la ML, come la progettazione di sondaggi, il campionamento, le statistiche industriali ecc.

20
Ottimo post! Nota che Vapnick aveva un dottorato di ricerca in statistica. Non sono sicuro che ci siano molti informatici che conoscono il nome Talagrand e sono sicuro che lo 0,01% di loro può dichiarare a memoria un risultato di talagrand :) puoi? Non conosco il lavoro di Valiant :)
robin girard

Vedo le diverse risposte quando si tratta di ricerca accademica e applicazioni. Penso che tu abbia risposto nel contesto del primo. Nelle applicazioni penso che la differenza più grande sia nel modo in cui i campi si stanno espandendo. ML attraverso il canale di data science accetta chiunque sia in grado di codificare, letteralmente. In statistica hai ancora bisogno di una laurea formale in statistiche o campi vicini per entrare nella forza lavoro.
Aksakal,

1
Sia il campionamento dei sondaggi che le statistiche industriali sono campi multimiliardari (la sezione sui metodi di ricerca dell'indagine dell'American Statistical Association è la terza più grande dopo la biometria e la consulenza, e quest'ultima comprende anche un gran numero di statistici industriali. C'è una sezione separata sulla qualità , e c'è una roba Six-Sigma ancora separata e altri metodi di controllo della qualità là fuori, non tutti interamente in statistica). Entrambi hanno una carenza critica di statistici poiché l'attuale forza lavoro dei baby boomer che sono venuti a lavorare in queste aree negli anni '60 si sta ritirando.
StasK,

4
Mentre alcune persone ottengono il loro lavoro posando sul tappeto rosso durante le conferenze, altre trovano il loro applicando i metodi nel mondo reale. Queste ultime persone non hanno che molto interesse per individuare le stelle di ogni tipo; identificherebbero piuttosto i metodi che funzionano, anche se in molte occasioni, dopo alcuni anni in un determinato campo, vieni portato continuamente agli stessi nomi.
StasK,

Perché il campionamento non dovrebbe preoccupare ML? Non è abbastanza simile al problema di avere i dati di allenamento etichettati correttamente in ML?
Gerrit,

169

La più grande differenza che vedo tra le comunità è che la statistica enfatizza l'inferenza, mentre l'apprendimento automatico ha enfatizzato la previsione. Quando fai statistiche, vuoi dedurre il processo attraverso il quale i dati che hai sono stati generati. Quando fai l'apprendimento automatico, vuoi sapere come prevedere quali saranno i dati futuri rispetto a qualche variabile.

Naturalmente i due si sovrappongono. Sapere come sono stati generati i dati ti darà alcuni suggerimenti su quale sarebbe un buon predittore, per esempio. Tuttavia, un esempio della differenza è che l'apprendimento automatico ha affrontato il problema p >> n (più funzioni / variabili rispetto ai campioni di addestramento) sin dalla sua infanzia, mentre le statistiche hanno appena iniziato a prendere sul serio questo problema. Perché? Perché puoi ancora fare buone previsioni quando p >> n, ma non puoi fare ottime deduzioni su quali variabili siano effettivamente importanti e perché.


13
Questo potrebbe essere (eccessivamente) semplificato come qualcosa di simile alla differenza tra modelli generativi e discriminativi?
Wayne,

5
"Uno dovrebbe risolvere direttamente il problema [classificazione] e mai risolvere un problema più generale come un passo intermedio ..." - Vapnik
Wayne

3
@mbq: non intendevo sottintendere che non si potesse fare alcuna inferenza, ma solo che non è l'obiettivo principale e che di solito p >> n in ML, rendendolo molto più difficile.
dsimcha,

2
Non sono assolutamente d'accordo con questa opinione. Sembra sbagliato Cose come le reti neurali ricorrenti tentano anche di inferire i processi e persino di andare avanti e generare nuove sequenze.
Caveman

2
E la robotica? La robotica probabilistica è in gran parte focalizzata sull'inferenza e abbastanza dominante nelle applicazioni. Ma ancora un "sapore" diverso rispetto alla statistica (e più ingegneria rispetto alla macchina / apprendimento; cioè analisi / controllo in tempo reale)
GeoMatt22

135

Bayesian: "Ciao, studente di macchine!"

Frequentista: "Ciao, studente di macchine!"

Apprendimento automatico: "Ho sentito che siete bravi ragazzi. Ecco alcuni dati."

F: "Sì, scriviamo un modello e quindi calcoliamo l'MLE."

B: "Ehi, F, non è quello che mi hai detto ieri! Avevo alcuni dati univariati e volevo stimare la varianza, e ho calcolato l'MLE. Poi mi hai lanciato e mi hai detto di dividere per invece di din1n . "

F: "Ah sì, grazie per avermelo ricordato. Penso spesso che dovrei usare l'MLE per tutto, ma sono interessato a stimatori imparziali e così via."

ML: "Eh, di cosa tratta questa filosofia? Mi aiuterà?"

F: "OK, uno stimatore è una scatola nera, inserisci i dati e ti dà alcuni numeri. A noi frequentatori non interessa il modo in cui è stata costruita la scatola, su quali principi sono stati usati per progettarla. Ad esempio, io non so come derivare la regola . "÷(n1)

ML: "Allora, che ti importa?"

F: "Valutazione".

ML: "Mi piace il suono di quello."

F: "Una scatola nera è una scatola nera. Se qualcuno afferma che uno stimatore particolare è uno stimatore imparziale per , allora proviamo molti valori di a loro volta, generiamo molti campioni da ciascuno basato su un modello presunto, spingili attraverso lo stimatore e trova il stimato medio . Se possiamo dimostrare che la stima attesa è uguale al valore reale, per tutti i valori, allora diciamo che è imparziale ".θθθ

ML: "Sembra fantastico! Sembra che i frequentatori siano persone pragmatiche. Giudichi ogni scatola nera in base ai suoi risultati. La valutazione è la chiave."

F: "Davvero! Capisco che avete un approccio simile. Convalida incrociata, o qualcosa del genere? Ma a me sembra disordinato."

ML: "Disordinato?"

F: "L'idea di testare il tuo stimatore su dati reali mi sembra pericolosa. I dati empirici che utilizzi potrebbero avere tutti i tipi di problemi con esso e potrebbero non comportarsi secondo il modello concordato per la valutazione."

ML: "Cosa? Pensavo avessi detto che avresti dimostrato alcuni risultati? Che il tuo stimatore sarebbe sempre stato imparziale, per tutti i ."θ

F: "Sì. Anche se il tuo metodo potrebbe aver funzionato su un set di dati (il set di dati con il treno e i dati di test) che hai utilizzato nella tua valutazione, posso dimostrare che il mio funzionerà sempre."

ML: "Per tutti i set di dati?"

F: "No."

ML: "Quindi il mio metodo è stato validato in modo incrociato su un set di dati. Non hai testato il tuo su un set di dati reale?"

F: "Esatto".

ML: "Questo mi mette in testa allora! Il mio metodo è migliore del tuo. Prevede il cancro nel 90% delle volte. La tua" prova "è valida solo se l'intero set di dati si comporta secondo il modello che hai assunto."

F: "Emm, sì, suppongo."

ML: "E quell'intervallo ha una copertura del 95% . Ma non dovrei essere sorpreso se contiene solo il valore corretto di 20% delle volte?"θ

F: "Esatto. A meno che i dati non siano veramente normali (o qualsiasi altra cosa), la mia prova è inutile."

ML: "Quindi la mia valutazione è più affidabile e completa? Funziona solo sui set di dati che ho provato finora, ma almeno sono set di dati reali, verruche e tutto il resto. Eccoti lì, cercando di affermare che eri più 'conservatore "e" approfondito "e che tu fossi interessato al controllo dei modelli e cose del genere".

B: (interviene) "Ehi ragazzi, mi dispiace interrompere. Mi piacerebbe intervenire e bilanciare le cose, forse dimostrando alcuni altri problemi, ma mi piace molto guardare il mio collega frequentatore dimenarsi."

F: "Woah!"

ML: "OK, bambini. Si trattava solo di una valutazione. Uno stimatore è una scatola nera. I dati entrano, i dati escono. Approviamo, o disapproviamo, uno stimatore basato su come funziona in fase di valutazione. Non ci interessa sulla "ricetta" o "principi di progettazione" che vengono utilizzati. "

F: "Sì. Ma abbiamo idee molto diverse su quali valutazioni sono importanti. ML effettuerà il training-and-test su dati reali. Considerando che farò una valutazione più generale (perché implica una prova ampiamente applicabile) e anche più limitato (perché non so se il tuo set di dati è effettivamente tratto dalle ipotesi di modellazione che utilizzo durante la progettazione della mia valutazione.) "

ML: "Quale valutazione usi, B?"

F: (interviene) "Ehi. Non farmi ridere. Non valuta nulla. Usa solo le sue convinzioni soggettive e corre con essa. O qualcosa del genere."

B: "Questa è l'interpretazione comune. Ma è anche possibile definire il bayesianismo in base alle valutazioni preferite. Quindi possiamo usare l'idea che a nessuno di noi importi cosa c'è nella scatola nera, ci preoccupiamo solo di modi diversi di valutare."

B continua: "Esempio classico: test medico. Il risultato dell'analisi del sangue è positivo o negativo. Un frequentatore sarà interessato, tra le persone sane, a quale proporzione otterrà un risultato negativo. E allo stesso modo, quale proporzione di malati ottenere un positivo. Il frequentatore calcolerà questi per ogni metodo di analisi del sangue che è in esame e quindi consiglia di utilizzare il test che ha ottenuto la migliore coppia di punteggi. "

F: "Esatto. Cosa si può volere di più?"

B: "Che dire di quegli individui che hanno ottenuto un risultato positivo del test? Vorranno sapere 'di quelli che ottengono un risultato positivo, quanti si ammaleranno?' e "di quelli che ottengono un risultato negativo, quanti sono sani?" "

ML: "Ah sì, sembra un paio di domande migliori da porre."

F: "HERESY!"

B: "Eccoci di nuovo. Non gli piace dove sta andando."

ML: "Si tratta di 'priori', non è vero?"

F: "MALE".

B: "Comunque, sì, hai ragione ML. Per calcolare la proporzione di persone con risultati positivi che sono malati devi fare una delle due cose. Un'opzione è quella di eseguire i test su molte persone e osservare semplicemente il proporzioni pertinenti. Quante di queste persone muoiono per la malattia, ad esempio. "

ML: "Sembra proprio quello che faccio. Usa train-and-test."

B: "Ma puoi calcolare questi numeri in anticipo, se sei disposto a fare un'ipotesi sul tasso di malattia nella popolazione. Anche il frequentatore fa i suoi calcoli in anticipo, ma senza usare questo tasso di malattia a livello di popolazione."

F: "ALTRE ASSUNZIONI NON FONDATE."

B: "Oh, stai zitto. In precedenza, sei stato scoperto. ML ha scoperto che ti piacciono i presupposti infondati di chiunque altro. Le tue probabilità di copertura" comprovate "non si accumulano nel mondo reale a meno che tutte le tue ipotesi non resistano. Perché la mia assunzione precedente è così diversa? Mi chiami pazzo, eppure fai finta che le tue assunzioni siano il lavoro di un'analisi conservativa, solida, priva di assunzioni ".

B (continua): "Comunque, ML, come stavo dicendo. Ai bayesiani piace un diverso tipo di valutazione. Siamo più interessati a condizionare i dati osservati e calcolare di conseguenza l'accuratezza del nostro stimatore. Non possiamo eseguire questa valutazione senza usare un precedente. Ma la cosa interessante è che, una volta che decidiamo su questa forma di valutazione, e una volta scelto il nostro precedente, abbiamo una "ricetta" automatica per creare uno stimatore appropriato. Il frequentatore non ha tale ricetta. Se vuole un stimatore imparziale per un modello complesso, non ha alcun modo automatizzato per costruire uno stimatore adatto. "

ML: "E tu? Puoi costruire automaticamente uno stimatore?"

B: "Sì. Non ho un modo automatico per creare uno stimatore imparziale, perché penso che la distorsione sia un cattivo modo di valutare uno stimatore. Ma data la stima condizionale sui dati che mi piace, e la precedente, I può collegare il priore e la probabilità di darmi lo stimatore ".

ML: "Quindi, ricapitolando. Abbiamo tutti modi diversi di valutare i nostri metodi e probabilmente non saremo mai d'accordo su quali metodi siano i migliori".

B: "Beh, non è giusto. Potremmo mescolarli e abbinarli. Se qualcuno di noi ha buoni dati di allenamento etichettati, dovremmo probabilmente testare contro di esso. E generalmente dovremmo testare quante più ipotesi possibile. E un po 'di frequentista "Anche le prove potrebbero essere divertenti, prevedere le prestazioni in base a un presunto modello di generazione dei dati".

F: "Sì ragazzi. Cerchiamo di essere pragmatici in merito alla valutazione. E in realtà, smetterò di ossessionare le proprietà del campione infinito. Ho chiesto agli scienziati di darmi un campione infinito, ma non l'hanno ancora fatto. È tempo per me di concentrarmi di nuovo su campioni finiti ".

ML: "Quindi, abbiamo solo un'ultima domanda. Abbiamo discusso molto su come valutare i nostri metodi, ma come possiamo creare i nostri metodi."

B: "Ah. Come stavo arrivando prima, noi bayesiani abbiamo il metodo generale più potente. Potrebbe essere complicato, ma possiamo sempre scrivere una sorta di algoritmo (forse una forma ingenua di MCMC) che campionerà dal nostro posteriore. "

F (interviene): "Ma potrebbe avere dei pregiudizi."

B: "Quindi potrebbero i tuoi metodi. Devo ricordarti che l'MLE è spesso distorto? A volte, hai grandi difficoltà a trovare stimatori imparziali e anche quando lo fai hai uno stupido stimatore (per alcuni modelli davvero complessi) che dirà il la varianza è negativa. E tu la chiami imparziale. Sbilanciato, sì. Ma utile, no! "

ML: "OK ragazzi. State di nuovo sbagliando. Lasciate che vi faccia una domanda, F. Avete mai confrontato il pregiudizio del vostro metodo con il pregiudizio del metodo di B, quando entrambi avete lavorato allo stesso problema?"

F: "Sì. In realtà, odio ammetterlo, ma l'approccio di B a volte ha un pregiudizio e un MSE inferiori rispetto al mio stimatore!"

ML: "La lezione qui è che, mentre non siamo d'accordo un po 'sulla valutazione, nessuno di noi ha il monopolio su come creare uno stimatore che abbia proprietà che vogliamo".

B: "Sì, dovremmo leggere il lavoro a vicenda un po 'di più. Possiamo darci l'ispirazione per gli stimatori. Potremmo scoprire che gli stimatori di altri funzionano alla grande, pronti all'uso, sui nostri problemi."

F: "E dovrei smettere di essere ossessionato dal pregiudizio. Uno stimatore imparziale potrebbe avere una varianza ridicola. Suppongo che tutti noi dobbiamo" assumerci la responsabilità "delle scelte che facciamo nel modo in cui valutiamo e delle proprietà che desideriamo vedere nei nostri stimatori. Non possiamo nasconderci dietro una filosofia. Prova tutte le valutazioni che puoi. E continuerò a dare un'occhiata alla letteratura bayesiana per ottenere nuove idee per gli stimatori! "

B: "In effetti, molte persone non sanno davvero quale sia la loro filosofia. Non sono nemmeno sicuro di me stesso. Se uso una ricetta bayesiana e poi provo un bel risultato teorico, non significa che io sono un frequentista? Un frequentatore si preoccupa delle prove sopra riportate sulle prestazioni, non gli importa delle ricette. E se invece faccio un po 'di training e test (o anche), vuol dire che sono uno studente di macchine? "

ML: "Sembra che siamo tutti abbastanza simili allora."


8
Per i lettori che leggeranno questa risposta fino alla fine, suggerirei di aggiungere un breve messaggio da asporto (e di fornire una citazione appropriata se applicabile).
chl

Con -2 voti finora, penso che non ci sia molto da fare per salvarlo :) Penso che il finale, in cui tutti sono d'accordo l'uno con l'altro, e ammetto che possono usare gli altri metodi senza preoccuparsi della filosofia dell'altro, sia un "messaggio da asporto".
Aaron McDaid il

10
Nessuna citazione richiesta. L'ho appena inventato da solo. Probabilmente non è molto ben informato, si basa sulle mie (mis) interpretazioni di argomenti che ho avuto con un piccolo numero di colleghi nel corso degli anni.
Aaron McDaid il

3
In passato ho visto dialoghi simili (più brevi) e li trovo interessanti. Sono stato anche preoccupato per i voti negativi, quindi il mio suggerimento di mettere un breve riassunto in alto in modo da motivare i lettori a leggere il resto del tuo post.
chl

3
Il 13/10 discuterebbe di nuovo
410_ Andato il

67

In tale discussione, ricordo sempre la famosa citazione di Ken Thompson

In caso di dubbio, usare la forza bruta.

In questo caso, l'apprendimento automatico è una salvezza quando le ipotesi sono difficili da cogliere; o almeno è molto meglio che indovinarli sbagliati.


2
Con le maggiori capacità computazionali di questi anni, i codificatori automatici e le tecniche associate, questo è più vero che mai.
Firebug

Per risolvere un problema, gli ingegneri usano formule, tecniche e procedure, che hanno usato in precedenza e sono sicuri del loro successo ... Di solito, si chiama l'uso della forza bruta o l'uso delle regole del pollice ... Nuove formule, tecniche e le procedure sono utilizzate in un processo graduale ... Le attività di ingegneria sono attività di gruppo - dove ingegneri, tecnici e operai lavorano insieme. Quando viene introdotta una nuova procedura, ci vuole tempo per formare tecnici e operai con questa procedura. Quindi la modernizzazione è introdotta in un processo evolutivo.
b

64

Ciò che impone una maggiore separazione di quanto dovrebbe esserci è il lessico di ogni disciplina.

Ci sono molti casi in cui ML usa un termine e Statistica usa un termine diverso - ma entrambi si riferiscono alla stessa cosa - bene, te lo aspetteresti, e non provoca confusione permanente (es. Caratteristiche / attributi rispetto alle aspettative variabili o rete neurale / MLP contro proiezione-ricerca).

La cosa più problematica è che entrambe le discipline usano lo stesso termine per riferirsi a concetti completamente diversi.

Alcuni esempi:

Kernel Function

In ML, le funzioni del kernel sono utilizzate nei classificatori (ad es. SVM) e ovviamente nelle macchine del kernel. Il termine si riferisce a una semplice funzione ( coseno, sigmoidale, rbf, polinomiale ) per mappare non linearmente separabile in un nuovo spazio di input, in modo che i dati siano ora linearmente separabili in questo nuovo spazio di input. (anziché utilizzare un modello non lineare per cominciare).

In statistica, una funzione del kernel è la funzione di ponderazione utilizzata nella stima della densità per smussare la curva di densità.

Regressione

In ML, gli algoritmi predittivi o le implementazioni di quegli algoritmi che restituiscono le etichette di classe "classificatori" sono (a volte) chiamati machine --eg, support vector machine , kernel machine . La controparte delle macchine sono i regressori , che restituiscono un punteggio (variabile continua) - ad esempio, supportano la regressione vettoriale .

Raramente gli algoritmi hanno nomi diversi in base alla modalità - ad esempio, un termine MLP è il termine usato se restituisce un'etichetta di classe o una variabile continua.

In Statistica, regressione , se si sta tentando di costruire un modello basato su dati empirici, per prevedere alcune variabili di risposta basate su una o più variabili esplicative o più variabili, si sta effettuando un'analisi di regressione . Non importa se l'output è una variabile continua o un'etichetta di classe (ad es. Regressione logistica). Ad esempio, la regressione dei minimi quadrati si riferisce a un modello che restituisce un valore continuo; la regressione logistica, d'altra parte, restituisce una stima di probabilità che viene quindi discretizzata in etichette di una classe.

pregiudizio

In ML, il termine di bias nell'algoritmo è concettualmente identico al termine di intercettazione usato dagli statistici nella modellazione di regressione.

In Statistica, il bias è un errore non casuale, ovvero alcuni fenomeni hanno influenzato l'intero set di dati nella stessa direzione, il che a sua volta significa che questo tipo di errore non può essere rimosso ricampionando o aumentando la dimensione del campione.


19
Nelle statistiche, la distorsione non è la stessa dell'errore. L'errore è puramente casuale, il pregiudizio no. Hai parzialità quando sai che il valore atteso della tua stima non è uguale al valore reale.
Joris Meys,

2
(@Joris O anche se non lo conosci! Sembra banale, ma capire se c'è distorsione può essere un problema pratico considerevole. Dai soli dati, quanto puoi essere sicuro che un parametro di regressione stimato sia privo di variabili omesse bias?) È un'idea sbagliata comune che il bias sia una caratteristica dei dati, non una proprietà di uno stimatore; Mi chiedo se derivi da un uso non tecnico come "quell'indagine è parziale!" Inoltre, gli statistici non sono sempre coerenti con termini come "errore": l'errore quadratico medio (di uno stimatore) include una componente bias-quadrato, quindi "errore" non è "puramente casuale".
Silverfish,

2
Penso che il termine "macchina" nelle SVM dovrebbe essere attribuito al gusto personale di Vladimir Vapnic. Al giorno d'oggi, non penso che non sia usato per nominare nessun altro classificatore.
iliasfl,

3
Molti di questi non sono coerenti con l'uso che ho visto nella comunità ML. Entrambi i tipi di kernel sono ampiamente utilizzati (sebbene i kernel spaziali di Hilbert siano più comuni), "machine" è sostanzialmente utilizzato solo per SVM (come note iliasfl), e "bias" di solito significa (forse condizionato da qualcosa) che non è la stessa cosa di un'intercettazione. E[X^X]
Dougal,

1
L'istruzione "regressione logistica, d'altra parte, restituisce le etichette di una classe". è sbagliato. I ritorni della regressione logistica continuano i valori in che sono stime per la probabilità di appartenere alla classe codificata come . 1[0,1]1
random_guy,

26

Le maggiori differenze che ho notato nell'ultimo anno sono:

  • Gli esperti di machine learning non dedicano abbastanza tempo ai fondamenti e molti di loro non comprendono il processo decisionale ottimale e le regole di valutazione della precisione corrette. Non comprendono che i metodi predittivi che non fanno ipotesi richiedono campioni di dimensioni maggiori rispetto a quelli che lo fanno.
  • Noi statistici dedichiamo troppo poco tempo all'apprendimento delle buone pratiche di programmazione e di nuovi linguaggi computazionali. Siamo troppo lenti per cambiare quando si tratta di elaborazione e adozione di nuovi metodi dalla letteratura statistica.

2
Un'altra nota è che noi statistici tendiamo a limitarci a metodi che possiamo dimostrare con la matematica che funzioneranno bene (sotto una serie di ipotesi forse ridicole), specialmente quando si tratta di pubblicazioni. Le persone di machine learning sono molto felici di usare metodi che funzionano empiricamente bene su alcuni set di dati. Di conseguenza, penso che la letteratura ML si muova molto più velocemente ma richiede anche una maggiore setacciatura attraverso la stupidità.
Cliff AB,

25

L'apprendimento automatico sembra avere le sue basi nel pragmatico: un'osservazione pratica o una simulazione della realtà. Anche all'interno delle statistiche, il "controllo assente di modelli e ipotesi" può portare a scartare metodi utili.

Ad esempio, anni fa, il primo modello di fallimento disponibile in commercio (e funzionante) implementato dalle agenzie di credito è stato creato attraverso un semplice vecchio modello di regressione lineare mirato a un risultato 0-1. Tecnicamente, è un cattivo approccio, ma praticamente ha funzionato.


4
è simile all'uso dei modelli gravitazionali del pianeta per il traffico urbano. Lo trovo assurdo, ma in realtà funziona silenziosamente in modo accurato
dassouki,

5
Sono interessato all'ultima affermazione: "il primo modello di fallimento disponibile in commercio (e funzionante) implementato dalle agenzie di credito è stato creato attraverso un semplice vecchio modello di regressione lineare mirato a un risultato 0-1". Quale modello era? Credo che il primo modello sia stato RiskCalc di Moody's e anche la prima versione sia stata un modello di regressione logistica. Gli sviluppatori di quel modello non erano persone CS con un background in ML, ma piuttosto in econometria.
gappy,

2
Scommetto che hanno usato analisi discriminanti prima della regressione logistica, poiché DA è stato inventato molto prima di LR
Neil McGuigan,

1
@gappy Sto pensando al modello di fallimento del consumatore MDS per i singoli registri dell'ufficio di credito. RiskCalc è stata una valutazione del rischio di credito per le aziende. Il modello di fallimento MDS differiva dai modelli di rischio FICO dell'epoca in quanto l'obiettivo era il fallimento e NON la delinquenza del credito (come i punteggi originali di FICO). Il mio commento riguardava meno le specificità della ML in quel contesto (perché era appena in uso -se affatto- al momento in cui il modello BK fu costruito per la prima volta), ma era collegato al fatto che l'efficacia pratica non era necessariamente correlata a restrizioni teoriche o violazioni delle ipotesi.
Jay Stevens,

Sono solo curioso di sapere perché tecnicamente si è trattato di un approccio negativo. Perché ha fatto troppe ipotesi semplificative che differirebbero notevolmente dalla realtà?
xji,

25

Non sono d'accordo con questa domanda poiché suggerisce che l'apprendimento automatico e le statistiche sono scienze diverse o contrastanti .... quando è vero il contrario!

l'apprendimento automatico fa ampio uso delle statistiche ... un rapido sondaggio di qualsiasi pacchetto software di apprendimento automatico o di data mining rivelerà le tecniche di clustering come i mezzi k presenti anche nelle statistiche .... mostrerà anche tecniche di riduzione dimensionale come l'analisi dei componenti principali anche una tecnica statistica ... persino la regressione logistica ancora un'altra.

Dal mio punto di vista, la differenza principale è che tradizionalmente la statistica veniva utilizzata per creare una teoria preconcetta e di solito l'analisi era progettata attorno a quella teoria principale. Laddove con il data mining o l'apprendimento automatico l'approccio opposto è di solito la norma in quanto abbiamo il risultato, vogliamo solo trovare un modo per prevederlo piuttosto che porre la domanda o formare la teoria, è questo il risultato!


21

Ne ho parlato in un altro forum del gruppo elettronico di consulenza statistica ASA. La mia risposta è stata più specifica per il data mining ma i due vanno di pari passo. Noi statistici abbiamo snobbato il naso a data mining, informatici e ingegneri. È sbagliato. Penso che parte del motivo per cui ciò avvenga sia perché vediamo alcune persone in quei campi ignorare la natura stocastica del loro problema. Alcuni statistici chiamano snooping o pesca dei dati di data mining. Alcune persone abusano e abusano dei metodi, ma gli statistici sono rimasti indietro nel data mining e nell'apprendimento automatico perché li dipingiamo con un ampio pennello. Alcuni dei grandi risultati statistici provengono dall'esterno del campo statistico. Il potenziamento è un esempio importante. Ma statistici come Brieman, Friedman, Hastie, Tibshirani, Efron, Gelman e altri hanno capito e la loro leadership ha portato gli statistici nell'analisi dei microarrays e altri problemi di inferenza su larga scala. Quindi, anche se le culture non possono mai integrarsi, ora c'è più cooperazione e collaborazione tra scienziati informatici, ingegneri e statistici.


19

Il vero problema è che questa domanda è sbagliata. Non è machine learning vs statistica, è machine learning contro un vero progresso scientifico. Se un dispositivo di apprendimento automatico fornisce le giuste previsioni il 90% delle volte ma non riesco a capire "perché", qual è il contributo dell'apprendimento automatico alla scienza in generale? Immagina se le tecniche di apprendimento automatico fossero utilizzate per prevedere le posizioni dei pianeti: ci sarebbero molte persone compiaciute che pensavano di poter prevedere con precisione un certo numero di cose con i loro SVM, ma che cosa avrebbero davvero sapere del problema che hanno nelle loro mani ? Ovviamente, la scienza non avanza realmente con previsioni numeriche, ma avanza per mezzo di modelli (mentali, matematici) che ci permettono di vedere ben oltre i soli numeri.


1
+1 Questo mi ricorda l'uso dei modelli in economia. I modelli econometrici sono costruiti per un paio di scopi; vale a dire, analisi delle politiche e previsioni. In generale, a nessuno importa davvero delle previsioni: sono le simulazioni politiche che contano di più. Come ha affermato David Hendry, il miglior modello di previsione non è necessariamente il miglior modello per l'analisi delle politiche - e viceversa. Devi fare un passo indietro e pensare ... Qual è lo scopo del modello? A quali domande stiamo cercando di rispondere? E come questo si adatta a fare scoperte empiriche .
Graeme Walsh,

18

L'apprendimento statistico (AKA Machine Learning) ha le sue origini nella ricerca di creare software "imparando dagli esempi". Ci sono molti compiti che vorremmo fare con i computer (ad es. Visione artificiale, riconoscimento vocale, controllo robot) che sono difficili da programmare ma per i quali è facile fornire esempi di formazione. La comunità di ricerca sull'apprendimento automatico / statistico ha sviluppato algoritmi per apprendere le funzioni da questi esempi. La funzione di perdita era in genere correlata al compito di prestazione (visione, riconoscimento vocale). E ovviamente non avevamo motivo di credere che ci fosse un semplice "modello" alla base di questi compiti (perché altrimenti avremmo codificato noi stessi quel semplice programma). Quindi, l'idea di fare un'inferenza statistica non aveva alcun senso. L'obiettivo è la precisione predittiva e nient'altro.

Nel corso del tempo, varie forze hanno iniziato a guidare le persone che imparano automaticamente le macchine per saperne di più sulle statistiche. Uno era la necessità di incorporare conoscenze di base e altri vincoli nel processo di apprendimento. Ciò ha portato le persone a prendere in considerazione modelli probabilistici generativi, in quanto facilitano l'integrazione delle conoscenze precedenti attraverso la struttura del modello e le priorità sui parametri e sulla struttura del modello. Ciò ha portato il campo a scoprire la ricca letteratura statistica in questo settore. Un'altra forza è stata la scoperta del fenomeno del sovradimensionamento. Ciò ha portato la comunità ML a conoscere la convalida incrociata e la regolarizzazione e di nuovo abbiamo scoperto la ricca letteratura statistica sull'argomento.

Tuttavia, l'obiettivo della maggior parte del lavoro di machine learning è quello di creare un sistema che mostri determinate prestazioni piuttosto che fare inferenze su un processo sconosciuto. Questa è la differenza fondamentale tra ML e statistiche.


15

Idealmente si dovrebbe avere una conoscenza approfondita sia della statistica che dell'apprendimento automatico prima di tentare di rispondere alla sua domanda. Sono un neofita di ML, quindi perdonami se wat dico che è ingenuo.

Ho un'esperienza limitata in SVM e alberi di regressione. Ciò che mi sembra carente di ML dal punto di vista delle statistiche è un concetto ben sviluppato di inferenza.

L'inferenza in ML sembra ridursi quasi esclusivamente all'accuratezza del pronostico, misurata da (ad esempio) errore di classificazione medio (MCE), o tasso di errore bilanciato (BER) o simile. ML ha l'abitudine molto buona di dividere i dati in modo casuale (di solito 2: 1) in un set di allenamento e un set di test. I modelli vengono adattati utilizzando il set di allenamento e le prestazioni (MCE, BER ecc.) Vengono valutate utilizzando il set di test. Questa è una pratica eccellente e sta lentamente entrando nelle statistiche tradizionali.

ML fa anche un forte uso dei metodi di ricampionamento (in particolare la convalida incrociata), le cui origini sembrano essere nelle statistiche.

Tuttavia, a ML sembra mancare un concetto di inferenza completamente sviluppato - al di là dell'accuratezza predittiva. Questo ha due risultati.

1) Non sembra esserci un apprezzamento del fatto che qualsiasi previsione (stima dei parametri ecc.) È soggetta a un errore casuale e forse a un errore sistematico (bias). Gli statistici accetteranno che questa è una parte inevitabile della previsione e cercheranno di stimare l'errore. Le tecniche statistiche cercheranno di trovare una stima che abbia una distorsione minima e un errore casuale. Le loro tecniche sono generalmente guidate da un modello del processo dei dati, ma non sempre (es. Bootstrap).

2) Non sembra esserci una profonda comprensione in ML dei limiti dell'applicazione di un modello a nuovi dati a un nuovo campione della stessa popolazione (nonostante ciò che ho detto in precedenza sull'approccio al set di dati dei test di addestramento). Varie tecniche statistiche, tra cui i termini di convalida e penalità applicati ai metodi basati sulla probabilità, guidano gli statistici nel compromesso tra parsimonia e complessità del modello. Tali linee guida in ML sembrano molto più ad hoc.

Ho visto diversi articoli in ML in cui la convalida incrociata viene utilizzata per ottimizzare un adattamento di molti modelli su un set di dati di formazione, producendo sempre più adattamento all'aumentare della complessità del modello. Appare poco apprezzato il fatto che i minuscoli guadagni in termini di precisione non valgano l'ulteriore complessità e questo naturalmente porta a un eccesso di adattamento. Quindi tutti questi modelli ottimizzati vengono applicati al set di test come controllo delle prestazioni predittive e per evitare un eccesso di adattamento. Due cose sono state dimenticate (sopra). Le prestazioni predittive avranno una componente stocastica. In secondo luogo, più test su un set di test comporteranno nuovamente un sovradimensionamento. Il modello "migliore" sarà scelto dal professionista ML senza un pieno apprezzamento che lui / lei ha scelto da una realizzazione di molti possibili esiti di questo esperimento.

Qualsiasi dei miei 2 centesimi. Abbiamo molto da imparare gli uni dagli altri.


2
il tuo commento su Il modello "migliore" sarà scelto dal professionista ML ... si applica altrettanto bene anche alle statistiche tradizionali. Nella maggior parte delle procedure di selezione dei modelli, si può semplicemente condizionare il modello finale come se non fosse stata effettuata alcuna ricerca nello spazio del modello (dato che la media del modello è abbastanza nuova). Quindi non penso che tu possa usarlo come un "club" per battere il praticante ML, per così dire.
Probislogic,

Come praticante di ML, non riconosco l'immagine che stai dipingendo. La letteratura ML riguarda quasi tutte le variazioni di regolarizzazione, MDL, bayesiano, SRM e altri approcci per il controllo della complessità del modello. Da dove mi siedo, sembra che i metodi di stat per controllare la complessità siano meno strutturati, ma questo è un pregiudizio per te.
Muhammad Alkarouri,

13

Questa domanda può essere estesa anche alla cosiddetta supercultura della scienza dei dati nel documento di David Donoho del 2015 in 50 anni di Data Science , dove affronta diversi punti di vista dalla statistica e dall'informatica (incluso l'apprendimento automatico), ad esempio punti di vista diretti (da persone diverse) tale che:

  • Perché abbiamo bisogno della scienza dei dati quando abbiamo avuto statistiche per secoli?
  • La scienza dei dati è statistica.
  • Data Science senza statistiche è possibile, anche desiderabile.
  • La statistica è la parte meno importante della scienza dei dati.

e assortito con considerazioni storiche e filosofiche, ad esempio:

È sorprendente il modo in cui, quando rivedo una presentazione sulla scienza dei dati di oggi, in cui la statistica viene data alla deriva piuttosto brevemente, non posso evitare di notare che gli strumenti, gli esempi e le idee sottostanti che vengono insegnati come scienza dei dati erano tutti letteralmente inventato da qualcuno che ha studiato Ph.D. statistiche, e in molti casi l'effettivo software utilizzato è stato sviluppato da qualcuno con un MA o un dottorato di ricerca. nelle statistiche. Gli studi accumulati di statistici nel corso dei secoli sono troppo schiaccianti per essere completamente documentati e non possono essere nascosti nell'insegnamento, nella ricerca e nell'esercizio di Data Science.

Questo saggio ha generato molte risposte e contributi al dibattito.


3
Sembra un documento che varrebbe la pena menzionare in questo recente popolare thread stats.stackexchange.com/questions/195034 , penso che nessuno lo abbia menzionato lì.
ameba,

1
Penso che se pubblichi lì una nuova risposta che riassume questo documento, sarà fantastico.
ameba,

Lo farò e dovrò riassumere prima tutte le risposte fornite per me stesso
Laurent Duval il

12

Non so davvero quale sia la differenza concettuale / storica tra apprendimento automatico e statistica, ma sono sicuro che non sia così ovvio ... e non mi interessa davvero sapere se sono uno studente di macchine o uno statistico, penso 10 anni dopo il documento di Breiman, molte persone sono entrambe ...

Comunque, ho trovato interessante la domanda sulla precisione predittiva dei modelli . Dobbiamo ricordare che non è sempre possibile misurare l'accuratezza di un modello e, più precisamente, molto spesso stiamo realizzando implicitamente alcuni modelli durante la misurazione degli errori.

Ad esempio, l'errore assoluto medio nelle previsioni delle serie temporali è una media nel tempo e misura le prestazioni di una procedura per prevedere la mediana presupponendo che le prestazioni siano, in un certo senso, stazionarie e mostrino alcune proprietà ergodiche . Se (per qualche motivo) devi prevedere la temperatura media sulla terra per i prossimi 50 anni e se la tua modellazione funziona bene negli ultimi 50 anni ... non significa che ...

Più in generale, (se ricordo, non si chiama pranzo libero) non puoi fare nulla senza fare la modella ... Inoltre, penso che la statistica stia cercando di trovare una risposta alla domanda: "è qualcosa di significativo o no", questa è una domanda molto importante nella scienza e non è possibile rispondere attraverso un processo di apprendimento. Per dichiarare John Tukey (era uno statistico?):

La combinazione di alcuni dati e il desiderio doloroso di una risposta non garantisce che una risposta ragionevole possa essere estratta da un dato corpo di dati

Spero che sia di aiuto !


12

Chiaramente, i due campi affrontano chiaramente problemi simili ma diversi, in modi simili ma non identici con concetti analoghi ma non identici, e lavorano in diversi dipartimenti, riviste e conferenze.

Quando ho letto Cressie e Read's Power Divergence Statistic tutto è andato a posto per me. La loro formula generalizza le statistiche dei test comunemente usate in una che varia di un esponente, lambda. Esistono due casi speciali, lambda = 0 e lambda = 1.

Informatica e statistica si inseriscono in un continuum (che presumibilmente potrebbe includere altri punti). Ad un valore di lambda, si ottengono le statistiche comunemente citate nei circoli Statistica e dall'altra si ottengono le statistiche comunemente citate nei circoli Comp Sci.

statistica

  • Lambda = 1
  • Le somme dei quadrati appaiono molto
  • La varianza come misura della variabilità
  • Covarianza come misura di associazione
  • Statistica chi-quadro come misura dell'adattamento del modello

Informatica:

  • Lambda = 0
  • Le somme dei registri appaiono molto
  • Entropia come misura della variabilità
  • Informazioni reciproche come misura di associazione
  • Statistica G-quadrato come misura dell'adattamento del modello

9

Esegui un elaborato algoritmo informatico una volta - e ottieni un documento di presentazione / statistica della conferenza CS (wow, che convergenza veloce!). Lo commercializzi e lo esegui 1 milione di volte - e vai al verde (ahi, perché sto ottenendo risultati inutili e irreprensibili tutto il tempo ???) a meno che tu non sappia come utilizzare probabilità e statistiche per generalizzare le proprietà dell'algoritmo.


3
Ho votato in negativo questa risposta. Sebbene con una domanda come questa implicherà inevitabilmente alcune opinioni personali, IMO dovremmo impegnarci per una critica più sostanziale. Questo si stacca da solo.
Andy W,

@AndyW, questa è, ovviamente, un'esagerazione di ciò che vedo in giro. Un fallimento nel pensare statisticamente è vero anche nel mondo accademico: la replicabilità dei risultati pubblicati in psicologia o scienze mediche è al massimo del 25% (vedi, ad esempio, semplicementestatistics.tumblr.com/post/21326470429/… ) piuttosto che nominale 95%. L'OP voleva che le statistiche comprendessero l'informatica; forse l'informatica dovrebbe abbracciare alcune statistiche e ho spiegato i motivi.
StasK

5
@StasK Penso che tu faccia alcuni punti importanti, perché non provare a renderli un po 'meno aggressivi?
Gala,

2
Mi è piaciuta questa risposta pithy.
Ian Warburton,

6

C'è un'area di applicazione delle statistiche in cui concentrarsi sul modello di generazione dei dati ha molto senso. In esperimenti progettati, ad esempio studi sugli animali, studi clinici, DOE industriali, gli statistici possono avere una mano in ciò che è il modello di generazione dei dati. La ML tende a non dedicare molto tempo a questo problema molto importante poiché la ML di solito si concentra su un altro importantissimo problema di predizione basato su "grandi" dati osservativi. Ciò non vuol dire che la ML non possa essere applicata a esperimenti progettati "di grandi dimensioni", ma è importante riconoscere che le statistiche hanno una competenza particolare su "piccoli" problemi di dati derivanti da esperimenti con risorse limitate.

Alla fine della giornata penso che possiamo tutti concordare di utilizzare ciò che funziona meglio per risolvere il problema in questione. Ad esempio, potremmo avere un esperimento progettato che produce dati molto ampi con l'obiettivo di previsione. I principi di progettazione statistica sono molto utili qui e i metodi ML potrebbero essere utili per costruire il predittore.


4

Penso che l'apprendimento automatico debba essere un sotto-ramo sotto la statistica, proprio come, a mio avviso, la chimica deve essere un sotto-ramo sotto la fisica.

Penso che la visione ispirata alla fisica in chimica sia piuttosto solida (immagino). Non penso che ci sia alcuna reazione chimica il cui equivalente non è noto in termini fisici. Penso che la fisica abbia fatto un lavoro straordinario spiegando tutto ciò che possiamo vedere a livello di chimica. Ora la sfida dei fisici sembra spiegare i minuscoli misteri a livello quantico, in condizioni estreme che non sono osservabili.

Ora torniamo all'apprendimento automatico. Penso che anche questo dovrebbe essere un sotto-ramo sotto la statistica (proprio come la chimica è un sotto-ramo della fisica).

Ma mi sembra che, in qualche modo, lo stato attuale dell'apprendimento automatico o delle statistiche non sia abbastanza maturo per realizzarlo perfettamente. Ma a lungo termine, penso che uno debba diventare un sotto-ramo dell'altro. Penso che sia ML che sarà sotto statistiche.

Personalmente ritengo che "apprendere" e "analizzare campioni" per stimare / inferire funzioni o previsioni siano essenzialmente una questione di statistica.


3
Anche la biologia, la psicologia e la sociologia dovrebbero essere "rami secondari" della fisica?
amoeba,

Esatto. La psicologia è solo input / output che coinvolge macchine biologiche altamente complicate. Un giorno potremmo aver bisogno di inviare le nostre macchine a uno psicologo per diagnosticare i suoi errori (lo stesso psicologo potrebbe essere un computer).
Caveman

1
Mi sembra che la matematica sia il padre di tutti. Da lì abbiamo applicato la matematica, da cui provengono la fisica e altre cose. La statistica è una di quelle. Penso che la ML non debba essere una succursale da sola e invece si fonda con le statistiche. Ma se ML diventa un ramo a sé stante, preferisco che sia un ramo secondario / secondario delle statistiche.
Caveman

4

Dal corso di Coursera "Data Science nella vita reale" di Brian Caffo

Apprendimento automatico

  • Enfatizzare le previsioni
  • Valuta i risultati tramite le prestazioni di previsione
  • Preoccupazione per il sovradimensionamento ma non la complessità del modello in sé
  • Enfasi sulle prestazioni
  • La generalizzabilità si ottiene attraverso prestazioni su nuovi set di dati
  • Di solito, nessun modello di superpopolazione specificato
  • Preoccupazione per prestazioni e robustezza

Analisi statistica tradizionale

  • Enfatizza l'inferenza della superpopolazione
  • Si concentra su ipotesi a priori
  • I modelli più semplici preferiscono quelli più complessi (parsimonia), anche se i modelli più complessi hanno prestazioni leggermente migliori
  • Enfasi sull'interpretazione dei parametri
  • I presupposti della modellistica statistica o del campionamento collegano i dati a una popolazione di interesse
  • Preoccupazione per ipotesi e solidità

-5

Come informatico, sono sempre incuriosito dal punto di vista degli approcci statistici. Per me molte volte sembra che i modelli statistici utilizzati nell'analisi statistica siano troppo complessi per i dati in molte situazioni!

Ad esempio, esiste un forte legame tra compressione dei dati e statistiche. Fondamentalmente è necessario un buon modello statistico in grado di prevedere bene i dati e questo porta a una compressione molto buona dei dati. Nell'informatica, quando si comprimono i dati, la complessità del modello statistico e l'accuratezza della previsione sono molto importanti. Nessuno vuole avere MAI un file di dati (contenente dati audio o dati immagine o dati video) che diventa più grande dopo la compressione!

Trovo che ci siano cose più dinamiche nell'informatica per quanto riguarda le statistiche, come ad esempio Lunghezza minima descrizione e Probabilità massima normalizzata .

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.