Sollevare la misura nel data mining


36

Ho cercato su molti siti Web per sapere cosa farà esattamente Lift? I risultati che ho trovato riguardavano il suo utilizzo in applicazioni non stesse.

Conosco la funzione di supporto e fiducia. Da Wikipedia, nel data mining, l'ascensore è una misura delle prestazioni di un modello nel prevedere o classificare i casi, misurando un modello di scelta casuale. Ma come? Il supporto della fiducia * è il valore dell'ascensore Ho cercato anche altre formule ma non riesco a capire perché i grafici degli ascensori siano importanti per l'accuratezza dei valori previsti Intendo che voglio sapere quale politica e motivo è alla base dell'ascensore?


2
Hai bisogno di un contesto qui. Nel marketing, questo sarebbe un grafico che indicherebbe l'incremento percentuale delle vendite atteso da varie attività di marketing, ma probabilmente hai in mente un contesto diverso.
zbicyclist,

Risposte:


59

Darò un esempio di come "ascensore" è utile ...

Immagina di lanciare una campagna di direct mail in cui invii ai clienti un'offerta nella speranza che rispondano. I dati storici mostrano che quando invii la tua base di clienti in modo completamente casuale circa l'8% di loro risponde alla corrispondenza (cioè arriva e acquista con l'offerta). Quindi, se invii 1.000 clienti puoi aspettarti 80 rispondenti.

Ora, decidi di adattare un modello di regressione logistica ai tuoi dati storici per trovare modelli che siano predittivi della probabilità che un cliente risponda a un mailing. Utilizzando il modello di regressione logistica a ciascun cliente viene assegnata una probabilità di risposta ed è possibile valutare l'accuratezza perché si sa se hanno effettivamente risposto. Una volta assegnata la probabilità a ciascun cliente, li classifichi dal cliente con il punteggio più alto a quello più basso. Quindi potresti generare alcuni grafici "lift" come questi:

inserisci qui la descrizione dell'immagine

Ignora il grafico in alto per ora. Il grafico in basso dice che dopo che abbiamo ordinato i clienti in base alla loro probabilità di risposta (da alto a basso) e poi li abbiamo suddivisi in dieci bin uguali, il tasso di risposta nel cestino n. 1 (il 10% superiore dei clienti) è 29 % vs 8% di clienti casuali, per un aumento di 29/8 = 3,63. Quando arriviamo a segnare i clienti nel quarto contenitore, ne abbiamo catturati così tanti nei tre precedenti che il tasso di risposta è inferiore a quello che ci aspetteremmo di spedire a caso le persone.

Osservando ora il grafico in alto, ciò che dice è che se utilizzassimo i punteggi di probabilità sui clienti potremmo ottenere il 60% del totale dei rispondenti che riceveremmo a caso spedendo solo il 30% dei clienti con punteggio. Cioè, utilizzando il modello, possiamo ottenere il 60% del profitto atteso per il 30% del costo della posta inviando solo il 30% dei clienti con il punteggio più alto, e questo è ciò a cui si riferisce realmente l' ascensore .


Bella spiegazione grazie mille. Per favore, dimmi nella tabella Lift perché abbiamo bisogno di un campione casuale? Ho capito che l'8% proviene da random, ma perché è necessario tracciare random? Ho visto un altro grafico che traccia la media dei valori e non conosco nemmeno il motivo dell'esistenza della media
Nickool,

la cosa che ho ottenuto è che lift = 3.63 sta dicendo che fino alla colonna 4 abbiamo un tasso di risposta migliore dell'8%, quindi prendi semplicemente la colonna 1 e considerando il 29% (30% in stima) hai appena considerato la colonna 1 quindi quale ascensore ha fatto con 3,63?
Nickool,

1
Dio mio! Ho capito il mio errore: il 30% non si riferisce al 29%, il 30% significa 3/10 3 prime colonne di dati! Ora l'ho capito completamente: DI sono così felice !!!!! grazie>: D <
Nickool,

1
1000mun'ioliongun'll1000cuStomerSun'ndweeXpect8300)thenweeXpecttoget601000-get-80-cuStomerSvSSpend-

1
@ user1700890 Il grafico superiore è spesso etichettato come grafico di guadagno cumulativo, mentre il grafico inferiore non è uguale a un diagramma di sollevamento cumulativo (in cui il sollevamento non può mai essere inferiore a 1) ma divide i dati in dieci contenitori separati.
RobertF

3

I grafici di sollevamento rappresentano il rapporto tra la risposta di un modello e l'assenza di quel modello. In genere, è rappresentato dalla percentuale di casi nella X e dal numero di volte in cui la risposta è migliore nell'asse Y. Ad esempio, un modello con lift = 2 nel punto 10% significa:

  • Senza alcun modello che prenda un 10% della popolazione (senza ordine perché nessun modello) la proporzione di y = 1 sarebbe il 10% della popolazione totale con y = 1.

  • Con il modello otteniamo 2 volte questa proporzione, ovvero prevediamo di ottenere il 20% della popolazione totale con y = 1. Nell'etichetta del carattere X rappresenta i dati ordinati in base alla previsione. Il primo 10% è il primo 10% delle previsioni


3

L'ascensore non è altro che il rapporto tra fiducia e fiducia attesa. Nell'area delle regole di associazione - "Un rapporto di rialzo maggiore di 1,0 implica che la relazione tra l'antecedente e il conseguente è più significativa di quanto ci si aspetterebbe se i due insiemi fossero indipendenti. Maggiore è il rapporto di sollevamento, più significativa è l'associazione. " Per esempio-

se un database di supermercati ha 100.000 transazioni nel punto vendita, di cui 2000 includono sia gli articoli A che B, e 800 di questi includono l'articolo C, la regola di associazione "Se vengono acquistati A e B, C viene acquistato sullo stesso viaggio ", ha un supporto di 800 transazioni (in alternativa 0,8% = 800 / 100.000) e un livello di affidabilità del 40% (= 800 / 2.000). Un modo di pensare al supporto è che è la probabilità che una transazione selezionata casualmente dal database conterrà tutti gli elementi nell'anticipo e il conseguente, mentre la fiducia è la probabilità condizionale che una transazione selezionata casualmente includerà tutti gli elementi nel di conseguenza, dato che la transazione include tutti gli articoli nell'antecedente.

Utilizzando l'esempio sopra, la fiducia attesa, in questo caso, significa "fiducia, se l'acquisto di A e B non aumenta la probabilità di acquistare C." È il numero di transazioni che include il conseguente diviso per il numero totale di transazioni. Supponiamo che il numero totale di transazioni per C sia 5.000. Pertanto la fiducia attesa è 5.000 / 1.00.000 = 5%. Per l'esempio del supermercato, Lift = Fiducia / Fiducia attesa = 40% / 5% = 8. Quindi, Lift è un valore che ci fornisce informazioni sull'aumento della probabilità della parte allora (conseguente) data la parte if (antecedente). ecco il link all'articolo di origine


2

L'ascensore è solo una misura per misurare l'importanza della regola

è una misura per verificare se questa regola è nella lista per caso o se ci aspettiamo

Lift = Fiducia / Fiducia attesa


0

Supponiamo che stiamo usando l'esempio di un negozio di alimentari che sta testando la validità di una regola di associazione che ha un precedente e un conseguente (ad esempio: "Se un cliente acquista pane, comprerà anche burro").

Se si esaminano tutte le transazioni e ne si esamina una a caso, la probabilità che quella transazione contenga il conseguente è "Fiducia attesa". Se si esaminano tutte le transazioni che contengono l'antecedente e si seleziona una transazione casuale tra queste, la probabilità che tale transazione conterrà il conseguente è "Fiducia". "Lift" è essenzialmente la differenza tra questi due. Con l'ascensore, possiamo esaminare la relazione tra due elementi che hanno un'elevata confidenza (se la confidenza è bassa, l'ascensore è essenzialmente irrilevante).

Se hanno un'elevata sicurezza e scarsa capacità di carico, sappiamo ancora che gli articoli vengono spesso acquistati insieme ma non sappiamo se il conseguente sta accadendo a causa dell'antecedente o se è solo una coincidenza (forse sono entrambi acquistati insieme spesso perché sono entrambi prodotti molto popolari ma non hanno alcun tipo di relazione reciproca).

Tuttavia, se la fiducia e il rialzo sono entrambi elevati, allora possiamo ragionevolmente presumere che il conseguente stia accadendo a causa dell'antecedente. Maggiore è l'ascensore, minore è la probabilità che la relazione tra i due elementi sia solo una coincidenza. In termini matematici:

Lift = Fiducia / Fiducia attesa

Nel nostro esempio, se la fiducia nella nostra regola fosse alta e l'ascensore fosse basso, ciò significherebbe che molti clienti acquistano pane e burro, ma non sappiamo se sia dovuto a qualche relazione speciale tra pane e burro o se pane e burro sono solo articoli popolari singolarmente e il fatto che spesso compaiano insieme nei carrelli della spesa è solo una coincidenza. Se la fiducia nella nostra regola è alta e l'ascensore è elevato, questo indica una correlazione piuttosto forte tra l'antecedente e il conseguente, il che significa che possiamo ragionevolmente presumere che i clienti stiano acquistando burro a causa del fatto che stanno acquistando pane. Più alto è l'ascensore, più possiamo essere fiduciosi in questa associazione.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.