Modello per la previsione del numero di visualizzazioni Youtube di Gangnam Style


73

Il video musicale di PSY "Gangnam style" è popolare, dopo poco più di 2 mesi ha circa 540 milioni di spettatori. L'ho imparato dai miei figli del preteen a cena la scorsa settimana e presto la discussione è andata nella direzione di se fosse possibile fare una sorta di previsione di quanti spettatori ci saranno tra 10-12 giorni e quando (/ se) la canzone supererà 800 milioni di telespettatori o 1 miliardo di telespettatori.

Ecco l'immagine dal numero di spettatori da quando è stata pubblicata: PSY OGS

Ecco le foto del numero di spettatori dei video musicali No1 "Justin Biever-Baby" e No2 "Eminem - Adoro il modo in cui menti" che sono in circolazione da molto tempo Justin Eminem

Il mio primo tentativo di ragionare sul modello è stato che dovrebbe essere una curva a S, ma questo non sembra adattarsi alle canzoni No1 e No2 e non si adatta anche al fatto che non ci sono limiti al numero di visualizzazioni che il video musicale può avere solo una crescita più lenta.

Quindi la mia domanda è: che tipo di modello dovrei usare per prevedere il numero di spettatori del video musicale?


21
+1 per essere riuscito a guidare la conversazione a tavola da Gangnam alle statistiche. Abbiamo bisogno di persone come te!
S. Kolassa - Ripristina Monica il

4
Quello che posso aggiungere alla discussione che spero possa essere utile a gui11aume o ad altri che stanno scrivendo equazioni per provare a modellarlo, è che nell'esempio di KONY, il clustering geografico era un aspetto significativo della diffusione virale. Il fatto che PSY sia prima un fenomeno coreano e poi asiatico, è una parte importante della storia. Non sono sicuro di come sarebbe modellato, ma potrebbe essere un indizio.

I dati relativi a visualizzazioni, commenti, Mi
FredrikD,

Risposte:


38

Ah, ottima domanda !!

Avrei anche proposto ingenuamente una curva logisitica a forma di S, ma questo è ovviamente inadatto. Per quanto ne so, l'aumento costante è un'approssimazione perché YouTube conta le visualizzazioni uniche (una per indirizzo IP), quindi non possono esserci più visualizzazioni dei computer.

x(t)y(t)tXY

x˙(t)=r1(x(t)+y(t))(Xx(t))
y˙(t)=r2(x(t)+y(t))(Yy(t)),

r1>r2Yy

x˙(t)=r1x(t)(Xx(t))
y˙(t)=r2x(t),

r1>r2Yy(t)r2

Questo sistema risolve

x(t)=XC1eXr1t1+C1eXr1t
y(t)=r2x(t)dt+C2=r2r1log(1+C1eXr1t)+C2,

C1C2x(t)+y(t)

0600,000,000x(t)y(t)

x˙(t)=r1x(t)(Xx(t))
y˙(t)=r2,

e risolve

x(t)=XC1eXr1t1+C1eXr1t
y(t)=r2t+C2.

x(0)=1t=0C1=1X11XXC2=y(0)C2=0Xr1r2

X=600,000,000r1=3.6671010r2=1,000,000

modello di crescita in stile Gangnam

Aggiornamento: dai commenti ho raccolto che Youtube conta le visualizzazioni (in modo segreto) e non gli IP univoci, il che fa una grande differenza. Torna al tavolo da disegno.

Per semplificare, supponiamo che gli spettatori siano "infettati" dal video. Tornano a guardarlo regolarmente, fino a quando non eliminano l'infezione. Uno dei modelli più semplici è il SIR (suscettibile-infetto-resistente) che è il seguente:

S˙(t)=αS(t)I(t)
I˙(t)=αS(t)I(t)βI(t)
R˙(t)=βI(t)

αβx(t)x˙(t)=kI(t)k

In questo modello, il conteggio delle visualizzazioni inizia ad aumentare bruscamente dopo l'insorgenza dell'infezione, il che non è il caso dei dati originali, forse perché i video si diffondono anche in modo non virale (o meme). Non sono un esperto nella stima dei parametri del modello SIR. Giocando solo con valori diversi, ecco cosa mi è venuto in mente (in R).

S0 = 1e7; a = 5e-8; b = 0.01 ; k = 1.2
views = 0; S = S0; I = 1;
# Exrapolate 1 year after the onset.
for (i in 1:365) {
   dS = -a*I*S;
   dI = a*I*S - b*I;
   S = S+dS;
   I = I+dI;
   views[i+1] = views[i] + k*I 
}
par(mfrow=c(2,1))
plot(views[1:95], type='l', lwd=2, ylim=c(0,6e8))
plot(views, type='n', lwd=2)
lines(views[1:95], type='l', lwd=2)
lines(96:365, views[96:365], type='l', lty=2)

Estrapolazione delle visualizzazioni del video Youtube in stile Gangnam

Il modello ovviamente non è perfetto e potrebbe essere integrato in molti modi solidi. Questo schizzo molto approssimativo prevede un miliardo di visualizzazioni da qualche parte intorno a marzo 2013, vediamo ...


5
(+1) Come primo approccio. Nota che la politica di YouTube per il conteggio delle visualizzazioni non è ben compresa dato che non hanno reso pubblico il loro algoritmo. Dicono solo: "Una vista viene conteggiata ogni volta che qualcuno guarda un video su YouTube. Non siamo più specifici di questo per evitare tentativi di gonfiare artificialmente i conteggi delle visualizzazioni" (vedi) .

3
@FredrikD grazie. Puoi ancora rimuovere "accetta" a marzo 2013 se ho sbagliato: D
gui11aume

2
Stima dei parametri del modello SIR, vedere rsfs.royalsocietypublishing.org/content/2/2/156.full
FredrikD

1
Sembra che perderò questo! Potrebbero colpire il milione anche prima del 2013 ...
gui11aume,

2
engadget.com/2012/12/21/gangnam-style-one-billion-views Quindi il mondo non è finito ma oggi sono state raggiunte 1 miliardo di visualizzazioni.
DanTheMan il

5

Probabilmente il modello più comune per prevedere l'adozione di nuovi prodotti è il modello di diffusione dei bassi , che - simile alla risposta di @ gui11aume - modella le interazioni tra utenti attuali e potenziali. L'adozione di nuovi prodotti è un argomento piuttosto caldo nelle previsioni, la ricerca di questo termine dovrebbe produrre tonnellate di informazioni (che purtroppo non ho il tempo di espandere qui ...).


sì, anche questo è un modello candidato. Tuttavia, sembra che si possa essere utenti solo una volta. Qui, visualizzi il video più volte se sei "infetto".
FredrikD,

1
@FredrikD: punto preso. (Anche se personalmente non sono riuscito a sopportare nemmeno un singolo "uso" di questo "prodotto" ...) Dovrebbero esserci generalizzazioni di Bass per affrontare questo. (Spina senza vergogna :) L' International Symposium of Forecasting del prossimo anno è a Seoul, quindi chiunque dovrebbe prendere in considerazione di presentare lì il suo modello di previsione Gangnam preferito! ;-)
S. Kolassa - Ripristina Monica il

4

Vorrei guardare la curva di crescita Gompertz .

La curva di Gompertz è una formula a doppia esponenziale a 3 parametri (a, b, c) con tempo, T, come variabile indipendente.

Codice R:

gompertz_growth <- function(a=a,b=b,c=c, t) { a*exp(b*exp(c*t)) }

La formula di crescita di Gompertz è nota per essere brava a descrivere molti fenomeni del ciclo di vita in cui inizialmente la crescita sta accelerando, quindi si assottiglia dando come risultato una curva sigmoide asimmetrica la cui derivata è più ripida a sinistra che a destra del picco. Ad esempio, il numero totale di articoli su Wikipedia, che è anche di natura virale, segue da molti anni una curva di crescita di Gompertz (con alcuni parametri a, b, c) con grande precisione.

Grafico delle curve di Gompertz: dimensione totale e derivato del suo tasso di crescita

Modifica: se la curva di Gompertz non è abbastanza per approssimare la forma che stai cercando, potresti voler aggiungere parametri de θ come descritto in The Exponentaited Generalized Weibull Gompertz Distribution . Si noti che questo documento utilizza xinvece che tper il parametro time indipendente. È interessante notare che Wikipedia ha anche modificato la sua migliore approssimazione aggiungendo un unico quarto parametro d, per tenere conto di una divergenza di previsione dal valore effettivo dopo il 2012 . La formula curva di Gompertz a 4 parametri modificata è:

gompertz_2 <- function(a=A,b=B,c=C,d=D, t) {a * exp(b * exp(c*t) + d*t)}

La funzione Gompertz prende il nome da Benjamin Gompertz (1779-1865) , un contemporaneo di Gauss (a soli 2 anni di età di Gauss), il primo matematico a descriverlo.


Buon punto! Tuttavia, ciò che sfida il modello è che non sembra essere un limite (vedere No1 e No2). Cioè, il fattore a nel modello aumenta anche nel tempo.
FredrikD,

Sfiderei il "Non sembra esserci un limite". Lo stile Gangnam può raggiungere 1B? 10B? 100B? visualizzazioni? alla fine il tasso di crescita arriva quasi a zero e gli altipiani della curva. Questo è difficile da vedere quando sei nella fase di crescita elevata, come ora siamo con Gangnam, ma aspetta solo qualche anno e vincerai Gompertz :) Il trucco è ovviamente quello di capire il giusto (a, b, c) parametri per questo caso specifico.
arielf

2
Ecco un riferimento per stimare i parametri del modello Gompertz, vedi weibull.com/RelGrowthWeb/…
FredrikD

3

Penso che devi separare fenomeni come Gangnam Style, che deve gran parte delle sue opinioni all'essere un meme / cosa virale, da Justin Bieber ed Eminem, che sono grandi artisti a sé stanti e che si diffonderebbero ampiamente in un ambiente tradizionale - JB o Eminem venderebbero anche molti singoli, non sono sicuro che PSY lo farebbe.


buon punto. Dopo aver letto e ascoltato le interviste di PSY e il team dietro "OGS" (Oppa Gangnam Style), è chiaro che sono ben consapevoli di quale pulsante premere per creare un oggetto virale. Attraverso alcune analisi delle immagini delle immagini sopra, sembra che il no delle viste sia lineare fino a circa 90 giorni dopo il lancio, quindi PSY appare sul Gran Premio di Corea e il numero di visualizzazioni per unità di tempo aumenta.
FredrikD,

- e in che modo queste due classi differiscono dai "classici" - canzoni che presumibilmente erano ben note quando furono caricate per la prima volta su YouTube (sto pensando a David Bowie)?
abaumann,

2

5
Benvenuti nel sito, @ ProfRoy47. Ti dispiacerebbe approfondire un po 'questo post? Non è chiaro che questa sia in realtà una risposta alla domanda del PO / che sia abbastanza autonoma. OTOH, non si adatterebbe come un commento, e penso che abbia gli ingredienti per un contributo utile a questo thread. Le nostre FAQ hanno alcune discussioni riguardo alle risposte sul CV, che potrebbero esserti utili.
gung - Ripristina Monica

1

Il modello ovviamente non è perfetto e potrebbe essere integrato in molti modi solidi. Questo schizzo molto approssimativo prevede un miliardo di visualizzazioni da qualche parte intorno a marzo 2013, vediamo ...

Guardando il rallentamento delle visualizzazioni della scorsa settimana, la data del 13 marzo sembra una scommessa decente. La maggior parte delle nuove visualizzazioni sembra essere già utenti infetti che ritornano più volte al giorno.

Per quanto riguarda l'integrazione del modello, un metodo che i ricercatori utilizzano per tracciare la diffusione di un virus è quello di monitorare le sue mutazioni del genoma - quando e dove è mutato può mostrare ai ricercatori la velocità con cui un virus viene trasmesso e diffuso (vedi tracciamento del virus del Nilo occidentale negli Stati Uniti) .

In senso pratico, video come Gangnam Style e Party Rock Anthem (del gruppo LMFAO) hanno maggiori probabilità di "mutare" in parodie, flash mob, balli di nozze, remix e altre risposte video rispetto alle canzoni di Justin Bieber Baby o Eminem.

I ricercatori hanno potuto analizzare il numero di risposte video (e in particolare le parodie) come proxy delle mutazioni. Misurare la frequenza e la popolarità di queste mutazioni nelle prime fasi della vita del video potrebbe essere utile per modellare le visualizzazioni YouTube della sua vita.


Benvenuto nel sito, @lucasng. CV è destinato gravi, risposte concrete alle domande sostanziali (si consiglia di leggere la nostra faq ), e credo che il PO ha chiesto w / questo in mente. La tua risposta è al limite qui; Penso che dovrebbe rimanere basato sulle sue idee sulle mutazioni, ecc., Ma nota che le opinioni sui meriti dei video non sono davvero germane.
gung - Ripristina Monica

Penso che l'idea sia buona. @gung True, non è una risposta all'OP, ma anche la seconda risposta non lo è.
gui11aume,

@gung: (una ricerca di Google suggerisce che) lucasng non stava dichiarando un'opinione nella parte che hai redatto, ma piuttosto citando il nome del gruppo che esegue la canzone!
cardinale

1
@ cardinale, grazie per l'heads up. Lucasng, scusa per la confusione; Ho rimesso il nome del gruppo.
gung - Ripristina Monica
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.