Il profeta di Facebook è diverso da una regressione lineare?


11

Quindi quello che ho letto sul profeta di Facebook è che fondamentalmente scompone le serie storiche in tendenze e stagionalità. Ad esempio, un modello additivo verrebbe scritto come:

y(t)=g(t)+S(t)+h(t)+et

con

  • t il tempo
  • g(t) la tendenza (può essere lineare o logistica)
  • s(t) la stagionalità (giornaliera, settimanale, annuale ...)
  • h(t) le vacanze
  • et l'errore

Le mie domande sono: non potrebbe essere fatto con una semplice regressione lineare? Quali sarebbero le differenze in termini di risultati se li confrontassimo, e perché?


Sì, potresti farlo con un modello lineare. Non conosco il Profeta ma se questo è tutto ciò che sta facendo, allora non c'è differenza.
user2974951

Risposte:


13

Il problema qui è quello di arrivare a un'equazione che analizza i dati osservati in segnale e rumore. Se i tuoi dati sono semplici, il tuo approccio di regressione potrebbe funzionare. Bisogna fare attenzione a comprendere alcune delle ipotesi che stanno facendo con il Profeta. Dovresti capire meglio cosa fa il Profeta, poiché non si adatta solo a un modello semplice ma cerca di aggiungere una struttura.

Ad esempio, alcune riflessioni che ho fatto dopo aver letto la loro introduzione ben scritta potrebbero aiutarti nella tua valutazione. Mi scuso in anticipo se ho frainteso il loro approccio e, in tal caso, vorrei essere corretto.

1) Il loro esempio principale ha due punti di rottura nella tendenza, ma hanno catturato solo il più ovvio.

2) Ignorano qualsiasi struttura ARIMA che rifletta le serie stocastiche omesse o il valore dell'uso dei valori storici di Y per guidare la previsione.

3) Ignorano ogni possibile dinamica (effetti lead e lag) di serie stocastiche e deterministiche suggerite dall'utente. Gli effetti di regressione causale del Profeta sono semplicemente contemporanei.

4) Non viene fatto alcun tentativo di identificare gli spostamenti di step / livello nella serie o gli impulsi stagionali, ad es. Una variazione dell'effetto EFFETTO LUNGO a metà del tempo a causa di un evento esterno sconosciuto. Il profeta presuppone una "crescita lineare semplice" anziché convalidarla esaminando le possibilità alternative. Per un possibile esempio di ciò, vedere Previsione di ordini ricorrenti per un'attività di abbonamento online utilizzando Facebook Prophet e R

5) Seni e Coseni sono un modo opaco di gestire la stagionalità, mentre gli effetti stagionali come il giorno della settimana, il giorno del mese, la settimana del mese, il mese dell'anno sono molto più efficace / informativo quando si ha a che fare con effetti antropogenici (che riguardano gli esseri umani!).

Suggerire frequenze di 365,25 per i modelli annuali ha poco senso perché non eseguiamo la stessa azione nello stesso giorno dell'anno scorso, mentre l'attività mensile è molto più persistente, ma il Profeta non sembra offrire gli 11 indicatori mensili opzione. Le frequenze settimanali di 52 hanno poco senso perché non abbiamo 52 settimane in ogni anno.

6) Non viene fatto alcun tentativo di convalidare i processi di errore essendo gaussiani, quindi è possibile effettuare test significativi di significatività.

7) Non si teme che la varianza dell'errore del modello sia omogenea, ovvero che non cambi in modo deterministico in determinati punti nel tempo, suggerendo che i minimi quadrati ponderati. Nessuna preoccupazione per la ricerca di una trasformazione di potenza ottimale per gestire la varianza dell'errore in modo proporzionale al valore atteso Quando (e perché) si dovrebbe prendere il registro di una distribuzione (di numeri)? .

8) L'utente deve pre-specificare tutti i possibili effetti lead e lag relativi a eventi / festività. Ad esempio, le vendite giornaliere iniziano spesso ad aumentare a fine novembre, riflettendo un effetto a lungo termine del Natale.

9) Nessuna preoccupazione sul fatto che gli errori risultanti siano privi di struttura, suggerendo modi per migliorare il modello attraverso il controllo diagnostico per la sufficienza.

10) Apparentemente nessuna preoccupazione per il miglioramento del modello eliminando la struttura non significativa.

11) Non vi è alcuna possibilità di ottenere una famiglia di previsioni simulate in cui i limiti di confidenza potrebbero non essere necessariamente simmetrici mediante il bootstrap degli errori del modello con la possibilità di possibili anomalie.

12) Consentire all'utente di fare ipotesi sulle tendenze (n. Di punti di interruzione e punti di interruzione effettivi) consente una flessibilità indesiderata / inutilizzabile di fronte all'analisi su larga scala che, dal suo nome, è progettata per applicazioni su larga scala a mani libere.


D'accordo, ma direi che quelle cose sono più vicine alle caratteristiche "bello avere", quindi "devono avere". Puoi avere modelli di previsione di alta qualità che ne mancano alcuni. Ma, come ho già detto, buoni punti e bella recensione.
Tim

Sei abbastanza corretto nella tua riflessione ... la complessità intrinseca dei "dati" è il problema dominante. Dati semplici ... servono soluzioni semplici ... dati complessi suggeriscono che il "bello avere" potrebbe diventare "bisogno di avere". Solo i tuoi dati lo sanno per certo!
Mi

@ Tim stats.stackexchange.com/questions/417908/... filo suggerisce che alcune caratteristiche che sono "bello avere" dovrebbero essere in realtà "must avere" per sventare ipotesi improprie come "tendenza semplice lineare".
IrishStat

10

Non l'ho usato, ma questo è l' abstract della loro prestampa (enfasi sulla mia):

La previsione è un'attività di scienza dei dati comune che aiuta le organizzazioni con pianificazione della capacità, impostazione degli obiettivi e rilevamento delle anomalie. Nonostante la sua importanza, ci sono serie sfide associate alla produzione di previsioni affidabili e di alta qualità, specialmente quando ci sono una serie di serie temporali e gli analisti con esperienza nella modellazione di serie temporali sono relativamente rari . Per affrontare queste sfide, descriviamo un approccio pratico alla previsione "su scala" che combina modelli configurabili con analisi delle prestazioni dell'analista nel ciclo. Proponiamo un modello di regressione modulare con parametri interpretabili che possono essere intuitivamente regolati dagli analisti con conoscenza del dominio sulle serie temporali. Descriviamo le analisi delle prestazioni per confrontare e valutare le procedure di previsione e contrassegniamo automaticamente le previsioni per la revisione e la regolazione manuali. Gli strumenti che aiutano gli analisti a utilizzare le proprie competenze nel modo più efficace consentono previsioni affidabili e pratiche delle serie temporali aziendali.

Nell'introduzione:

Abbiamo osservato due temi principali nella pratica della creazione di previsioni aziendali. Innanzitutto, le tecniche di previsione completamente automatiche possono essere difficili da ottimizzare e spesso sono troppo rigide per incorporare ipotesi o euristiche utili. In secondo luogo, gli analisti responsabili delle attività di data science all'interno di un'organizzazione in genere hanno una profonda competenza nel dominio dei prodotti o servizi specifici che supportano, ma spesso non hanno una formazione nelle previsioni delle serie temporali.

Quindi mi sembra che non stiano affermando di aver fatto un sostanziale progresso statistico qui (sebbene sia in grado di fare molto di più del semplice modello che delineate). Al contrario, sostengono che il loro sistema rende fattibile per un gran numero di persone senza esperienza nell'analisi delle serie temporali la generazione di previsioni applicando la propria competenza di dominio e vincoli specifici del sistema.

Se hai già esperienza nell'analisi delle serie storiche e nella codifica di modelli complessi, questo potrebbe non esserti di grande aiuto. Ma se le loro affermazioni sono vere, questo potrebbe essere estremamente utile! La scienza (e il commercio) avanza non solo grazie a nuove idee, ma anche a causa di nuovi strumenti e della loro diffusione (vedi questo breve articolo di Freeman Dyson sull'argomento e questa risposta ).

Per prendere un esempio dalle statistiche stesse: Rnon ha rappresentato un progresso statistico, ma è stato enormemente influente perché ha permesso a molte più persone di fare analisi statistiche. È stata la struttura su cui è stata costruita una grande comprensione statistica. Se siamo fortunati, il Profeta potrebbe svolgere un ruolo simile.

Dyson, Freeman J. "La scienza è per lo più guidata da idee o da strumenti?" Science 338, n. 6113 (2012): 1426-1427.


0

Mancano i punti di cambio, spline lineari a tratti, che possono essere implementati in modelli lineari.

Hai ragione, almeno nel caso limite è una regressione regolarizzata lineare (regolarizzazione L1 e L2).

Si noti che esiste un modello profeta separato, la crescita logistica.

Inoltre stai assumendo che i fattori stagionali siano additivi, ma supportano anche effetti stagionali moltiplicativi, che sembrano più naturali almeno per i modelli di crescita.


L'ipotesi profeta di prendere logs mosche di fronte a questo prezioso discussione ... stats.stackexchange.com/questions/18844/... in cui le trasformazioni di potenza sono giustificate basano su una relazione empirica tra il valore atteso e la varianza dell'errore modello o una specifica presunzione non lineare basata sulla conoscenza del dominio.
IrishStat

@IrishStat Grazie per quel punto (avevo dimenticato che registrano la trasformazione per implementare la stagionalità moltiplicativa, usano STAN, quindi credo che avrebbero potuto usare un modello non lineare invece di prendere i registri). Puoi spiegare la tua distinzione tra ipotesi di stagionalità moltiplicativa e "presunzione non lineare".
seanv507,

Se guardi la risposta di @ whuber stats.stackexchange.com/questions/298/… suggerisce che trasforma "quando la teoria scientifica indica" che sarebbe una possibile ipotesi non lineare basata sulla conoscenza del dominio. Le trasformazioni di potenza empirica sono utili quando la varianza degli errori è proporzionale al valore atteso, altrimenti potrebbe essere semplicemente "vetrinistica".
IrishStat,

0

Si può fare molto con una semplice regressione lineare, ma non tutto ciò che fa il Profeta. Solo un esempio, puoi specificare il tuo candidato al punto di cambio per una tendenza e Prophet lo utilizzerà come precedente.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.