Interpretazione della differenza tra distribuzione lognormale e della legge sull'energia (distribuzione dei gradi di rete)


22

Prima di tutto, non sono uno statistico. Tuttavia, ho fatto analisi statistiche di rete per il mio dottorato.

Come parte dell'analisi della rete, ho tracciato una funzione di distribuzione cumulativa complementare (CCDF) di gradi di rete. Quello che ho scoperto è che, diversamente dalle distribuzioni di rete convenzionali (ad es. WWW), la distribuzione è meglio adattata da una distribuzione lognormale. Ho cercato di adattarlo a una legge di potere e usando gli script di Matlab di Clauset et al. Ho scoperto che la coda della curva segue una legge di potere con un taglio.

inserisci qui la descrizione dell'immagine

La linea tratteggiata rappresenta l'adattamento della legge del potere. La linea viola rappresenta una vestibilità normale. La linea verde rappresenta l'adattamento esponenziale.

Quello che sto lottando per capire è cosa significhi tutto questo? Ho letto questo articolo di Newman che tocca leggermente questo argomento: http://arxiv.org/abs/cond-mat/0412004

Di seguito è la mia ipotesi selvaggia:

Se la distribuzione dei gradi segue una distribuzione della legge del potere, capisco che significa che esiste un attaccamento preferenziale lineare nella distribuzione dei collegamenti e del grado della rete (il ricco diventa un effetto più ricco o il processo di Yules).

Ho ragione nel dire che con la distribuzione lognormale a cui sto assistendo, c'è un attaccamento preferenziale non lineare all'inizio della curva e diventa più lineare verso la coda dove può essere adattato da una legge di potenza?

Inoltre, poiché una distribuzione log-normale si verifica quando il logaritmo della variabile casuale (diciamo X) è normalmente distribuito, ciò significa che in una distribuzione log-normale, ci sono più piccoli valori di X e valori meno grandi di X di un variabile casuale che segue una distribuzione della legge di potere avrebbe?

Ancora più importante, per quanto riguarda la distribuzione dei gradi di rete, un allegato preferenziale log-normale suggerisce ancora una rete senza scale? Il mio istinto mi dice che dal momento che la coda della curva può essere adattata da una legge di potenza, la rete può ancora essere conclusa come esibendo caratteristiche prive di scala.


2
Mike, penso che sarebbe molto interessante vedere la trama che stai guardando. Ti dispiacerebbe modificare la tua risposta per includerla? Una cosa che ho immediatamente notato è che le implicazioni riguardanti le leggi sul potere e l'attaccamento preferenziale sono all'indietro. Mentre (alcuni) schemi di attaccamento preferenziale generano distribuzioni di gradi di potere-legge, l'implicazione inversa non è vera (cioè, non è l'unico modo). Alcune informazioni su quale tipo di rete stai guardando potrebbero anche essere utili. Saluti.
cardinale il

1
Voglio dire, l'attaccamento preferenziale è semplicemente un altro nome per l'effetto "ricco diventa più ricco", giusto? In tal caso, la distribuzione lineare dei gradi della rete (legge del potere) è solo una delle molte distribuzioni dei gradi che possono dimostrare un attaccamento preferenziale? In altre parole, fintanto che il gradiente della curva è negativo su un diagramma log-log, allora ci sono alcuni elementi di attaccamento preferenziale, indipendentemente dalla distribuzione? Quindi la differenza tra la distribuzione del grado log-normale e quella del potere-legge non dipende tanto dal fatto che esista un attaccamento preferenziale, ma dalla sua proporzionalità.
Mike,

1
Si noti che l'attaccamento preferenziale è un processo (stocastico) che genera distribuzioni di gradi di legge di potere per una rete. La pendenza della linea cambierà in base all'esponente di scala per una legge di potenza, ma nel caso di un lognormale, la trama non sarà lineare, nemmeno nella coda. Il gradiente di una distribuzione di sopravvivenza sarà sempre negativo, indipendentemente dall'effetto. (Perché?)
cardinale il

Questa è un'ottima modifica. Grazie Michael! L'adattamento lognormale nella regione che hai mostrato è piuttosto notevole. Sembra che potrebbe rompersi un po 'nella coda.
cardinale il

Grazie per la tua risposta ancora cardinale. Quindi sei d'accordo sul fatto che l'allegato preferenziale è ancora al lavoro nella rete che sto osservando? Un'altra domanda che porta avanti è se la rete è senza scale. Se l'attacco preferenziale è attivo nella rete e fintanto che la rete accetta nuovi membri, la rete può essere classificata come priva di scale anche se la distribuzione dei gradi della rete non è lineare. Questo è dove non sono molto sicuro.
Mike,

Risposte:


12

Penso che sarà utile separare la domanda in due parti:

  1. Qual è la forma funzionale della tua distribuzione empirica? e
  2. Cosa implica quella forma funzionale riguardo al processo di generazione nella tua rete?

p>0.1x15p<0.1significa sostanzialmente fare la stessa cosa. Puoi rifiutare quel modello come processo di generazione per i dati sulla distribuzione dei diplomi che hai? In caso contrario, ti sarà permesso di inserire il log-normal nella categoria "plausibile".

x1

La seconda domanda è in realtà più difficile delle due. Come alcune persone hanno sottolineato nei commenti sopra, ci sono molti meccanismi che producono distribuzioni della legge del potere e l'attaccamento preferenziale (in tutte le sue varianti e gloria) è solo uno dei tanti. Pertanto, osservare una distribuzione della legge del potere nei tuoi dati (anche autentica che supera i necessari test statistici) non è una prova sufficiente per concludere che il processo di generazione fosse un attaccamento preferenziale. O, più in generale, se si dispone di un meccanismo A che produce alcuni pattern X nei dati (ad esempio, una distribuzione dei gradi log-normale nella rete). Osservare il modello X nei dati non è la prova che i dati sono stati prodotti dal meccanismo A. I dati sono coerenti con A, ma ciò non significa che A sia il meccanismo giusto.

Per dimostrare davvero che A è la risposta, devi testare direttamente i suoi presupposti meccanicistici e dimostrare che valgono anche per il tuo sistema, e preferibilmente mostrare anche che altre previsioni del meccanismo valgono anche nei dati. Sid Redner (vedi Figura 4 di questo documento ) ha fatto un ottimo esempio della parte relativa ai test di assunzione , in cui ha dimostrato che per le reti di citazioni, l'assunto di attaccamento preferenziale lineare è effettivamente contenuto nei dati.

Infine, il termine "rete senza scale" è sovraccarico in letteratura, quindi suggerirei fortemente di evitarlo. Le persone lo usano per fare riferimento a reti con distribuzioni di laurea in giurisprudenza ealle reti sviluppate da attaccamenti preferenziali (lineari). Ma come abbiamo appena spiegato, queste due cose non sono uguali, quindi usare un solo termine per riferirsi ad entrambi è solo fonte di confusione. Nel tuo caso, una distribuzione log-normale è completamente in contrasto con il classico meccanismo di attaccamento preferenziale lineare, quindi se decidi che log-normal è la risposta alla domanda 1 (nella mia risposta), ciò implicherebbe che la tua rete non è " scala libera "in tal senso. Il fatto che la coda superiore sia "ok" come distribuzione di potere-legge non avrebbe senso in quel caso, poiché c'è sempre una parte della coda superiore di qualsiasi distribuzione empirica che supererà quel test (e passerà perché il test perde potenza quando non ci sono molti dati per andare avanti, che è esattamente ciò che accade nella coda superiore estrema).


hai confuso <e> quando hai parlato di un valore p per l'adattamento della coda superiore?
David Nathan,

Le condizioni del valore p in questo commento sono giuste. I valori p qui indicati provengono dalla sezione 4.1 di arxiv.org/abs/0706.1062 , dove i valori di grandi dimensioni rappresentano adattamenti corretti e i valori di piccole dimensioni rappresentano adattamenti errati. Vedi in particolare la nota 8 in fondo a pagina 17.
Jonathan S.

3

Che bella domanda. Sto avendo una conversazione correlata su questo associata a una domanda che ho posto altrove su CrossValidated. Lì, ho chiesto se la distribuzione gamma fosse una buona distribuzione da utilizzare in una simulazione di un social network in cui la probabilità di legami è endogena con alcune caratteristiche di "popolarità" continua dei nodi. @NickCox mi ha suggerito di usare invece la distribuzione lognormale. Ho risposto che la distribuzione lognormale ha una giustificazione teorica come processo sottostante che descrive la popolarità perché la popolarità potrebbe essere interpretata come il prodotto di molte variabili casuali a valore positivo (ad esempio, ricchezza, reddito, altezza, prodezza sessuale, abilità di combattimento, QI). Ciò ha più senso per me della giustificazione teorica della legge del potere, e si fonde con i dati empirici, il che suggerisce che la forma della legge del potere è troppo inflessibile per spiegare la variazione inter-rete nella distribuzione dei gradi. Il lognormale, al confronto, ha una forma molto flessibile, con la modalità che si avvicina allo zero per una varianza elevata. Inoltre, ha senso che l'asimmetria della distribuzione dei gradi dovrebbe aumentare con la varianza a causa dell'effetto di attaccamento preferenziale.

In conclusione, penso che la distribuzione lognormale si adatti meglio ai tuoi dati perché la distribuzione lognormale descrive il processo sottostante di formazione della distribuzione dei gradi meglio della legge del potere o delle distribuzioni esponenziali.


2

Venire su questo sito dopo aver contato le mie distribuzioni di bolle e aver usato la legge di potenza per i dati di viscosità.

Scorrendo i set di dati di esempio nel documento sulla legge del potere di Clauset et al. hanno suscitato dei veri orrori nei set di dati, lontani dai set di dati della legge sul potere a supporto della loro tesi. Proprio dal buon senso non avrei certamente cercato di adattare una funzione di legge del potere all'intero intervallo di dati per la maggior parte di essi. Tuttavia, il comportamento di auto-ridimensionamento nel mondo reale può essere valido in una parte di un sistema osservato, ma può rompersi quando alcune proprietà del sistema raggiungono un limite fisico o funzionale.

Gli articoli molto leggibili di seguito si riferiscono all'adattamento della curva di crescita per gli ecologi, con una buona discussione sulla legge del potere e sulle relative distribuzioni, basata su modelli di comportamento della popolazione basati sull'osservazione.

L'autore è molto più pragmatico di Clauset et al. Citando: "... se l'obiettivo non è che un obiettivo migliore e le scale al di fuori della finestra della scala del set di dati non vengono discusse, qualsiasi modello può essere sufficiente dato che produce un buon valore e non produce massimi o minimi all'interno della finestra della scala studiata ". "Uno è spesso costretto a adattarsi allo stesso modello, come altri ricercatori hanno applicato ai propri dati, al fine di poter confrontare i valori dei parametri, ma si può fare questo in aggiunta all'applicazione di un modello o modelli di adattamento migliore con aspettative migliori forme o entrambi ". Parole riposanti.

Tjørve, E. (2003). Forme e funzioni delle curve area-specie: una revisione dei possibili modelli. Journal of Biogeography, 30 (6), 827-835.

Tjørve, E. (2009). Forme e funzioni delle curve area-specie (ii): una revisione di nuovi modelli e parametrizzazioni. Journal of Biogeography, 36 (8), 1435-1445.


1

I risultati di cui sopra mostrano che la distribuzione dei gradi può essere sia legge del potere che lognormale, il che può suggerire che coesistono nella rete oggetto di studio piccole proprietà senza scala e senza mondo. Per esaminare se la rete è priva di ridimensionamento (con parametro di ridimensionamento costante) con collegamento preferenziale, è spesso richiesto un disegno sperimentale. Nell'articolo di Sid Redner menzionato sopra, il tasso di crescita viene utilizzato per comprendere il meccanismo di crescita. Mentre Gallos, Song e Makse usano caselle per coprire la rete e concludono che la distribuzione dei gradi di rete segue la distribuzione della legge di potenza, se NB (lB) ~ lB ^ -dB. O esporre le relazioni tra coefficiente di cluster e grado (se la relazione soddisfa la legge del potere). Altrimenti, si discute sul fatto che le reti gerarchiche hanno proprietà di rete sia di dimensioni ridotte sia di dimensioni ridotte. (digitando Frattale senza scala,

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.