Che cosa significa quando tutti i bordi di una rete / grafico del mondo reale sono statisticamente altrettanto probabili accadere per caso?


11

Ho usato il metodo di estrazione della rete backbone delineato in questo documento: http://www.pnas.org/content/106/16/6483.abstract

Fondamentalmente, gli autori propongono un metodo basato sulla statistica che produce una probabilità, per ogni fronte nel grafico, che il margine potrebbe essere accaduto per caso. Uso il tipico limite di significatività statistica di 0,05.

Ho applicato questo metodo a diverse reti del mondo reale e, in modo interessante, alcune reti finiscono per non avere bordi così significativi. Sto cercando di capire cosa questo comporta per la rete. L'unica altra volta in cui ho applicato il metodo a una rete e non sono stati rilevati margini così significativi è stato quando ho applicato il metodo a reti casuali che ho generato, che è esattamente quello che ci aspetteremmo.

Ad esempio una rete del mondo reale, potresti aver visto la recente visualizzazione della rete che è andata avanti su The Economist che mostra la polarizzazione del Senato degli Stati Uniti negli ultimi 25 anni: http://www.economist.com/news/united-states/21591190 -united-states-amoeba . Ho applicato il metodo di estrazione della rete dorsale a tali reti e nessun margine è risultato significativo. Anche se i bordi grezzi mostrano apparentemente un attaccamento e un raggruppamento preferenziali, è solo per caso? La rete della rete elettorale del Senato è essenzialmente casuale?

Risposte:


6

L'ipotesi nulla dietro i metodi backbone è

[I] pesi normalizzati che corrispondono alle connessioni di un certo nodo di grado k sono prodotti da un'assegnazione casuale da una distribuzione uniforme.

Se non ci sono bordi "significativi", l'ipotesi nulla vale per l'intero grafico, vale a dire, i pesi dei bordi risultano dalle propensioni nodali a inviare e ricevere legami.

A seconda delle relazioni che stai analizzando, il metodo backbone potrebbe non essere appropriato. Il metodo funziona meglio per le reti che sono concettualmente ponderate in una modalità. Le reti a due modalità possono essere proiettate come una rete a una modalità ponderata, ma spesso non ha senso farlo.

Attingendo al tuo esempio in Economist, non ha senso analizzare il voto del Senato come una rete monomodale ponderata dal numero di voti condivisi. Votare al Senato è una relazione firmata, a due modalità. I senatori (i) hanno relazioni con un atto legislativo (j) e si astengono dal voto (0) o votano per (+1) o contro (-1) la legislazione. Trasformare la rete in una rete di accordi a una modalità ponderata, quindi eseguire un'analisi dorsale su di essa sarebbe una grave riduzione dei dati. Alcuni atti legislativi sono politicamente più divisivi e alcuni hanno più voti di altri - i metodi di base non catturerebbero questi meccanismi.

È possibile prendere in considerazione i test CUG (Conditional Uniform Graph) anziché i metodi backbone. L'idea alla base di questi test è determinare se determinate proprietà a livello di grafico (ad esempio, raggruppamento, lunghezza media del percorso, centralizzazione, omofilia) derivano dal caso. Il processo è il seguente:

  1. Prendi la misura f dal grafico osservato
  2. Genera un grafico casuale che controlla determinate proprietà del grafico osservato (ad es. Dimensioni, numero di spigoli, distribuzione dei gradi, ecc.)
  3. Prendi la misura f dal grafico casuale
  4. Ripetere i passaggi 2 e 3 più volte (ad esempio, 1000) per produrre una distribuzione nulla
  5. Confrontare la misurazione osservata con la distribuzione nulla

Per le reti a due modalità, sarebbe logico creare il grafico casuale permutando il grafico osservato (sia tnet che statnet in R hanno routine per permutare reti a due modalità). Se la misurazione f richiede una rete monomodale, il processo di randomizzazione dovrebbe essere eseguito sulla rete bidirezionale prima di proiettarla come una rete monomodale.


4

Nell'articolo che citi, gli autori considerano che, in una rete complessa, "[i] nodi rappresentano gli elementi del sistema [modellato] e i bordi ponderati identificano la presenza di un'interazione e la sua forza relativa" (enfasi da me) .

Nella rete che studi, se capisco correttamente l'articolo dell'Economist, c'è un legame tra 2 senatori se hanno votato allo stesso modo almeno 100 volte. Quindi, i collegamenti non modellano le interazioni, ma le somiglianze (tra i comportamenti di voto dei senatori). In base alla mia esperienza, le reti di somiglianza non mostrano la stessa distribuzione dei gradi delle reti di interazione, nel senso che non è così eterogenea. Inoltre, il parametro di soglia utilizzato durante l'estrazione della rete (qui: 100) a volte ha un forte effetto sulla distribuzione dei gradi.

Inoltre, non sono riuscito a trovare la menzione di pesi nell'articolo di Economist. Tuttavia, la presenza di pesi sembra essere un punto importante nel metodo descritto nel lavoro di Ángeles Serrano et al . citi nella tua domanda.

Da queste due osservazioni, sembra possibile che il metodo non funzioni correttamente su questi dati perché non è stato progettato per elaborare reti di questo tipo. Magari puoi verificare la distribuzione dei gradi: è centrata su un valore caratteristico o eterogenea? E i pesi, ce ne sono?


Ho riprodotto personalmente i dati dal sito Web di origine, quindi ho incluso pesi e non ho applicato la soglia di interruzione arbitraria. Quindi penso che i dati a cui ho applicato il metodo backbone non avrebbero dovuto essere interessati da questi problemi. Buona idea sul controllo della distribuzione dei diplomi - dovrò dare un'occhiata!
Randy Olson,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.