Calcolo della pendenza media: media armonica o aritmetica?


11

Devo calcolare la pendenza percentuale di pendenza media per un set di dati di grandi dimensioni, il metodo di base è dettagliato qui. Tuttavia, ho iniziato a chiedermi se la media armonica potrebbe essere più appropriata della media aritmetica standard, dal momento che è tecnicamente una velocità di cambiamento. Non ho visto questo apparire in nessuna delle altre discussioni sulla media della pendenza su punti, aree, linee, ecc. Dovrebbe essere abbastanza semplice da realizzare.

modifica: lo scopo del calcolo della pendenza media in questo caso è generare un parametro (di molti) da utilizzare nella modellazione delle soglie di avvio del canale. Ho una serie di posizioni di testa di canale raccolte sul campo che raccoglierò l'accumulo di flusso, vari parametri di pendenza media, ecc., E userò la regressione lineare multipla per cercare di descrivere le soglie di accumulo in termini di altri parametri.


4
Dipende dal motivo per cui stai calcolando la pendenza media. Qual è lo scopo? Quale quantità fisica stai cercando di misurare? Sebbene molte forme di media siano legittime, fai attenzione alla media armonica: causa problemi quando qualsiasi pendenza è zero, cosa che accade spesso.
whuber

Risposte:


10

La pendenza media suona come una quantità naturale ma è piuttosto strana. Ad esempio, la pendenza media di una piana orizzontale piana è zero, ma quando si aggiunge un po 'di rumore casuale, medio zero a un DEM di quella piana, la pendenza media può solo salire . Altri comportamenti strani sono la dipendenza della pendenza media dalla risoluzione DEM, che ho documentato qui , e la sua dipendenza da come è stata creata la DEM. Ad esempio, alcuni DEM creati dalle mappe di contorno sono in realtà leggermente terrazzati - con piccoli salti improvvisi in cui giacciono le linee di contorno - ma per il resto sono rappresentazioni accurate della superficie nel suo complesso. Quei salti improvvisi, se dati troppo o troppo poco peso nel processo di calcolo della media, possono cambiare la pendenza media.

Aumentare la ponderazione è rilevante perché, in effetti, una media armonica (e altri mezzi) stanno pesando in modo differenziato le pendenze. Per comprendere ciò, si consideri la media armonica di soli due numeri positivi x ed y . Per definizione,

Harmonic mean(x,y) = 1 / ((1/x + 1/y)/2) = x (y/(x+y)) + y (x/(x+y)) = a x + b y

dove i pesi sono a = y / (x + y) e b = x / (x + y). (Questi meritano di essere chiamati "pesi" perché sono positivi e si sommano all'unità. Per la media aritmetica, i pesi sono a = 1/2 eb = 1/2). Evidentemente, il peso attaccato a x , uguale a y / (x + y), è grande quando x è piccolo rispetto a y . Quindi armonica significa sovrappesare i valori più piccoli .

Può aiutare ad ampliare la domanda. La media armonica appartiene a una famiglia di medie parametrizzate da un valore reale p . Così come la media armonica è ottenuto dalla media dei reciproci di x ed y (e quindi prendendo il reciproco della media), in generale, si può calcolare la media dei poteri PTH di x ed y (e quindi prendere il potere 1 / PTH del risultato ). I casi p = 1 e p = -1 sono rispettivamente i mezzi aritmetici e armonici. (Possiamo definire una media per p = 0 prendendo i limiti e quindi ottenendo anche la media geometrica come membro di questa famiglia.) Come pdiminuisce da 1, i valori più piccoli sono sempre più fortemente ponderati; e quando p aumenta da 1, i valori più grandi sono sempre più fortemente ponderati. Ne consegue che la media può aumentare solo all'aumentare di p e deve diminuire al diminuire di p . (Ciò è evidente nella seconda figura in basso, in cui tutte e tre le linee sono piatte o aumentano da sinistra a destra.)

Prendendo una visione pratica della questione, potremmo invece studiare il comportamento di vari mezzi di pendenza e aggiungere questa conoscenza alla nostra cassetta degli attrezzi analitica: quando prevediamo che le pendenze entrino in una relazione in modo tale che si debba dare più di un'influenza, potremmo scegliere una media con p minore di 1; e viceversa, potremmo aumentare p sopra 1 per enfatizzare le pendenze maggiori. A tal fine, consideriamo varie forme di profili di drenaggio in prossimità di un punto.

Per mostrare cosa potrebbe succedere, ho considerato tre terreni locali qualitativamente diversi : uno è dove tutte le pendenze sono uguali (il che fa un buon riferimento); un altro è dove localmente siamo situati sul fondo di una ciotola: intorno a noi le pendenze sono zero, ma poi aumentano gradualmente e alla fine, attorno al bordo, diventano arbitrariamente grandi. L'inverso di questa situazione si verifica quando le piste vicine sono moderate ma poi si livellano lontano da noi. Ciò sembrerebbe coprire una gamma realisticamente ampia di comportamenti.

Ecco trame pseudo-3D di questi tre tipi di forme di drenaggio:

Trame in 3D

Qui ho calcolato la pendenza media di ciascuno - con la stessa codifica a colori - in funzione di p , lasciando che p sia compreso tra -1 (media armonica) e 2.

Pendenza significa vs p

Ovviamente la linea blu è orizzontale: non importa quale valore p assume, la media di una pendenza costante non può essere altro che quella costante (che è stata impostata su 1 per riferimento). Le pendenze alte attorno al bordo estremo della ciotola rossa influenzano fortemente le pendenze medie quando p varia: nota quanto diventano grandi una volta che p supera 1. Il bordo orizzontale nella terza superficie (verde-oro) provoca la media armonica (p = - 1) essere zero.

È interessante notare che le posizioni relative delle tre curve cambiano in p = 0 (la media geometrica): per p maggiore di 0, la ciotola rossa ha pendenze medie più grandi del blu, mentre per p negativa la ciotola rossa ha media più piccola pendenze rispetto al blu. Pertanto, la scelta di p può modificare anche la classifica relativa delle pendenze medie.

L'effetto profondo della media armonica (p = -1) sulla forma giallo-verde dovrebbe darci una pausa: mostra che quando ci sono abbastanza piccole pendenze nel drenaggio, la media armonica può essere così piccola da sopraffare qualsiasi influenza di tutte le altre piste.

Nello spirito di un'analisi esplorativa dei dati, potresti considerare di variare p - forse lasciandolo compreso tra 0 e leggermente maggiore di 1 per evitare pesi estremi - e scoprire quale valore crea la migliore relazione tra pendenza media e la variabile stanno modellando (come le soglie di inizializzazione del canale). "Migliore" di solito è inteso nel senso di "più lineare" o "creazione di residui [omoscedastici] costanti" in un modello di regressione.


Grazie per l'analisi approfondita! Dovrò rimuginare su questo per un po '.
Jay Guarneri,

1

Ho intrapreso un approccio empirico per trovare una risposta complementare all'eccellente risposta teorica di whuber. Ho deciso di calcolare la pendenza in gradi e media utilizzando una media angolare . Successivamente, ho calcolato la media aritmetica e armonica della pendenza percentuale che ho creato una serie di punti campione posizionati casualmente nell'area di studio. Ho richiesto 2000 punti con una distanza minima di 100 m, che ha prodotto 1326 punti. Ho campionato i valori di ciascun raster medio di pendenza in ciascun punto e convertito la percentuale media in gradi usando la formula Degrees = atan(percent/100). La mia ipotesi qui è che la media angolare produrrà la pendenza media "corretta" in gradi e qualsiasi media percentuale che si avvicina ad essa sarebbe la procedura corretta.

Successivamente, ho confrontato tutti i valori diversi da zero usando un test di Kruskal-Wallace (i presupposti sono che per la maggior parte dei valori di pendenza zero, sarebbe zero in tutti e tre e che i valori zero maschererebbero le differenze tra i metodi). Ho trovato una differenza significativa tra i tre (chi-quadrato = 17.9570, DF = 2, p = 0,0001), quindi ho esaminato ulteriormente i dati usando la procedura di Dunn usando alpha = 0,05 (Elliot e Hynan 2011) . Il risultato finale è che la media aritmetica e armonica sono significativamente diverse l'una dall'altra, ma il più vicino è significativamente diverso dalla media angolare:

Comparison           Diff        SE        q         q(0.05)    Conclude                      
------------------------------------------------------------------------------                
arith     harm      164.12    38.78     4.23       2.394    Reject                            
arith     angular   75.3      38.8      1.94       2.394    Do not reject                     
angular   harm      88.82     38.68     2.3        2.394    Do not reject                     

Se i miei presupposti erano tutti corretti (potrebbero benissimo non esserlo), ciò significa che mentre i mezzi armonici e aritmetici creano valori diversi l'uno dall'altro, sono entrambi "ravvicinati" al mezzo angolare per essere accettabili. Ci sono altre due avvertenze che mi vengono in mente (per favore aggiungine altre se ci pensate):

  1. Una dimensione del campione maggiore potrebbe trovare una differenza significativa tra la media percentuale e la media angolare. Tuttavia, la mia dimensione del campione era ~ 1000 punti solo per i valori diversi da zero.
  2. Dato che i miei punti campione sono stati posizionati indipendentemente dai bacini di drenaggio, potrebbero esserci delle pseudo-repliche coinvolte, poiché qualsiasi pendenza media sarà correlata a pendenze medie al di sopra di essa.

1
Questo è interessante (+1), ma attenzione alle limitazioni. (1) Sì, se scegli una dimensione del campione maggiore, scoprirai che tutte le differenze sono significative. Pertanto, non ha senso condurre un test di ipotesi statistiche: si desidera concentrarsi sulla quantità di differenza tra le procedure. (2) I risultati dipendono interamente dalle proprietà effettive dei dati. Varia con altri set di dati. (3) La media angolare è utile come riferimento ma non è affatto un valore preferito. Quale utilizzare come riferimento dipende interamente da come la media verrà utilizzata in ulteriori analisi o mappature.
whuber

0

Dato l'assunto che non sono noti parametri che definiscono la pendenza, qualsiasi statista direbbe di utilizzare la pendenza che minimizza le deviazioni RMS dei dati da essa. (Naturalmente, gli esempi di whuber non si qualificano poiché ha scelto landform generati matematicamente, ma per i landform reali l'assunzione di parametri non noti dovrebbe essere valida.)


Questa risposta è apprezzata, ma penso che fraintenda la situazione. Soprattutto, queste pendenze non vengono utilizzate per adattarsi alle curve: il concetto di "deviazioni RMS dei dati" non è applicabile. In secondo luogo, ho scelto tipi di landform qualitativi per coprire un ampio spettro di ciò che sarà realmente incontrato, quindi sostengo che forniscano informazioni utili su cosa aspettarsi. I set di dati reali non contribuiscono molto alla comprensione di ciò che sta accadendo qui, perché non esiste una pendenza media "vera". La domanda principale è quali medie saranno utili o informative.
whuber

1
A proposito, credo di avere alcune qualifiche come statistico. Ciò non rende la mia opinione su questa faccenda migliore o peggiore: come con chiunque altro, ho bisogno di sostenerlo nel modo più chiaro e obiettivo possibile e sono abbastanza suscettibile di sbagliarmi e di dover cambiare idea: - ). Offro questo punto in contrasto con la tua osservazione "qualsiasi statistico".
whuber

La domanda su quale misura sia utile, sostengo, dipende da quale pendenza deve essere utilizzata. Per il potenziale di caduta della terra, ad esempio, le pendenze più ripide verrebbero ponderate più in alto rispetto alle pendenze lievi secondo un modello di pendenza rispetto a un pendio, quindi l'approccio di adattamento RMS dovrebbe essere valido. Altri modelli di ponderazione verrebbero utilizzati in base ad altri usi. In breve, modellare tutto ciò che sappiamo ponderando o altri mezzi, quindi fare affidamento su RMS come modello per tutto ciò che non sappiamo, è ciò che sto suggerendo.
johnsankey,

Sono d'accordo con la premessa di quel commento, John, ma non vedo come la tua conclusione segue. Se le pendenze più ripide devono ricevere pesi più pesanti, allora sembra che RMS sia proprio ciò che non si desidera fare, perché pesa tutte le deviazioni allo stesso modo, indipendentemente dalla pendenza. Inoltre, RMS, in quanto funzione di perdita quadratica, non può essere una sostituzione universale per ciò che altre tecniche possono ottenere, tra cui le repressioni non lineari della pendenza e l'uso di funzioni di perdita alternative (come sfruttate ad esempio da robusti metodi di adattamento).
whuber

RMS include pesi
johnsankey
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.