La comprensione della teoria dello spazio di scala


10

Nella teoria dello spazio-scala la rappresentazione dello spazio-scala del segnale , (nel caso dell'immagine ) è data come: dove è un kernel gaussiano con parametro e è una convoluzione. Modificando il parametro riceviamo un'immagine più o meno levigata. Di conseguenza, la rappresentazione più grossolana (parametro ) non conterrà piccoli oggetti o rumore.d = 2 L ( x , y , t ) = g ( x , y , t ) * f ( x , y ) g ( x , y ; t ) t t tf(x),x=(x1,...,xd)d=2L(x,y;t)=g(x,y;t)f(x,y)g(x,y;t)ttt

Il punto principale è trovare un modo per rilevare le caratteristiche invarianti della scala, giusto? In modo che per alcune immagini di dimensioni ridotte, le funzioni come i punti chiave verranno rilevate correttamente, anche se le dimensioni sono diverse, senza trovare altri punti chiave rumore.

  1. Nel documento stanno usando i derivati normalizzati. . Qual è il significato dell'utilizzo del derivato normalizzato, in che modo aiuta nell'invarianza di scala?δ ξ , γ - n o r mγ γδξ,γnorm=tγ/2δxγ

  2. Da questa immagine possiamo vedere che quasi nelle stesse posizioni sono stati trovati i diversi punti chiave (di dimensioni diverse). Come è possibile?

Funzionalità rilevate

Se riesci a spiegare l'algoritmo passo-passo del rilevamento di funzionalità invarianti su scala, questo sarebbe fantastico. Cosa viene effettivamente fatto? I derivati ​​possono essere presi da o . Il BLOB può essere rilevato prendendo la derivata di da variabili . In che modo il derivato di sta aiutando qui?t L ( x , y ) tx,ytL(x,y)t

Il documento che stavo leggendo è: Rilevamento delle funzioni con selezione automatica della scala

Risposte:


3
  1. E davvero è stato un molto tempo da quando ho letto le carte di Lindeberg, quindi la notazione sembra un po 'strano. Di conseguenza, la mia risposta iniziale era sbagliata. non è un livello di scala. Sembra essere un parametro di qualche tipo che può essere sintonizzato. È vero che è necessario moltiplicare la derivata per la potenza appropriata di . stesso corrisponde a un livello di scala e la potenza dipende dall'ordine del derivato.t tγtt

  2. È possibile trovare punti chiave su più scale nella stessa posizione. Questo perché cerchi i massimi locali sopra le scale. Ecco l'intuizione: pensa a un'immagine di un volto. Ad una scala fine si ottiene una chiazza corrispondente al naso. A una scala di campo si ottiene un blob corrispondente all'intera faccia. I due BLOB sono centrati nello stesso punto, ma hanno scale diverse.

  3. Ecco l'intero algoritmo:

    • Decidi quali caratteristiche dell'immagine ti interessano (ad es. Macchie, angoli, bordi)
    • Definire una "funzione rivelatore" corrispondente in termini di derivati, ad esempio un Laplaciano per BLOB.
    • Calcola i derivati ​​che ti servono per la tua funzione di rivelatore su una gamma di scale.
    • Moltiplicare le risposte della derivata per , dove è l'ordine della derivata, per compensare la diminuzione della grandezza. mtmγ/2m
    • Calcola la funzione del rivelatore su tutto lo spazio della bilancia.
    • Trova i massimi locali della funzione del rivelatore su .x,y,t
    • Questi sono i tuoi punti di interesse o punti chiave.

Modificare:

  1. Lindeberg dimostra nel documento che è il fattore appropriato per la normalizzazione dei derivati. Non credo di poter riprodurre la prova qui.tγ/2
  2. Non prendi derivati ​​rispetto a . È solo derivati di calcolo rispetto a e , ma li calcolare in una gamma di scale. Un modo di pensarci è generare prima uno spazio in scala gaussiana, sfocando ripetutamente l'immagine con un filtro gaussiano di qualche varianza . Poi derivati di calcolo rispetto alla ed ad ogni livello della scala.x y t x ytxytxy
  3. Volete trovare i massimi locali su scale perché potreste avere caratteristiche dell'immagine di dimensioni diverse nella stessa posizione. Pensa a un'immagine di cerchi concentrici, come un occhio di bue. Ti darà alte risposte di un Laplaciano su più scale. Oppure pensa a un'immagine di un vero occhio umano filtrato da un Laplaciano a diverse scale. Otterrai una risposta elevata su una scala fine per la pupilla, una risposta elevata su una scala media per l'iride e una risposta elevata su scala grossolana per tutto l'occhio.

Il punto è che non sai a che scala le caratteristiche di interesse potrebbero essere in anticipo. Quindi guardi tutte le scale.


1. Come possiamo fornire che il moltiplicatore sia abbastanza per rendere la risposta derivativa effettivamente normalizzata? 2. Ho pensato che la derivata di è presa per trovare il parametro dove si raggiunge il massimo. Per trovare la scala migliore. Quindi, mentre stai scrivendo, sembra che devo calcolare le derivate per nell'intero intervallo selezionato. E come risultato troverò (prendendo le derivate per ) le caratteristiche a diverse scale. Giusto? t t t x , ytγ/2tttx,y
massimo

E come hai scritto in 3: Trova i massimi locali della funzione del rivelatore su Perché dobbiamo trovare i massimi locali di t? Puoi per favore descrivere questo passaggio in dettaglio? In realtà come viene utilizzata la derivata di ? tx,y,tt
massimo

@maximus Vedi la modifica alla risposta.
Dima,

@maximus, ho sbagliato prima. gamma non è il livello di scala. Ho risolto la risposta.
Dima,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.