Domande relative alla rappresentazione delle immagini, segmentazione, categorizzazione degli oggetti visivi e algoritmi di elaborazione delle immagini in generale.
Voglio imparare le reti neurali. Sono un linguista computazionale. Conosco approcci statistici di machine learning e posso programmare in Python. Sto cercando di iniziare con i suoi concetti e conoscere uno o due modelli popolari che possono essere utili dal punto di vista della linguistica computazionale. Ho navigato sul web …
Non ho un background di visione artificiale, eppure quando leggo alcuni articoli e documenti relativi all'elaborazione delle immagini e alle reti neurali convoluzionali, devo costantemente affrontare il termine translation invariance, o translation invariant. O ho letto molto che l'operazione di convoluzione prevede translation invariance? !! Cosa significa questo? Io stesso …
Spiegherò il mio problema con un esempio. Supponiamo di voler prevedere il reddito di un individuo in base ad alcuni attributi: {Età, Genere, Paese, Regione, Città}. Hai un set di dati di allenamento come questo train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", …
Possiamo fornire immagini di dimensioni variabili come input per una rete neurale convoluzionale per il rilevamento di oggetti? Se possibile, come possiamo farlo? Ma se proviamo a ritagliare l'immagine, perderemo una parte dell'immagine e se proviamo a ridimensionare, allora la chiarezza dell'immagine andrà persa. Significa che l'uso della proprietà di …
Stavo leggendo dell'ottimizzazione per un problema male posto nella visione artificiale e ho trovato la spiegazione di seguito sull'ottimizzazione su Wikipedia. Quello che non capisco è, perché chiamano questa ottimizzazione " Riduzione al minimo dell'energia " in Computer Vision? Un problema di ottimizzazione può essere rappresentato nel modo seguente: Dato: …
La perdita della cerniera può essere definita usando e la perdita del log può essere definita come log ( 1 + exp ( - y i w T x i ) )max ( 0 , 1 - yiowTXio)max(0,1-yiowTXio)\text{max}(0, 1-y_i\mathbf{w}^T\mathbf{x}_i)log ( 1 + exp( - yiowTXio) )log(1+exp(-yiowTXio))\text{log}(1 + \exp(-y_i\mathbf{w}^T\mathbf{x}_i)) Ho le …
Sto cercando di risolvere un compito chiamato rilevamento dei pedoni e alleno il clasifer binario su due categorie di aspetti positivi: persone, aspetti negativi, sfondo. Ho un set di dati: numero di positivi = 3752 numero di negativi = 3800 Uso train \ test split 80 \ 20% e RandomForestClassifier …
Ho un incarico di data mining in cui realizzo un sistema di recupero di immagini basato sul contenuto. Ho 20 immagini di 5 animali. Quindi in totale 100 immagini. Il mio sistema restituisce le 10 immagini più rilevanti in un'immagine di input. Ora devo valutare le prestazioni del mio sistema …
Voglio usare il deep learning per addestrare un rilevamento binario viso / non viso, quale perdita dovrei usare, penso che sia SigmoidCrossEntropyLoss o Hinge-loss . Esatto, ma mi chiedo anche di usare softmax ma con solo due classi?
Per esempio, supponiamo che stiamo costruendo uno stimatore di età, basato sull'immagine di una persona. Di seguito abbiamo due persone in giacca e cravatta, ma la prima è chiaramente più giovane della seconda. (fonte: tinytux.com ) Ci sono molte caratteristiche che lo implicano, ad esempio la struttura del viso. Tuttavia …
Attualmente sto lavorando a un software di riconoscimento facciale che utilizza reti neurali di convoluzione per riconoscere i volti. Sulla base delle mie letture, ho riscontrato che una rete neurale convoluzionale ha condiviso pesi, in modo da risparmiare tempo durante l'allenamento. Ma come si adatta la backpropagation in modo che …
Sto lavorando su una rete di convoluzione per il riconoscimento delle immagini e mi chiedevo se potevo inserire immagini di dimensioni diverse (non enormemente diverse). Su questo progetto: https://github.com/harvardnlp/im2markup Dicono: and group images of similar sizes to facilitate batching Quindi, anche dopo la preelaborazione, le immagini sono ancora di dimensioni …
Nell'attività di visione artificiale, come la classificazione degli oggetti, con Convolutional Neural Networks (CNN), la rete offre prestazioni interessanti. Ma non sono sicuro di come impostare i parametri in strati convoluzionali. Ad esempio, un'immagine in scala di grigi ( 480x480), il primo livello convoluzionale può usare un operatore convoluzionale come …
Nel documento Faster RCNN quando si parla di ancoraggio, cosa significano usando "piramidi di caselle di riferimento" e come si fa? Questo significa semplicemente che in ciascuno dei punti di ancoraggio W * H * k viene generato un rettangolo di selezione? Dove W = larghezza, H = altezza e …
Ho un set di dati sbilanciato in un'attività di classificazione binaria, in cui l'importo positivo e negativo è dello 0,3% vs 99,7%. Il divario tra positivi e negativi è enorme. Quando alleno una CNN con la struttura utilizzata nel problema MNIST, il risultato del test mostra un alto tasso di …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.