Domande e risposte per le persone interessate alle statistiche, all'apprendimento automatico, all'analisi dei dati, al data mining e alla visualizzazione dei dati
Il termine "perdita" è sinonimo di "errore"? C'è una differenza nella definizione? Inoltre, qual è l'origine del termine "perdita"? NB: La funzione di errore menzionata qui non deve essere confusa con un errore normale.
Perché utilizziamo unità lineari rettificate (ReLU) con reti neurali? In che modo migliora la rete neurale? Perché diciamo che ReLU è una funzione di attivazione? Softmax non è la funzione di attivazione per le reti neurali? Immagino che usiamo sia ReLU che softmax, in questo modo: neurone 1 con uscita …
Ho letto di due versioni della funzione di perdita per la regressione logistica, quale di esse è corretta e perché? Da Machine Learning , Zhou ZH (in cinese), con β= ( w , b ) e βTx = wTx + bβ=(w,B) e βTX=wTX+B\beta = (w, b)\text{ and }\beta^Tx=w^Tx +b : …
Ho letto questa pagina: http://neuralnetworksanddeeplearning.com/chap3.html e diceva che lo strato di output sigmoideo con entropia incrociata è abbastanza simile allo strato di output softmax con verosimiglianza logaritmica. cosa succede se utilizzo sigmoid con verosimiglianza log o softmax con entropia incrociata nel livello di output? va bene? perché vedo che c'è …
In quasi tutto il lavoro di analisi che io abbia mai fatto uso: set.seed(42) È un omaggio a Hitchhiker's Guide to the Galaxy . Ma mi chiedo se sto creando pregiudizi usando sempre lo stesso seme.
Capisco cos'è un posteriore, ma non sono sicuro di cosa significhi quest'ultimo? In che modo i 2 sono diversi? Kevin P Murphy ha indicato nel suo libro di testo, Machine Learning: a Probabilistic Perspective , che si tratta di "uno stato di convinzione interno". Cosa significa veramente? Avevo l'impressione che …
Trovo che R possa richiedere molto tempo per generare grafici quando sono presenti milioni di punti, il che non sorprende dato che i punti vengono tracciati singolarmente. Inoltre, tali trame sono spesso troppo ingombra e densi per essere utili. Molti dei punti si sovrappongono e formano una massa nera e …
Se la probabilità congiunta è l'intersezione di 2 eventi, allora la probabilità congiunta di 2 eventi indipendenti non dovrebbe essere zero poiché non si intersecano affatto? Non ho capito bene.
Una rete neurale apprende le caratteristiche di un set di dati come mezzo per raggiungere qualche obiettivo. Al termine, potremmo voler sapere cosa ha appreso la rete neurale. Quali erano le caratteristiche e perché gliene importava. Qualcuno può dare alcuni riferimenti sul corpo del lavoro che riguarda questo problema?
Vedo spesso persone creare nuove funzionalità basate su funzionalità esistenti su un problema di apprendimento automatico. Ad esempio, qui: https://triangleinequality.wordpress.com/2013/09/09/basic-feature-engineering-with-the-titanic-data/ people hanno considerato le dimensioni della famiglia di una persona come una nuova funzionalità, in base sul numero di fratelli, sorelle e genitori, che erano caratteristiche esistenti. Ma che senso …
Capisco come otteniamo 3,5 come valore atteso per tirare un dado a 6 facce. Ma intuitivamente, posso aspettarmi che ogni faccia abbia pari probabilità di 1/6. Quindi il valore atteso di tirare un dado non dovrebbe essere uno dei numeri tra 1-6 con uguale probabilità? In altre parole, quando viene …
La mia domanda scaturisce da questo commento su un post sul blog di Andrew Gelman in cui sostiene l'uso di intervalli di confidenza al 50% invece di intervalli di confidenza al 95%, sebbene non sulla base del fatto che sono stimati in modo più robusto: Preferisco intervalli dal 50% al …
Ultimamente ho pensato molto al "problema di squilibrio di classe" nell'apprendimento automatico / statistico e sto attingendo sempre più da un sentimento che non capisco cosa stia succedendo. Prima lasciami definire (o tentare di) definire i miei termini: Il problema dello squilibrio di classe nell'apprendimento automatico / statistico è l'osservazione …
Sto tentando di scrivere una serie di post sul blog sui valori-p e ho pensato che sarebbe stato interessante tornare a dove tutto ha avuto inizio, che sembra essere il documento di Pearson del 1900. Se hai familiarità con quel documento, ti ricorderai che questo copre i test di bontà …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.