Come fa GitHub a capire la lingua di un progetto?

Question 1

Recentemente stavo lavorando a un progetto GitHub sia in JavaScript che in C ++ e ho notato che GitHub ha etichettato il progetto come C ++. Se devi scegliere una singola lingua, questa è probabilmente la designazione corretta poiché il codice C ++ è compilato come una libreria JavaScript, ma questo mi ha fatto chiedere ... come fa github a capire quale lingua taggare ogni progetto?

Question 2

Aggiornamento aprile 2013, da nuclearsandwich (team di supporto GitHub o "supportocat"):

la pagina della guida "Il mio repository è contrassegnato come lingua sbagliata " menziona l'utilizzo della libreria linguistica per determinare la lingua dei file per l'evidenziazione della sintassi e le statistiche dei repository. Linguist escluderà determinati nomi di file e percorsi dalla statistica, escludendo determinati file e directory di fornitori .
la pagina della guida " Perché la mia lingua preferita non viene riconosciuta? " aggiunge:

Se la lingua desiderata non riceve l'evidenziazione della sintassi, puoi contribuire alla libreria Linguist per aggiungerla.

(Risposta originale, ottobre 2012)

Questo thread sul supporto GitHub lo spiega:

Riassume solo le dimensioni dei file per ciascuna estensione. Quello più grande "vince".

Vorremmo evitare di aprire i file e analizzare il loro contenuto, poiché entrambi rallenterebbero il processo ... ma questo potrebbe essere l'unico metodo per risolvere conflitti come questo.

Poiché questo non è accurato al 100%, alcuni hanno aggiunto:

Anch'io voterei per un semplice interruttore di esclusione manuale per i casi in cui l'ipotesi è sbagliata.

Nota: come Mark Rushakoff menziona nella sua risposta (votata positivamente), le supposizioni sono migliorate da allora con il progetto linguista (open source da giugno 2011).
Puoi vedere che ci sono ancora problemi: GitHub Linguist Issues .
Vedi qui per maggiori dettagli :

Una volta che la lingua è stata rilevata, viene passata ad Albino , un wrapper di Pygments , che esegue l'effettiva evidenziazione della sintassi.

È inoltre possibile aggiungere direttive linguistiche in un file .gitattributes .

Question 3

Attualmente, il progetto linguistico di Github è ciò che viene utilizzato per determinare le statistiche della lingua, come descritto in questo post del blog di Github (che è uscito pochi mesi dopo che questa domanda è stata inizialmente posta).

Question 4

Innanzitutto, sappi che puoi sovrascrivere la lingua rilevata per i file nel tuo repository utilizzando le sostituzioni di Linguist .

Ora, in poche parole,

Ogni repository è contrassegnato con la prima lingua dalle statistiche della lingua .
Le statistiche del linguaggio contano la dimensione totale dei file per ogni linguaggio di programmazione o markup rilevato. Venduti, documentazione e file generati non vengono conteggiati.
La lingua di ogni file viene rilevata dal progetto open source Linguist .

In che modo Linguist rileva le lingue?

Linguist fa affidamento sulle seguenti strategie , in ordine, e restituisce la lingua non appena ha trovato una corrispondenza perfetta (viene restituita la strategia con una sola lingua).

Cerca le modeline Emacs e Vim .
Nome file noto. Alcuni nomi di file sono associati a lingue specifiche (pensa Makefile).
Cerca uno shebang. Un file con uno #!/bin/bashshebang sarà classificato come Shell.
Estensione file nota. Le lingue hanno una serie di estensioni associate ad esse. Tuttavia, ci sono molti conflitti con questa strategia. I risultati contrastanti (si pensi a C ++, C e Objective-C per .h) vengono perfezionati dalle strategie successive.
Un insieme di regole euristiche . Di solito si basano su espressioni regolari sul contenuto dei file per cercare di identificare la lingua (ad esempio, ^[^#]+:-per Prolog ).
Un classificatore bayesiano ingenuo addestrato su file di esempio . Ultima strategia, minima precisione. Il classificatore bayesiano accetta sempre un sottoinsieme di lingue come input; non ha lo scopo di classificare tra tutte le lingue. Viene restituita la migliore corrispondenza trovata dal classificatore.

Cosa sono i file non venduti e i file di documentazione?

Linguist considera alcuni file come venduti , nel senso che non sono inclusi nelle statistiche linguistiche. Questi includono librerie di terze parti come jQuery e sono definiti nel vendor.ymlfile di configurazione. Puoi anche vendere o vendere file nel tuo repository utilizzando le sostituzioni di Linguist .

Allo stesso modo, i file di documentazione sono definiti documentation.ymle possono essere modificati utilizzando le sostituzioni di Linguist .

Come vengono rilevati i file generati?

Linguist si basa su semplici regole per rilevare i file generati, utilizzando sia i percorsi che il contenuto dei file. I file generati non vengono conteggiati nelle statistiche della lingua e non vengono visualizzati nelle differenze su github.com.

E i linguaggi di programmazione e markup?

In Linguist, a ogni lingua viene assegnato un tipo. Questi tipi possono essere trovati nel file di configurazione principale, languages.yml. Nelle statistiche vengono conteggiati solo i linguaggi di programmazione e markup.

Question 5

Dopo aver armeggiato con il linguista l' ho notato.

Per i file con uno Shebang , lo Shebang viene preso in considerazione quando si determina la lingua ma sembra essere ponderato in modo uniforme rispetto ad altri token . Questo sembra essere un grosso errore perché lo Shebang dovrebbe definire definitivamente la lingua del file.

Ciò può causare problemi con l'evidenziazione.

Question 6

Le estensioni dei file sono la prima cosa che mi viene in mente.