Da dove RECAPTCHA ottiene quelle parole? [chiuso]


3

Sto chiedendo solo per curiosità.

Oggi ho incontrato parecchie strane parole mentre sono stato catturato da RECAPTCHA:

  • indelms
  • sumbetat
  • polietry
  • grevolfa

Se queste erano parole ragionevoli in qualsiasi lingua, una ricerca su Google dovrebbe produrre delle pagine ragionevoli che usano queste parole in una frase. Tuttavia, il numero di risultati di Google per le parole di cui sopra sono 3, 0, 27 e 0. Gli hit sono errori di battitura chiaramente improbabili per altre parole ragionevoli.

Quindi da dove RECAPTCHA ottiene quelle parole? (Nota: "Libri." Non è una risposta sufficiente :) Sto cercando una spiegazione per l'alta incidenza di parole apparentemente inesistenti ...)


1
Se questa domanda è off-topic qui, quale sito di StackExchange sarebbe più appropriato?
Timwi

Risposte:


8

Bene, la risposta è libri.

Potrebbero essere scansionati in modo errato, da altre lingue o persino da un autore che li ha scritti male.

Ti suggerisco di leggere Recaptcha's sulla pagina .

fanno uso del

Per archiviare la conoscenza umana e rendere le informazioni più accessibili al mondo, molti progetti stanno attualmente digitalizzando libri fisici scritti prima dell'era dei computer. Le pagine dei libri vengono scannerizzate fotograficamente e quindi trasformate in testo utilizzando "Optical Character Recognition" (OCR). La trasformazione in testo è utile perché la scansione di un libro produce immagini difficili da archiviare su dispositivi di piccole dimensioni, costose da scaricare e non ricercabili. Il problema è che l'OCR non è perfetto.

alt text

reCAPTCHA migliora il processo di digitalizzazione dei libri inviando parole che non possono essere letti dai computer sul Web sotto forma di CAPTCHA che gli umani possono decifrare. Più specificamente, ogni parola che non può essere letta correttamente da OCR viene posizionata su un'immagine e utilizzata come un CAPTCHA. Questo è possibile perché la maggior parte dei programmi OCR ti avvisa quando una parola non può essere letta correttamente.

modificare

Come ho detto, errore nell'OCR -

Credo che Indelms sia pensato per essere indiani - situato dagli Statuti degli Stati Uniti al grande volume 40 parte 2

polietria - molto probabilmente scansionata male da Popliteal - un termine medico.


2
@Timwi - Ho aggiornato la mia risposta, ancora una volta, sono sicuro che si tratta solo di errori OCR, se si esegue la scansione di un documento, si ottengono cose come questa tutto il tempo. Potrebbe anche essere errori in OCR da lingue diverse, non l'ho mai detto solo in uno di essi .... Perché Recaptcha potrebbe mentire sulle loro fonti !?
William Hilsum

3
@Wil: questo non ha alcun senso. Sembra che tu stia insinuando che le parole che sto vedendo sono le risultato di un OCR. Questo ovviamente non è il caso. Sono scansioni da un libro. Sono scansioni di quelle parole in cui l'OCR ha fallito.
Timwi

2
@Timwi - Perché l'atteggiamento? L'uomo sta solo cercando di aiutare (e facendo del suo meglio per quanto si può vedere). Sì, sono il risultato di un OCR ... nessuno ha detto che l'OCR è perfetto e che il risultato è corretto. Esegui la scansione del libro, esegui l'OCR, verifica il risultato, se ci sono dubbi su di esso, metti la scansione originale come captcha. E sì, usano anche altre lingue - solo l'altro giorno sono incappato in alcune parole della mia lingua (molto piccola lingua europea).
Rook

1
@Rook: in primo luogo, non vi è alcun "atteggiamento" nel mio commento. Sto semplicemente indicando i difetti con la sua risposta. In secondo luogo: esattamente! Essi metti la scansione originale come captcha , non il risultato di un OCR (che non avrebbe alcun senso). Pertanto, "errori nell'OCR" non è una risposta alla mia domanda. Ma questi scansioni originali che sto vedendo sono parole senza senso da nessuna lingua. Se fossero parole di un linguaggio ragionevole, anche raro come basco o maltese o altro, Google mostrerebbe pagine ragionevoli che effettivamente usano la parola in un contesto ragionevole. Ma non è così.
Timwi

2
@Timwi - No, non necessariamente. Google mostra solo parti della maggior parte delle lingue, diciamo, da 30 anni. Le lingue cambiano Ho libri sul mio scaffale proprio adesso con parole che non sono più usate oggi né in scrittura né in parlato, e produrranno pochissime apparizioni su google / internet. Se l'inglese non fosse la lingua franca di oggi, sarebbe sicuramente un caso simile (prova a confrontare l'inglese shakespeariano e l'inglese americano ...)
Rook
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.