Trucco Javascript? In che modo scribd rende difficile persino copiare e incollare il testo


19

Ultimamente, ho visto che scribd rende molto difficile per gli utenti (utenti gratuiti) navigare attraverso un documento ospitato sul loro sito. Non è possibile effettuare ricerche all'interno di un documento, figuriamoci poter scaricare lo stesso.

Usando javascript, caricano le pagine su richiesta nel browser, quindi la funzione "salva con nome" del browser non aiuta molto.

Con mia grande sorpresa, ho visto che persino copiare / incollare copie di testo senza senso negli appunti! Per scoprire cosa non andava, ho disattivato JavaScript nel browser e quindi ho caricato di nuovo lo stesso documento. Voilà, l'ho visto senza senso. E così, sembra che il javascript di scribd decodifichi in qualche modo il testo incomprensibile e poi lo visualizzi nel browser.

Ora, la mia domanda è, anche dopo che javascript è abilitato e il testo viene visualizzato correttamente nel browser, se vado a guardare gli oggetti DOM corrispondenti al testo che seleziono, vedo ancora il testo incomprensibile.

Quindi, ora, sono confuso. Il testo viene visualizzato correttamente per l'utente, ma gli oggetti DOM contengono ancora incomprensibili. Quindi la domanda è: che tipo di hook / codice javascript sta usando il sito, in modo da essere in grado di conservare il gibberish negli oggetti DOM e rendere comunque il testo decodificato?

C'è un modo per accedere al testo decodificato? La mia intenzione non è quella di decodificare l'algoritmo per decodificare, ma di individuare dove è memorizzato il testo decodificato?

Il documento di esempio è:

http://www.scribd.com/doc/143886351/OCP-Upgrade-to-Oracle-Database-12c-Student-Guide-vol-1-Exam-1Z0-060

Guarda cosa succede quando si attiva / disattiva Javascript!


È un po 'semplice. Hanno creato un visualizzatore di pdf javascript. Mozilla ha fatto qualcosa con Firefox. Dal momento che il tuo visualizzatore di PDF non viene effettivamente utilizzato per visualizzare il contenuto, possono controllare quasi ogni aspetto dell'esperienza di visualizzazione.
Ramhound,

Risposte:


15

Guarda il font-familyper span. Usano un carattere personalizzato (in questo caso ff6).

Devono farlo in modo che più documenti PDF vengano visualizzati correttamente. Come nei documenti PDF, non è necessario che il testo nel documento debba utilizzare un set di caratteri standard. Deve solo utilizzare uno che ha il codice che si associa ai glifi nel carattere incorporato.


10

Se guardi il testo visualizzato rispetto al "gibberish" puoi vedere che alcune delle lettere sono uguali, mentre alcune delle lettere vengono sostituite. Ad esempio, "Mltmrprfsm Jblbemr" è "Enterprise Manager". Dato abbastanza testo, dovresti essere in grado di creare una tabella di traduzione rapida. Sappiamo già che M si traduce in E , L -> N , T , R e P sono chiari, F -> R , ecc. Dato un po 'di tempo, lavoro investigativo e modeste capacità di programmazione, si potrebbe tradurre l'intero documento.

Naturalmente, non vi è alcuna garanzia che il prossimo documento userà lo stesso ff6carattere menzionato da Dan D. , quindi afferrare quel carattere per uso locale dovrebbe essere il passo successivo se si desidera salvare il testo per dopo.


0

Puoi provare a catturare uno screenshot utilizzando lo strumento di ritaglio del browser e quindi utilizzare uno dei siti ocr online prontamente disponibili per convertirlo in testo. Questo dovrebbe risolverti.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.