È possibile per i crawler Web vedere le pagine statiche senza seguire un collegamento ad esse?


Risposte:


10

Possono vederlo? Sì. Possono trovarlo? Non senza aiuto.

I crawler Web in genere trovano le pagine da scansionare seguendo i collegamenti ad esse su altre pagine. Alcuni crawler (ad esempio i crawler dei motori di ricerca) eseguiranno anche la scansione delle pagine elencate in file XML speciali. Pertanto, se non è presente alcun collegamento alla pagina del tuo sito Web o di qualsiasi altro sito Web, tale pagina non verrà sottoposta a scansione (le pagine che contengono l'URL di quella pagina ma sono in testo normale verranno trovate da Google ).

Tuttavia, una volta che una pagina viene trovata e sottoposta a scansione, può essere nuovamente sottoposta a scansione anche se tutti i collegamenti a tale pagina vengono rimossi dai rispettivi siti Web. Questo perché le pagine sottoposte a ricerca per indicizzazione vengono quindi indicizzate (ad esempio aggiunte all'elenco di pagine dei crawler per eseguire nuovamente la ricerca per indicizzazione) in modo che il crawler sappia eseguire nuovamente la ricerca per indicizzazione in un secondo momento per cercare le modifiche. Se si desidera impedire che ciò accada, è possibile effettuare una delle seguenti operazioni:

Il più efficace

  • Rimuovi la pagina da Internet
  • Modificato l'URL di quella pagina (essenzialmente rimuovendo la pagina e aggiungendone una nuova)
  • Posizionalo dietro un login

Meno efficace

  • Blocca quella pagina usando un file robots.txt (che può essere ignorato)
  • Prova a filtrare i bot danneggiati per IP (che può cambiare ad ogni visita) o user-agent (potrebbe essere falsificato)

1

Un altro modo in cui la pagina può essere scoperta è quando si hanno collegamenti ad altri siti su quella pagina.

L'URL della tua pagina apparirà nei loro registri referrer, un bel passatempo di molti webmaster è quello di sfogliare brevemente quei registri e vedere cosa dicono gli altri delle loro pagine.

Alcuni siti sembrano fornire l'accesso a quei registri senza alcuna limitazione di accesso, quindi anche i crawler possono raggiungerli ...

Per mantenere la pagina davvero segreta, non lasciarla collegare a siti esterni.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.