Possiamo usare regex nel file robots.txt per bloccare gli URL?


23

Ho alcuni URL generati dinamici.

Posso usare regex per bloccare questi URL in un file robots.txt?


Vale anche la pena impostare i meta tag robot sulle pagine che non si desidera sottoporre a scansione / indicizzazione.
Andrew Lott,

@AndrewLott Nel mio caso ho più di 500 pagine, quindi ho pensato di usare regex in robots.txt ..
Sudheera Njs

Quindi una regola nel codice del tuo sito è probabilmente più utile.
Andrew Lott,

Risposte:


27

Le espressioni regolari non sono valide in robots.txt, ma Google, Bing e alcuni altri bot riconoscono una corrispondenza del modello.

Dire se si desidera bloccare tutti gli URL che hanno un punto examplequalsiasi nell'URL, è possibile utilizzare una voce jolly *

User-agent: *
Disallow: /*example

Puoi anche utilizzare il simbolo del dollaro $ per specificare che gli URL devono terminare in questo modo. Quindi se vuoi bloccare tutti gli URL che finiscono con example, ma non gli URL che avevano un examplealtro posto nell'URL, puoi usare:

User-agent: *
Disallow: /*example$

Più approfondite informazioni per Google può essere trovato qui: robots.txt Specifiche , Bing qui: Come creare un file robots.txt e non v'è una guida interattiva su Moz qui


Perfetto, * funziona bene, testato nello strumento web master .. Grazie Max ... :)
Sudheera Njs,

Avvertirei di usare direttive troppo fantasiose nel tuo file robots.txt; questi sono davvero molto difficili da debug in seguito. Cerca di mantenere le cose il più semplice possibile. Ricorda inoltre che robots.txt fa distinzione tra maiuscole e minuscole, quindi potrebbe essere necessario aggiungere versioni alternative delle direttive a seconda del tuo sito.
John Mueller,

sarebbe bello se regex fosse supportato
SuperUberDuper
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.