Come funziona "Noindex:" in robots.txt?

Ho incontrato questo articolo nelle mie notizie SEO oggi. Sembra implicare che è possibile utilizzare le Noindex:direttive oltre alle Disallow:direttive standard in robots.txt .

Disallow: /page-one.html
Noindex: /page-two.html

Sembra che impedirebbe ai motori di ricerca di eseguire la scansione della pagina uno e impedire loro di indicizzare la pagina due.

Questa direttiva robots.txt è supportata da Google e da altri motori di ricerca? Funziona? È documentato?

— Stephen Ostermiller
fonte

Non so ... ma questo potrebbe essere molto utile per alcuni. Inoltre, vorrei vedere la Sitemap ampliata per essere più comunicativa. Tra robot e sitemap, questa dovrebbe essere un'occasione d'oro per comunicare ai motori di ricerca e ad altri di un sito. Sono anche a favore di un'opportunità testuale per informare i motori di ricerca sul sito in modo diverso dall'essere disponibile nella ricerca come la pagina di informazioni come se avessi la possibilità di parlare direttamente con un revisore del sito di Google. Potrebbe salvare alcuni dolori di cuore e incomprensioni. Un'occasione per dire Ooopppsss, ho preso in giro ... Mi dispiace.

— closetnoc,

Ho l'impressione che disallowimpedisce a Google di scoprire collegamenti nelle pagine padre e figlio, se presenti. Mentre noindexinterrompe semplicemente la pagina elencata, non interrompe il rilevamento mentre non lo consente.

— Simon Hayter

@SimonHayter So che nofollowfunziona così per i meta tag. Sarebbe bello sapere se questo è anche il caso di robots.txt .

— Stephen Ostermiller

Hey @StephenOstermiller non è solo meta-tag, ma è lo stesso <a rel="no-follow">anche per . Non vedo alcun motivo per cui sarebbe trattato in modo diverso. Ovviamente questo non è ufficiale ed è anche consigliato da John Muller di non usarlo nel robots.txt ma a parte il suo tweet non sono riuscito a trovare molte informazioni al riguardo.

— Simon Hayter

Vale la pena notare che Google non contrassegna più la Noindexdirettiva all'interno dei robots.txtfile come errore.

— Aran,

Google era solita supportare ufficialmente una Noindexdirettiva in robots.txt, tuttavia nel 2019 ha annunciato che la direttiva non funzionerà più.

Ecco cosa dice John Mueller diNoindex: Google in robots.txt :

Abbiamo usato per supportare la direttiva no-index in robots.txt come funzionalità sperimentale. Ma è qualcosa su cui non farei affidamento. E non credo che altri motori di ricerca lo stiano affatto usando.

Prima che Google annunciasse l'interruzione della funzione, deepcrawl.com ha effettuato alcuni test della funzione e ha scoperto che:

Prima del 2019, funzionava ancora con Google
Ha impedito la visualizzazione degli URL nell'indice di ricerca
Gli URL che non sono stati indicizzati in robots.txt sono stati contrassegnati come tali in Google Search Console

Dato che Google ha interrotto la funzione, non dovrebbe più essere utilizzata.

Utilizzare invece i meta tag robot che sono ben supportati e documentati per impedire l'indicizzazione:

<meta name="robots" content="noindex" />

— Stephen Ostermiller
fonte