Webmasters robots.txt

5

Posso invocare Google per controllare il mio robots.txt?

Ho letto le risposte a questa domanda, ma lasciano ancora aperta la mia domanda: Google cache robots.txt? Non ho trovato alcun modo negli Strumenti per i Webmaster di Google per invocare un nuovo download del mio robots.txt . Attraverso qualche errore, il mio robots.txt è stato sostituito con: User-agent: * …

11 google google-search-console robots.txt

3

Google Preview obbedisce a Robots.txt?

Perché sembra proprio così. Per i miei siti non consentiamo la directory delle immagini e le anteprime sono tutte immagini mancanti che rendono il sito instabile. È questo il caso e c'è un modo per consentire solo al bot di anteprima di accedere alle immagini usando robots.txt? EDIT: sembra che …

11 google robots.txt

3

Un indice Sitemap può contenere altri indici Sitemap?

Ho un sito web bilingue con un indice Sitemap per ogni lingua che collega a diverse Sitemap diverse (una per i video, una per i contenuti statici e una per gli articoli). Vorrei introdurre un'altra Sitemap che collega gli indici Sitemap, in modo da poter collegare quella Sitemap nel root …

11 google sitemap robots.txt

1

Come funziona "Noindex:" in robots.txt?

Ho incontrato questo articolo nelle mie notizie SEO oggi. Sembra implicare che è possibile utilizzare le Noindex:direttive oltre alle Disallow:direttive standard in robots.txt . Disallow: /page-one.html Noindex: /page-two.html Sembra che impedirebbe ai motori di ricerca di eseguire la scansione della pagina uno e impedire loro di indicizzare la pagina due. …

10 web-crawlers robots.txt googlebot noindex

2

Consenti solo ai bot di Google e Bing di eseguire la scansione di un sito

Sto usando il seguente file robots.txt per un sito: L'obiettivo è consentire a googlebot e bingbot di accedere al sito tranne la pagina /bedven/bedrijf/*e impedire a tutti gli altri bot di eseguire la scansione del sito. User-agent: googlebot Disallow: /bedven/bedrijf/* Crawl-delay: 10 User-agent: google Disallow: /bedven/bedrijf/* Crawl-delay: 10 User-agent: bingbot …

10 web-crawlers robots.txt

1

Combina user-agent in robots.txt

Gli user-agent possono essere elencati insieme, seguiti dalle loro regole comuni come in un robots.txt ? User-agent: Googlebot User-agent: ia_archiver #Alexa User-agent: BingPreview #Microsoft User-agent: bingbot #Microsoft User-agent: MSNBot #Microsoft User-agent: Slurp #Yahoo User-agent: Ask Jeeves/Teoma #Ask Disallow: /adm30_buds/

10 web-crawlers robots.txt user-agent

3

Come posso usare robots.txt per impedire solo il sottodominio?

La mia base di codice è condiviso tra diversi ambienti (dal vivo, messa in scena, dev) e sottodomini ( staging.example, dev.example, ecc) e solo due dovrebbero essere autorizzati a essere sottoposti a scansione (es. www.exampleE example). Normalmente vorrei modificare /robots.txte aggiungere Disallow: /, ma a causa della base di codice …

10 domains subdomain robots.txt multi-subdomains

6

Come abilitare (dis) correttamente il bot archive.org? Le cose sono cambiate, se è così quando?

Ho un sito Web che per lo più non voglio essere indicizzato dai motori di ricerca, ma voglio preservarlo per l'eternità su archive.org. Quindi il mio robots.txtinizia con questo: User-agent: * Disallow: / Oggi, secondo archive.org, devo aggiungere quanto segue nel mio robots.txtper consentire i loro robot: User-agent: ia_archiver Disallow: …

10 web-crawlers robots.txt internet-archive

10

Devo impedire ai robot di uccidere il mio server web

Sto riscontrando problemi di bot EXTREME su alcuni dei miei siti Web nel mio account di hosting. I bot utilizzano oltre il 98% delle risorse della mia CPU e il 99% della mia larghezza di banda per l'intero account di hosting. Questi bot generano oltre 1 GB di traffico all'ora …

9 php htaccess robots.txt

1

Devo bloccare le pagine di archivio di Wordpress dai motori di ricerca?

Uso WordPress e /sample-post/URL per i miei post e /yyyy/mm/per gli archivi. Google ha indicizzato completamente il sito. Dal momento che gli archivi attualmente visualizzano post completi, ho pensato che non avrei dovuto lasciare che Google indicizzasse le pagine di archivio perché contengono tutti i post e che saranno contenuti …

9 seo wordpress robots.txt duplicate-content google-index

4

I robot negati dal dominio sono ancora elencati nei risultati di ricerca

Pertanto, su tutti i nostri siti che non sono sottoposti a ricerca, abbiamo applicato un file robots.txt (per Come escludere un sito Web dai risultati di ricerca di Google in tempo reale? O qualsiasi altra domanda simile). Tuttavia, se i termini di ricerca sono abbastanza specifici, il dominio stesso può …

9 seo robots.txt

3

Quando sposti un sito tramite un reindirizzamento 301, dovresti configurare un robots.txt che impedisce ai robot di eseguire la scansione del vecchio indirizzo?

Un sito su cui sto lavorando ha spostato un sottodominio in un altro sottodominio tramite un reindirizzamento 301. Tuttavia, quando si controlla robots.txt del vecchio sottodominio, ha un robots.txt che non consente ai crawler web dei motori di ricerca di eseguirne la scansione. È questa la mossa giusta? Credo di …

8 seo redirects robots.txt

5

Dovremmo modificare il nostro Joomla robots.txt dopo l'annuncio di Google sulla scansione di CSS e JavaScript?

Ho trovato un annuncio da Google: http://googlewebmastercentral.blogspot.in/2014/10/updating-our-technical-webmaster.html Afferma: Per il rendering e l'indicizzazione ottimali, la nostra nuova linea guida specifica che è necessario consentire a Googlebot l'accesso ai file JavaScript, CSS e di immagine utilizzati dalle pagine. Ciò ti fornisce il rendering e l'indicizzazione ottimali per il tuo sito. Non …

8 seo google-search-console robots.txt joomla

4

Robots.txt vs Sitemap - Chi vince in un conflitto

Se blocco la directory / foo in robots.txt, ma la mia Sitemap XML contiene URL con / Foo, gli URL nella Sitemap verranno rilevati da Google e da altri motori di ricerca? In altre parole, la sitemap ha la meglio su robots.txt? Penso di sì, ma non ne sono sicuro.

8 robots.txt xml-sitemap

2

Qual è il modo corretto di gestire Consenti e Non consentire in robots.txt?

Corro un crawler Web su larga scala. Facciamo del nostro meglio per far funzionare il crawler secondo gli standard della community accettati e questo include il rispetto di robots.txt. Riceviamo pochissime lamentele sul crawler, ma quando lo facciamo la maggior parte riguarda la nostra gestione di robots.txt. Molto spesso il …

8 robots.txt

Domande taggate «robots.txt»