Quale agente utente devo impostare?

C'è il bot Ask, che imposta questa intestazione:

Mozilla/2.0 (compatible; Ask Jeeves/Teoma)

Considerando questo, ho le seguenti domande:

Se sto scrivendo un web crawler chiamato Pippo, quale user agent dovrei usare?
Qual è la differenza se inserisco Mozilla/2.0o Mozilla/5.0?

Qualsiasi altro suggerimento su come devo formattare il mio user agent per conformarmi agli standard attuali è più che benvenuto.

user-agent web-crawlers

— Nicu Surdu
fonte

Sono il principale progettista e autore di un crawler web su larga scala (vedi metadatalabs.com/mlbot (link archiviato) ). Quello che stai chiedendo tocca un argomento che è molto importante per noi - forse la parte più importante della gestione di un cingolato: quella della gentilezza.

Primo: il motivo della cosa "Mozilla" è dire al sito quali sono le funzionalità del tuo browser. Se il tuo bot non sta cercando di agire come un browser, non c'è motivo particolare per cui devi includere la cosa "Mozilla".

Per quanto riguarda la stringa dell'agente utente e altri elementi relativi alla cortesia:

Seleziona un nome che sai che nessun altro sta usando. Sospetto che se usi "Goofybot", starai bene. Ma lo verificherei per esserne sicuro.
La stringa dell'agente utente deve includere un collegamento a ulteriori informazioni sul bot. Ad esempio, la nostra stringa riporta "MLBot (www.metadatalabs.com/mlbot)".
Assicurati che se qualcuno cerca "Goofybot", quella pagina è alta (preferibilmente prima) nei risultati della ricerca.
La tua pagina sul bot dovrebbe indicare per cosa stai utilizzando le informazioni, per quali indirizzi IP esegui la scansione e includere un modo in cui le persone possono contattarti per problemi con il bot.
Dovresti rispondere rapidamente a qualsiasi domanda o reclamo, usando la filosofia "il cliente ha sempre ragione". Ricorda, se il tuo bot ha causato un problema di cui questa persona si sta lamentando, probabilmente ha causato problemi su una dozzina di altri siti di cui nessuno si è lamentato. O non hanno visto i problemi o hanno semplicemente messo un blocco sul tuo indirizzo IP.
Dovresti costruire nella struttura per impedire al tuo bot di accedere a un determinato nome di dominio. Alcune persone non vogliono affatto che tu esegua la scansione e che non abbiano accesso o capacità tecnica per creare un file robots.txt o bloccare .htaccess. Abbiamo scoperto che questa capacità ci consente di dire a qualcuno: "Siamo spiacenti che MLBot abbia causato un problema. Abbiamo incaricato di non eseguire più la scansione del tuo sito". Forse non a caso, questo calma le persone molto rapidamente.
Se non rispetti già robots.txt, fallo. Niente ti farà diventare una cattiva reputazione più veloce di ignorare robots.txt.

Wow. È andato avanti più a lungo di quanto mi aspettassi. Negli ultimi quattro anni, ho commesso tutti quegli errori a cui alludo sopra, e altri ancora. Abbiamo scoperto, tuttavia, che se siamo aperti su ciò che stiamo facendo e comunichiamo onestamente (inclusa la pubblicazione di informazioni sugli errori prima di ricevere reclami), la maggior parte dei webmaster ci considera un buon cittadino di Internet.

— Jim Mischel
fonte

Quel link di esempio sopra ( metadatalabs.com/mlbot ) Mostra solo ("In costruzione") ....

— starbeamrainbowlabs

@starbeamrainbowlabs Quella risposta è stata scritta nel 2010. Metadata Labs ha chiuso nel 2012.

— Jim Mischel,

Esiste comunque un'alternativa?

— starbeamrainbowlabs

@starbeamrainbowlabs alternativa a cosa?

— Jim Mischel,

A qualsiasi cosa fosse collegata alla pagina dei laboratori dei metadati visualizzata. Dato che non riesco a vederlo, non posso suggerire un'alternativa: P

— starbeamrainbowlabs

Mozilla / 2.0 e Mozilla / 5.0 sono entrambi riferimenti al browser Mozilla. È diventato in gran parte privo di significato, con molti crawler che lo utilizzano, ma dovrebbe dire al sito di trattare il tuo crawler come farebbe qualsiasi utente casuale che naviga con un normale browser.

È comunque buona norma includere un URL che rimanda a una pagina su chi sei e perché stai eseguendo la scansione nella sezione seguente. Chiedi a Jeeves di ottenere solo il nome, ma dovresti includere un URL.

Per esempio

Mozilla/5.0 (compatible; http://example.org/)

Ciò consentirà agli amministratori Web di capire perché stai eseguendo la scansione del loro sito e anche di contattarti in caso di problemi con il comportamento del tuo crawler.

— Kris
fonte