Interpretazione di User-agent vuoto

12

Come devo interpretare un User-agent vuoto? Ho un codice di analisi personalizzato e quel codice deve analizzare solo il traffico umano. Ho una lista di agenti utente che indica il traffico umano e il traffico bot, ma l'agente utente vuoto si sta rivelando problematico. E sto ricevendo molto traffico con l'User-agent vuoto, circa il 10%.

Inoltre, ho creato la lista degli agenti utente del traffico umano rispetto al traffico bot analizzando i miei registri attuali. In quanto tale, mi potrebbero mancare molte voci. Esiste un elenco ben gestito di agenti utente che indicano traffico bot o, al contrario, un elenco di agenti utente che indica traffico umano?

— Amit Agrawal
fonte

1

L'elenco dei possibili user-agent è incredibilmente lungo. Ad esempio, guarda l'elenco degli user-agent solo per dispositivi mobili qui: zytrax.com/tech/web/mobile_ids.html

— Max Vernon,

L'agente utente vuoto è piuttosto raro: quale software server stai usando? Come stai ottenendo l'agente utente? Sei sicuro che sia davvero vuoto o c'è qualche bug nel tuo sistema di raccolta che sta creando agenti utente vuoti?

— Max Vernon,

@Max - Sono rimasto sorpreso dall'agente utente vuoto. Sto usando lo stack LAMP. Raccolgo l'agente utente tramite PHP come $ _SERVER ['HTTP_USER_AGENT']. Il codice è semplice; sebbene non riesca a scartare del tutto la possibilità che l'agente utente sia presente ma il mio codice non riesce a raccoglierlo o al database che rifiuta di memorizzarlo, dubito che sia così.

1

Se hai accesso ai log di accesso di Apache: Anche gli user agent registrati sono vuoti?

forse hai un raschietto per accedere al tuo sito? Potrebbe essere un modo in cui i visitatori sembrano non avere USER_AGENT

— Max Vernon,

5

Se si desidera analizzare solo il "traffico umano", non conterei quelli con una stringa agente utente vuota o mancante. Nella mia esperienza, quasi tutti i browser ne invieranno sempre uno. Anche la maggior parte dei plug-in o delle estensioni per la privacy fingono piuttosto (includono altri nomi di sistemi operativi o client) o "normalizzano" (ad es. Nessun numero di rilascio) o randomizzano (ad esempio a volte FF, a volte stringhe IE) le stringhe UA, ma non rimuoverle completamente (in quanto ciò potrebbe causare problemi con alcuni siti che si basano su di esso, anche se non è una buona idea.)

Una semplice richiesta senza UA può essere fatta in questo modo:

wget --user-agent="" www.example.com

Come vedi puoi aggiungere tutto quello che vuoi. I siti che archiviano e pubblicano gli UA trovati "allo stato brado" non sono di grande utilità in quanto trovano molta merda.

Forse qualcuno ha recuperato i tuoi contenuti in modo ricorsivo. O utilizzato uno strumento SEO per analizzare il tuo sito (alcuni consentono agli utenti di modificare manualmente l'intestazione, altri con l'intenzione di ignorare una riga robots.txt). Cose del genere. In quelle situazioni, l'intestazione UA viene spesso falsata per nascondere il client e lo scopo.

Se queste richieste restano costantemente circoscritte, potrebbe essere utile analizzare ulteriormente le intestazioni (proxy?) O gli IP (un certo blocco? Società interessata della privacy / proxy?)

— initall
fonte

2

Lavoro per una compagnia di sicurezza e, tra le altre cose, monitoriamo il traffico di Bad Bot.

Sulla base della mia esperienza, le visite umane con dati vuoti di user-agent indicano tentativi di scraping / spamming (di solito scraping) effettuati da robot "senza testa".

Questi visitatori a volte possono eseguire JS, e quindi appariranno in GA - tuttavia, questa dose non li rende umani :)

Chiedere scusa per la "spina", ma per favore sappiate che, se necessario, offriamo servizi di protezione Bad Bot gratuiti, abbinati all'accelerazione della CDN e altri gadget.

In questo caso specifico il nostro sistema riconoscerebbe questa visita come "sospetta", verificandola contro vettori di attacco noti e - se ancora incerta - eseguirà ulteriori test e sfide. Queste sfide vengono eseguite senza problemi, senza causare alcun ritardo alla sessione.

— Igal Zeifman
fonte

0

Ogni bit di software che accede a Internet non viene magicamente assegnato a un agente utente. Gli sviluppatori di software devono programmare tale funzionalità nel proprio software. Il tuo agente utente vuoto significa solo che uno sviluppatore di software ha dimenticato di aggiungere un agente utente al loro software.

O che un utente del browser ha rimosso / bloccato la stringa UA.

— unor

5

Questo è sbagliato. Dire "significa solo" implica che di solito o almeno il motivo. Poche persone usano il software http che lo sviluppatore avrebbe ignorato gli Emirati Arabi per pigrizia. Semmai indica quasi sempre che la fonte di traffico non ha voluto essere identificata ed è profondamente associata al traffico dannoso o di sfruttamento. Sfortunatamente alcune grandi aziende (Facebook) hanno usato stringhe vuote di user agent in passato, quindi non è necessariamente saggio bloccarle del tutto.

— jerclarke,

1

@jeremyclarke +1 Questo tipo di comportamento non dovrebbe mai essere trascurato! E vergogna su Facebook! Se un bot o browser legittimo deve guardare un sito, deve sempre avere un identificatore. Dopotutto, stanno entrando nella proprietà di qualcun altro. Non avere alcun user-agent è come un ladro che si intrufola con una maschera per oscurare la loro identità.

— Barbabianca

2

È come se qualcuno con la faccia coperta camminasse avanti e indietro attraverso il marciapiede di fronte a casa tua. Non necessariamente illegale, ma se non rispondi alla porta non dovrebbero presumere che tu sia un pazzo paranoico.

— jerclarke,

0

Sto vedendo alcuni commenti nelle risposte a questa domanda, confrontando l'Utente-Agente per nascondere la tua identità o essere umano. Questo è un confronto assurdo. L'utente-agente non ha nulla a che fare con l'identità o l'essere umano.

Pensala come una calzatura. Stai chiedendo ai tuoi visitatori che tipo di calzature indossano prima di lasciarli entrare. Gli usi più comuni di questo sono sapere quale tipo di tappeto devi stendere, il bel tappeto rosso per scarpe pulite, il brutto zerbino per il fango stivali e nessun tappeto per i visitatori che sono tappeti allergici.

Quando i visitatori non vogliono dire quali calzature hanno (ovvero vuoti User-Agent), le ignori.

Sì, ci sono molte buone pratiche che provano ad assumere elementi sulla richiesta Web in base all'Utente-Agente e ad altre informazioni sull'intestazione della richiesta. Potrebbero funzionare benissimo il 99% delle volte, ma come con molte altre pratiche simili sono inclini a falsi positivi e danneggiano quindi i normali utenti ignoranti.

Avendo incontrato il problema dell'utilizzo accidentale di un User-Agent vuoto, posso sicuramente dire che non è divertente quando un servizio web ti tratta in modo diverso solo perché non hai pensato di raccontarlo sulle tue calzature.

— Deantwo
fonte