Una società ha implicato il diritto di eseguire la scansione del mio sito Web?

30

Ho scoperto che McAfee SiteAdvisor ha segnalato il mio sito Web come "potrebbero avere problemi di sicurezza" .

Mi importa poco di ciò che McAfee pensa del mio sito Web (posso proteggerlo da solo e, in caso contrario, McAfee sicuramente non è la società che chiederei aiuto, grazie mille). Ciò che mi preoccupa, però, è che, apparentemente, hanno eseguito la scansione del mio sito Web senza la mia autorizzazione.

Per chiarire: sul mio sito web non c'è quasi ancora alcun contenuto, solo alcuni segnaposto e alcuni file per il mio uso personale. Non ci sono ToS.

Le mie domande sono: McAffee ha il diritto di scaricare contenuti / eseguire la scansione del mio sito Web? Posso vietare loro di farlo? Ho la sensazione che dovrebbe esserci una sorta di principio "Il mio castello, le mie regole", tuttavia non so praticamente nulla di tutto ciò che è legale.

Aggiornamento: probabilmente avrei dovuto menzionare il fatto che il mio server provider mi invia regolarmente e-mail sui risultati di SiteAdvisor - è così che ho scoperto la loro "valutazione" ed è per questo che sono infastidito.

web-crawler

— kralyk
fonte

78

Diresti che gli umani hanno il diritto di visualizzare il tuo sito Web? Se sì, perché discriminare i servitori di robot umani? In caso contrario, perché è innanzitutto un sito Web?

— jwodder,

47

Come hai scoperto che SiteAdvisor ha segnalato il tuo sito? Non hai visualizzato il loro sito vero? Se è così, cosa ti ha dato il diritto?

— Joe Sniderman,

17

Per inciso, non respingerei il rapporto SiteAdvisor in modo così leggero, in generale quando ho visto rapporti simili erano legittimi. Il caso più comune è avere una versione precedente / senza patch del popolare CMS (WordPress, Joomla, Drupal, ...) sfruttato da alcuni script automatici per posizionare contenuti dannosi (pagine "trampolino" usate per spam / phishing, hosting di virus collegati in email di truffa, exploit del browser, tu lo chiami); potresti ospitare cose brutte senza nemmeno saperlo. Inoltre, poiché molti utenti fanno affidamento su tali strumenti, in genere si desidera disporre di un record pulito, poiché tali avvisi possono spaventare gli utenti.

— Matteo Italia,

35

Se vuoi qualcosa bloccato, bloccalo. Metti su il sito web e configura il server per rispondere alle richieste GET. Hai invitato tutti - letteralmente, tutti. Questo non è un diritto "implicito", è come funzionano i server web. Escludendo, come indicato, robots.txt o restrizioni IP o contenuti limitati agli utenti che hanno effettuato l'accesso.

— mfinni,

20

@RolazaroAzeveires: I processi automatizzati vanno bene non perché consentire i visitatori umani lo implica, ma perché, a parte gli attacchi, chiedono bene: "posso avere questi file?" e hai configurato il tuo server web per rispondere: "Certo! Ecco qua. Ti serve qualcos'altro?" Non strisciare senza la tua autorizzazione, strisciare con la tua autorizzazione.

— Marcks Thomas,

49

C'è un precedente legale per questo. Field v. Google Inc., 412 F. Supp. 2d 1106, (US Dist. Ct. Nevada 2006). Google ha vinto un giudizio sommario basato su diversi fattori, in particolare che l'autore non ha utilizzato un file robots.txt nei metatag sul suo sito Web, il che avrebbe impedito a Google di eseguire la scansione e la memorizzazione nella cache delle pagine che il proprietario del sito Web non voleva indicizzare.

Decisione pdf

Non esiste una legge statunitense che si occupi specificamente dei file robots.txt; tuttavia un altro caso giudiziario ha stabilito alcuni precedenti che potrebbero eventualmente portare a considerare i file robots.txt come elusione di misure elettroniche intenzionali adottate per proteggere il contenuto. In HEALTHCARE ADVOCATES, INC Vs HARDING, EARLEY, FOLLMER & FRAILEY, et. al, Healthcare Advocates ha sostenuto che Harding et al hanno essenzialmente compromesso le funzionalità della Wayback Machine per ottenere l'accesso ai file memorizzati nella cache delle pagine che avevano versioni più recenti con i file robots.txt. Mentre Healthcare Advocates ha perso questo caso, il tribunale distrettuale ha osservato che il problema non era che Harding et al "sceglievano il lucchetto", ma che avevano ottenuto l'accesso ai file a causa di un problema di caricamento del server con la Wayback Machine che concedeva l'accesso al file memorizzati nella cache quando non dovrebbe

Decisione della corte pdf

È solo questione di tempo fino a quando qualcuno non prende questa sentenza e la ribalta: il tribunale ha indicato che robots.txt è un lucchetto per impedire la scansione e aggirarlo è scegliere il lucchetto.

Molte di queste azioni legali, sfortunatamente, non sono così semplici come "Ho cercato di dire al tuo crawler che non è permesso e che il tuo crawler ha ignorato quelle impostazioni / comandi." Ci sono una miriade di altri problemi in tutti questi casi che alla fine incidono sul risultato più di quel problema fondamentale relativo alla questione se un file robots.txt debba essere considerato un metodo di protezione elettronica ai sensi della legge DCMA degli Stati Uniti.

Detto questo, questa è una legge degli Stati Uniti e qualcuno dalla Cina può fare quello che vuole, non a causa del problema legale, ma perché la Cina non imporrà la protezione del marchio e della protezione del copyright negli Stati Uniti, quindi buona fortuna inseguirli.

Non è una risposta breve, ma in realtà non c'è una risposta breve e semplice alla tua domanda!

— jcanker
fonte

1

Questa è un'ottima risposta, grazie. La cosa che non mi piace di robots.txt è che non è uno standard reale (non importa lo standard richiesto dalla legge). Queste aziende possono semplicemente ignorarlo. Non mi piace essere nella posizione in cui mi dicono "Dovresti creare un file robots.txt e forse non eseguiremo la scansione del tuo sito Web, ma forse lo faremo, faremo ciò che ci piace". Sarebbe bello se ci fosse uno standard per specificare ToS del sito Web nei metadati del sito Web.

— kralyk,

5

@jcanker Questi due casi riguardano reclami per violazione del copyright. Nel comportamento dei crawler che memorizzano nella cache contenuti, come quelli gestiti da Google e archive.org, ha perfettamente senso che entrino in gioco problemi di copyright. Ma McAfee SiteAdvisor in realtà non sta copiando e archiviando (tanto meno rendendo accessibili al pubblico) i contenuti dei siti Web a cui accede, vero? Sebbene non sia un avvocato, penso che questa distinzione ci dia motivo di dubitare fortemente che entrambi i casi siano in qualche modo applicabili al comportamento di un sistema come SiteAdvisor, indipendentemente dal fatto che rispetti o meno robots.txt.

— Eliah Kagan,

12

@kralyk - re "Queste aziende possono semplicemente ignorarlo". Beh si. È così che funziona Internet. E anche se fosse in qualche modo più fondamentale, sarebbe banale, assolutamente banale, per un crawler far finta che un essere umano acceda alle tue pagine web. Stai chiedendo il tecnicamente impossibile . In effetti, se pensi a ciò che stai chiedendo, ciò che cerchi non è logico, non ha significato. Tranne in una distinzione legale. Le tue uniche protezioni possibili sono (1) nascondere contenuti importanti dietro l'autenticazione dell'accesso utente e (2) protezione legale, come discusso in questa risposta.

— ToolmakerSteve

@ToolmakerSteve So che è tecnicamente impossibile vietare completamente i robot. Questa è una situazione diversa però: non sto cercando una soluzione tecnica, sto chiedendo se è legale, nota anche che McAffee mi ha informato che eseguono la scansione del mio sito Web, non ho bisogno di rilevarlo.

— kralyk,

C'è anche un precedente legale nell'altro modo: ebay v's bidder's edge

— John

91

Sì, hanno il diritto di farlo: hai creato un sito Web pubblico, cosa ti fa pensare di no?

Anche tu, ovviamente, hai il diritto di fermarli. Puoi chiedere loro di non eseguire la scansione del tuo sito Web con robots.txt o impedire loro di accedervi con qualcosa come fail2ban .

In alternativa, non preoccuparti e continua con la tua vita. Non fa male a nulla ed è sicuramente sul lato positivo del sondaggio su Internet.

— Dan
fonte

4

> "Sì, hanno il diritto di farlo - hai creato un sito Web pubblico, cosa ti fa pensare che non lo facciano?" Bene, se qualcosa è tecnicamente possibile non significa necessariamente che sia legale. Ad esempio, ToS di YouTube proibisce il download di video, quindi, nonostante sia tecnicamente molto semplice, non è ancora consentito. Non mi preoccuperei di SiteAdvisor se non fosse per il mio provider che mi invia e-mail sul mio sito "forse avendo problemi" ...

— kralyk

16

@kralyk - se non vuoi che il pubblico (incluso McAfee) lo guardi, non metterlo sul Web. È così semplice. CONTROLLA IL TUO SITO. Nessuno ti sta costringendo a metterlo là fuori, e se non vuoi che la gente lo guardi, allora NON farlo. Se hai intenzione di pubblicarlo, non essere sorpreso dal fatto che le persone (comprese le persone che vogliono venderti roba) lo guardino. Smetti di provare a trasformare i tuoi desideri nel problema di qualcun altro.

— Michael Kohne,

9

@kralyk: sul serio? Pensi davvero che il problema qui sia un doppio standard? Nessuno in McAfee non conosce né si preoccupa del tuo sito web. Né dovrebbero. Sarebbe assurdo aspettarsi che chiunque esegua la scansione del Web legga il ToS di tutti. Ecco perché è stato inventato robot.txt.

— ToolmakerSteve

3

@kralyk L'accesso alle risorse in questione deve essere controllato affinché ToS sia quasi significativo. Un robot che esegue la scansione delle pagine non protette è completamente diverso da qualcuno che registra un account, riconosce un ToS e quindi fornisce le credenziali a un robot.

— Andrew B,

4

@kralyk - Che tipo di TOS hai sul tuo sito che ritieni stia violando (non rispettando) McAfee?

— Kevin Fegan,

11

Se questo comportamento sia etico o no non è perfettamente chiaro.

L'atto di scansione di un sito pubblico non è, di per sé, non etico (a meno che tu non l'abbia proibito esplicitamente utilizzando un robots.txt o altre misure tecnologiche e li stiano aggirando).

Quello che stanno facendo è l'equivalente approssimativo della chiamata fredda, mentre annuncia al mondo che probabilmente non sei sicuro. Se ciò danneggia la tua reputazione ed è ingiustificato, non è etico; se lo fa e l'unica soluzione per questo implica che tu li paghi, è il racket. Ma non penso che sia quello che sta succedendo.

L'altra volta che questo diventa non etico è quando qualcuno esegue la scansione del tuo sito per appropriarsi dei tuoi contenuti o dati e quindi lo rappresenta come loro. Ma anche questo non è quello che sta succedendo.

Quindi, suggerisco che il loro comportamento in questo caso sia etico, e molto probabilmente puoi anche ignorarlo.

Il loro comportamento correlato allo spamming non è etico se non hai alcuna relazione con loro e non hai richiesto le e-mail, ma sospetto che abbiano un annullamento dell'iscrizione funzionante.

— Falcon Momot
fonte

1

Non sono sicuro che definirei una Disallowdirettiva in un file robots.txt una "misura tecnologica proibitiva". robots.txt funge da richiesta di cortesia e, sebbene i robot ben educati lo rispettino, non vi è alcun obbligo e nessuna vera sicurezza. In effetti, i robot mal educati potrebbero prendere una voce in robots.txt come un invito a gattonare quel percorso specifico ...

— un CVn

2

@ MichaelKjörling, solo la metà è d'accordo. Non esiste una vera sicurezza ma esiste un obbligo. È un segnale da tenere fuori e il tuo obbligo è quello di stare fuori dal momento che non hai il permesso di entrare.

— Ben

È un segno "tenere fuori", senza un lucchetto. Provalo a casa tua e vedi quanta simpatia ottieni dopo che i ladri vengono a chiamare! (In realtà, è un cartello "tieni fuori" che elenca esplicitamente le porte e le finestre sbloccate dalle quali vuoi che le persone restino fuori.)

— Randy Orrison,

2

Approccio tecnico per impedire a determinate persone o aziende di accedere al tuo sito Web:

Puoi bloccare indirizzi IP specifici o intervalli di indirizzi dall'accesso alle pagine del tuo sito. Questo è nel file .htaccess (se il tuo sito è in esecuzione su Apache Web Server).

http://www.htaccess-guide.com/deny-visitors-by-ip-address/

Chiedi al tuo server web di registrare gli indirizzi IP da cui hai accesso e cerca quegli indirizzi IP, per trovare quelli associati a McAfee. Probabilmente è facile dirlo ora, se non hai visitatori abituali.

Naturalmente, potrebbero cambiare gli indirizzi IP in futuro. Tuttavia, se cerchi gli indirizzi IP che trovi, per vedere chi li possiede, potresti essere in grado di conoscere un intero blocco di indirizzi di proprietà di McAfee e bloccarli tutti.

Per una base legale per farlo:

"I proprietari di siti Web possono bloccare legalmente alcuni utenti, regole del tribunale"

http://www.computerworld.com/s/article/9241730/Website_owners_can_legally_block_some_users_court_rules

(Se il tuo sito web è personale, nessuno contesterebbe il tuo diritto di bloccare alcuni utenti. Ma se si tratta di un sito Web per un'azienda, ci sono argomenti legali e morali su entrambi i lati della discussione. Più piccola è la tua attività, più facile deve essere legalmente protetto - e meno chiunque altro si preoccuperebbe abbastanza di lamentarsi comunque.)

Potresti anche essere interessato a "Rifiuta visitatori per referrer".

"Se hai mai guardato i tuoi registri e hai notato un sorprendente aumento del traffico, ma nessun aumento delle richieste di file effettive è probabilmente qualcuno che intrappola il contenuto (come i file CSS) o qualcuno che tenta di hackerare il tuo sito web (questo può semplicemente significare provare per trovare contenuti non pubblici). "

http://www.htaccess-guide.com/deny-visitors-by-referrer/

— ToolmakerSteve
fonte