C'è un modo per rilevare i pregiudizi dei motori di ricerca?

I motori di ricerca vengono sempre più spesso considerati come gatekeeper delle informazioni, ma i criteri utilizzati dai motori di ricerca per classificare i risultati sono opachi per gli utenti. In che modo gli utenti possono essere sicuri che i loro risultati non siano distorti o manomessi in qualche modo a beneficio di alcuni interessi a scapito della qualità dei risultati di ricerca?

I governi richiedono abitualmente che i provider di ricerca rimuovano o riducano la classifica dei siti Web ritenuti politicamente indesiderabili. Le aziende possono pagare i fornitori per aumentare determinati risultati rispetto ad altri per aumentare i loro ricavi. I firewall possono interferire con i risultati prima che vengano ritrasmessi agli utenti.

Anche le modifiche apparentemente innocue agli algoritmi di classificazione che potrebbero non apparire in superficie sembrano essere di parte, potrebbero in realtà essere progettate subdolamente per danneggiare i siti Web che condividono alcuni attributi comuni (non correlati alla qualità effettiva).

È possibile rilevare la distorsione dei motori di ricerca, ad esempio monitorando i risultati per un periodo di tempo e valutando se una "variabile nascosta" (forse un'affiliazione politica) è un fattore trainante nel cambiamento delle classifiche dei siti Web?

Un subdolo fornitore può gradualmente abbassare nel tempo la classifica dei siti Web mirati (e forse anche dei siti Web casuali per distrarre gli utenti). Quali sono i limiti di quanta distorsione può introdurre un provider senza essere rilevato? Oppure è possibile nascondere sempre tale interferenza selezionando subdolamente criteri di classificazione ponderati che incidentalmente producono il risultato desiderato (mediante "snooping dei dati").

Qualcosa di questo cambia se i criteri di classificazione vengono resi pubblici? Dobbiamo open-source i criteri utilizzati dai motori di ricerca?

Questo mi ricorda il risultato che rilevare se uno strumento finanziario complesso come un CDO è stato manomesso o meno dal venditore equivale a risolvere il problema del sottografo più denso:

http://www.cs.princeton.edu/~rongge/derivative.pdf

Grazie!

ds.algorithms data-mining

— mano.
fonte

questa è una bella domanda, ma la rivederei assicurandomi di porre solo una domanda relativa a cstheory. Il più ovvio è fare di questo una richiesta di riferimento e chiedere "qualcuno l'ha già visto?". Se sei sicuro che nessuno l'abbia fatto, allora qualcosa del tipo "come può essere modellato formalmente?" potrebbe essere una buona domanda. Se tieni troppe domande in giro, con alcune di esse potenzialmente non correlate a cstheory, allora potrebbe essere chiusa come "non una vera domanda".

— Artem Kaznatcheev

Nota che rendere pubblico uno schema di classificazione lo apre all'attacco degli spammer. Una variante interessante sarebbe: "esiste un equivalente" a chiave pubblica "per le classifiche"

— Suresh Venkat,

@SureshVenkat "rendere pubblico uno schema di classificazione lo apre agli attacchi" sembra che tu stia suggerendo la <s> sicurezza </s> imparzialità attraverso l'oscurità;).

— Artem Kaznatcheev

no, ma è per questo che ho chiesto informazioni sulle versioni a chiave pubblica degli schemi di classificazione.

— Suresh Venkat,

Dal momento che nessuna delle parti partecipanti al processo di ricerca dovrebbe essere un utente malintenzionato, una soluzione normale è quella di modellare il processo come un gioco con utenti egoisti. Se modellato correttamente, possiamo scoprire se è utile che i motori di ricerca facciano o meno una cosa del genere. Quindi possiamo progettare un meccanismo per prevenire tale manomissione.

— Elio

Questa è ovviamente una domanda molto aperta, ma per rimanere in tema, ecco un approccio di teoria CS all'idea di "equità" e come applicarla.

Dwork "Equità attraverso la consapevolezza", Hardt, Pitassi, Reingold, Zemel http://arxiv.org/abs/1104.3913

— Aaron Roth
fonte