Va bene. Questo sarà uno di quei casi in cui lavorerò attraverso il processo in modo che diventi più chiaro. Sarà un po 'lungo, ma si spera non dolorosamente lungo.
Cominciamo dall'inizio?
A partire da ciò che sappiamo su come funziona Google basato originariamente sull'articolo di ricerca di Brin e Page nel 1997, sappiamo alcune cose che molto probabilmente sono ancora in gioco oggi.
Google ha un URL nel suo indice e recupera la coda e recupera la pagina. Il codice per la pagina è memorizzato nel suo database per varie forme di elaborazione. Uno dei processi sarebbe quello di trovare nuovi collegamenti. Qualsiasi collegamento che è stato trovato da Google verrà prima individuato nell'indice dei collegamenti, se esiste. In caso contrario, il collegamento verrà aggiunto alla tabella dei collegamenti e aggiunto alla coda di recupero.
Qualsiasi collegamento all'interno della tabella dei collegamenti contiene almeno questi elementi, l'URL del collegamento, l'URL di origine e il testo del collegamento. È probabile che vi siano altri elementi di dati, tuttavia, questi non avanzano nella discussione. Ogni collegamento aggiunto alla tabella dei collegamenti ha verificato l'URL di origine, ma non necessariamente l'URL di destinazione. Utilizzando come esempio i database relazionali, gli URL di origine e di destinazione potrebbero essere un ID URL all'interno della tabella URL e una tabella di join si unirebbe all'URL di origine della tabella di collegamento e agli elementi URL di destinazione utilizzando un ID di nuovo alla tabella URL. Confuso? Non essere.
Per ogni caso in cui la pagina di destinazione non è stata recuperata, si dice che il collegamento all'interno della tabella dei collegamenti è un collegamento pendente. Una volta recuperata la pagina, il collegamento all'interno della tabella dei collegamenti è completo. Se la pagina di destinazione non esiste, il collegamento all'interno della tabella dei collegamenti è interrotto. Semplice?
Solo i collegamenti completi possono passare valore. L'algoritmo PageRank richiede un collegamento completo per calcolare il valore. Tutti i collegamenti sospesi e interrotti interrompono i calcoli utilizzando il collegamento. In precedenza, PR era un processo ricorsivo che calcolava ripetutamente i valori dei collegamenti utilizzando la tabella dei collegamenti fino a quando il valore che può essere adattato a qualsiasi collegamento rientra in un valore numerico così piccolo che effettivamente non farà alcuna differenza. Sono sicuro che questo si verifica ancora come un processo di pulizia della casa. Tuttavia, oggi le PR vengono calcolate utilizzando un altro metodo simile agli hop in una rete che misura la distanza da una pagina all'altra con importanza relativa. Si basa sul modello di rete fiduciaria che è il modo in cui il modello originale PageRank è stato progettato per emulare. Un collegamento è un voto di fiducia da un'entità all'altra. Mentre diventa più complicato di così, ottieni la foto. Fa effettivamente la stessa cosa del processo ricorsivo usando un calcolo più in tempo reale sebbene probabilmente meno preciso ma abbastanza preciso da essere affidabile. Ciò richiede collegamenti completi poiché i valori di trust (utilizzando il modello di rete di trust) non possono essere passati se non viene stabilito il trust. Ricorda che un collegamento è un voto di fiducia o un collegamento nel modello di rete di fiducia. Il PageRank è rappresentato come valore di attendibilità in una rete di fiducia.
Ora che hai capito i collegamenti e quanto sono importanti, andiamo avanti.
Per un motore di ricerca, non ha senso rimuovere alcun URL. Se un URL non esiste nella tabella degli URL, non puoi sapere nulla sull'URL e potresti perdere. Probabilmente gli URL non vengono eliminati in genere, a meno che non abbia senso, ad esempio, se l'URL non esiste più. Tuttavia, quando una pagina è impostata su NOINDEX, al motore di ricerca è stato esplicitamente richiesto di NON indicizzare la pagina. Poiché una pagina Web all'interno dell'indice è composta da due elementi, un URL e il codice sorgente HTML, NOINDEX rimuove effettivamente la pagina a questo punto. I collegamenti a una pagina NOINDEX sono almeno sospesi.
Ora che sai come appare una pagina indicizzata, spostiamoci ulteriormente.
Esistono molti modi in cui un motore di ricerca penalizza una pagina Web o un sito. Uno è delisting. Questa è la più severa di tutte le penalità e richiede molto tempo per riprendersi. Questa categoria di penalità può essere dimostrata poiché la pagina non sarà e non potrà essere trovata. Inoltre, Googles Search Console ti farà sapere, in un certo senso, che le pagine vengono cancellate. Delle penalità rimanenti, le penalità vengono applicate nei filtri SERP.
Quando viene eseguita una query di ricerca, in realtà ci sono più query contemporaneamente sull'indice che vengono poi fuse in un set di risultati basato su una parte dell'algoritmo. L'algoritmo rimanente, che spesso chiamiamo singola entità, è una serie di algoritmi SERP relativamente semplici. I cui algoritmi primari riordineranno il set di risultati in base a più metriche in tempo reale come le tendenze. Degli algoritmi, quelli che rimuovono le voci dal set di risultati o riducono notevolmente il posizionamento di una voce all'interno del set di risultati sono chiamati filtri. Uno che viene applicato è il filtro che gestisce DMCA come evidenziato...we have removed 1 result(s) from this page...
Quindi ora che sai come vengono applicate le penalità, sono collegati link, filtri PR e DMCA?
Con questo, sappiamo che è stato applicato un filtro, tuttavia, questo non ha nulla a che fare con l'indice di collegamento che è il modo in cui viene calcolato PageRank. È il più lontano possibile dal processo di collegamento / PR. Collegamenti e PR sono all'inizio del processo di indicizzazione, mentre la rimozione della pagina penalizzata DMCA è alla fine del processo di query. In realtà, si tratta di due motori completamente separati. Pertanto, sebbene una pagina possa essere rimossa a causa di un reclamo DMCA, in realtà non viene rimossa dall'indice e pertanto i collegamenti da e verso la pagina vengono comunque calcolati.
Chiaro come fango? Spero di averlo spiegato bene. Per favore fatemi sapere se posso chiarire qualcosa per voi.
[Aggiornare]
Un'eccezione che non si applica allo scenario del PO.
@StephenOstermiller fa apparire un buon punto che non mina quanto sopra, tuttavia, vorrei aggiungerlo per completezza.
Come ben sai, il punteggio di un sito o di una pagina all'interno della ricerca richiede molti fattori. Anche se questo non è tecnico o mistico come puoi immaginare, è ancora un sacco di fattori da valutare. Ho dimenticato l'effetto dei punteggi di fiducia principalmente perché non si applicava nel caso del PO. Quindi lo sto aggiungendo qui.
Chiaramente ci sono siti che non vanno bene come i siti di spam. All'interno di questa classificazione di siti ci sono siti che abusano abitualmente di contenuti protetti da copyright. Questo è stato un grosso problema molti anni fa in cui i raschiatori di contenuti avrebbero creato siti senza il tuo duro lavoro. Per molto tempo non è stato fatto nulla. I siti con contenuti originali perderebbero i siti raschietto in modo abbastanza coerente. Dovrei saperlo. Ho avuto due siti PR 8 che hanno perso quasi tutto il traffico a causa di siti raschiatori senza ricorso.
Comunque le cose sono cambiate. E sono passati solo circa quattro anni da quando sono iniziati i cambiamenti significativi.
Per questa speciale classificazione dei siti, il punteggio di attendibilità dei siti può essere significativamente ridotto. Questo è ben noto. Ci vogliono anni per ricostruire i punteggi di fiducia e per alcuni siti, questo potrebbe non accadere mai. Perché, ad esempio, pensi che i monetizzatori di dominio siano così disposti a distruggere completamente un sito con centinaia di migliaia in attesa dietro lo stesso abuso? È perché la realtà è che un dominio può rovinare il suo valore oltre la redenzione.
Ci sono molti fattori che determinano la fiducia. Non entrerò qui. Tuttavia, sappi che la fiducia è un componente importante nella costruzione del rango per qualsiasi sito.
Detto questo, per qualsiasi sito che è un grave trasgressore del DMCA con una storia abbastanza ampia, vedrebbe bussare seriamente al suo punteggio di fiducia. Questo non è lo scenario descritto dall'OP. Tuttavia, è lo scenario che sto assumendo qui.
I collegamenti e la creazione di PageRank hanno più di un componente. Uno è PageRank (autorità) della pagina stessa. Per le pagine altamente autorevoli, esiste un limite di autorità. Una pagina PR 8 non condividerà un valore di 8 tra i collegamenti in quella pagina. Questo fa parte dell'algoritmo PageRank originale destinato a inserire una curva più naturale in PR. Altrimenti, sarebbe quasi impossibile per una nuova pagina competere con una pagina con alta autorità anche dopo un lungo periodo di tempo. Il valore del collegamento stesso viene valutato utilizzando diversi fattori tra cui il valore semantico del testo del collegamento, l'URL del collegamento, la posizione del collegamento (prominenza), il valore semantico del blocco di contenuto che contiene il collegamento, se applicabile, ecc. Tutti i collegamenti vengono segnati da 0 a .9. Il calcolo dell'autorità e del punteggio del collegamento è il valore passato da qualsiasi collegamento.
Buona e giusta. Quindi, in che modo ciò influisce su un sito che è un violatore significativo del DMCA?
Il valore di qualsiasi collegamento in entrata non verrebbe necessariamente influenzato dal punteggio di attendibilità del sito di destinazione poiché il valore dei collegamenti proviene dal sito di origine. Tuttavia, qualsiasi collegamento in uscita potrebbe essere. L'autorità di qualsiasi sito che è un abusatore DMCA significativo sarebbe influenzata dal punteggio di fiducia. Dopotutto, l'autorità viene dalla fiducia. Quindi, in questo modo, il valore di un collegamento in entrata non sarebbe passato attraverso i collegamenti in uscita senza essere degradato a seconda del punteggio di fiducia.
Questo cambia leggermente la risposta.
Sebbene non si applichi allo scenario del PO, esiste uno scenario in cui un valore di collegamento in entrata non viene completamente passato attraverso il sito con una violazione DMCA. Tuttavia, questo è un caso difficile e quindi la soglia prima che ciò accada è significativa.