Ripristino di un sito Web perso senza backup?


262

Sfortunatamente, il nostro provider di hosting ha registrato una perdita di dati del 100%, quindi ho perso tutto il contenuto di due siti Web di blog ospitati:

(Sì, sì, avrei dovuto assolutamente fare backup completi fuori sede. Sfortunatamente, tutti i miei backup erano sul server stesso. Quindi salva la lezione; hai ragione al 100%, ma al momento non mi aiuta. rimani concentrato sulla domanda qui!)

Sto iniziando il lento e doloroso processo di recupero del sito Web dalle cache del web crawler.

Esistono alcuni strumenti automatizzati per il recupero di un sito Web dalle cache di Internet Web Spider (Yahoo, Bing, Google, ecc.), Come Warrick , ma ho ottenuto alcuni risultati negativi utilizzando questo:

  • Il mio indirizzo IP è stato rapidamente bandito da Google per averlo utilizzato
  • Ricevo molti errori 500 e 503 e "in attesa di 5 minuti ..."
  • Alla fine, posso recuperare il contenuto del testo più velocemente a mano

Ho avuto molta più fortuna usando un elenco di tutti i post del blog, facendo clic sulla cache di Google e salvando ogni singolo file come HTML. Mentre ci sono un sacco di post di blog, non ci sono che molti, e immagino che mi merito un po 'di auto-flagellazione per non avere una strategia migliore di backup. Ad ogni modo, l'importante è che ho avuto la fortuna di ottenere il testo del post sul blog in questo modo e sono sicuramente in grado di estrarre il testo delle pagine Web dalla cache di Internet. Sulla base di ciò che ho fatto finora, sono sicuro di poter recuperare tutto il testo e i commenti persi sul post del blog .

Tuttavia, le immagini che accompagnano ogni post del blog si stanno dimostrando ... più difficili.

Qualche consiglio generale per il recupero delle pagine del sito Web dalle cache di Internet e, in particolare, i luoghi in cui recuperare le immagini archiviate dalle pagine del sito Web ?

(E ancora, per favore, niente lezioni di backup. Hai assolutamente, completamente, assolutamente ragione! Ma avere ragione non risolve il mio problema immediato ... A meno che tu non abbia una macchina del tempo ...)


96
Quando qualcuno come Jeff Atwood stesso può perdere due interi siti Web in un colpo solo ... Bene.

240
@Phoshi: Jeff ha alcuni buoni articoli su Coding Horror sul backup. Dovresti dare loro una lettura veloce.

34
joshhunt vince un (1) internet. Questa offerta non può essere combinata con altre offerte, scambiate o sostituite. Nessun controllo della pioggia.
Adam Davis,

28
La lunghezza di alcune persone andrà a guadagnare rappresentante su SU ...

26
Si prega di non fare riferimento a ciò che è stato fatto come "backup" - se quei file si trovano sullo stesso server, non sono in alcun modo "backup".

Risposte:


220

Ecco la mia selvaggia pugnalata nell'oscurità: configura il tuo server web per restituire 304 per ogni richiesta di immagine, quindi affolla il recupero pubblicando un elenco di URL da qualche parte e chiedendo sul podcast a tutti i tuoi lettori di caricare ogni URL e raccogliere qualsiasi immagine che si caricano dalle loro cache locali. (Questo può funzionare solo dopo aver ripristinato le pagine HTML stesse, complete dei <img ...>tag, che la tua domanda sembra implicare che sarai in grado di fare.)

Questo è fondamentalmente un modo stravagante di dire "prendilo dalle cache del browser web dei tuoi lettori". Hai molti lettori e ascoltatori di podcast, quindi puoi mobilitare efficacemente un gran numero di persone che probabilmente hanno visto il tuo sito web di recente. Ma trovare ed estrarre manualmente immagini dalle cache di vari browser Web è difficile e l'intero approccio funziona meglio se è abbastanza facile che molte persone lo provino e abbiano successo. Quindi l'approccio 304. Tutto ciò che richiede ai lettori è che facciano clic su una serie di collegamenti e trascinino via tutte le immagini che vengono caricate nel loro browser Web (o fate clic con il pulsante destro del mouse e salvate come, ecc.), Quindi inviatele via e-mail o caricatele su un posizione centrale che hai impostato o altro. Lo svantaggio principale di questo approccio è che le cache del browser Web non risalgono a così tanto tempo. Ma solo un lettore a cui è capitato di caricare un post dal 2006 negli ultimi giorni per salvare anche un'immagine molto vecchia. Con un pubblico abbastanza grande, tutto è possibile.


52
+1 per l'approccio più creativo. Potrebbe effettivamente funzionare poiché CH ha alcuni lettori.

16
implementato qui? diovo.com/2009/12/…
Jeff Atwood il

3
Penso che potresti scansionare i tuoi file statici per i tag immagine e copiarli tutti in una gigantesca pagina di immagini, invece di far fare a tutti clic su ogni link. L'implementazione di diovo.com sembra molto impressionante, spero che funzioni per te.

2
WOW, questa è una merda da mago malvagio I <3
Ahmad Alfy,

4
In effetti, dovresti essere in grado di recuperare le immagini utilizzando canvase inviarle a casa da AJAX.
Tomáš Zato,

65

Alcuni di noi ti seguono con un lettore RSS e non cancellano le cache. Ho post sul blog che sembrano risalire al 2006. Nessuna immagine, da quello che posso vedere, ma potrebbe essere migliore di quello che stai facendo ora.


+1 sicuramente. Google Reader no, ma scommetto che sarebbe basato su desktop.

2
Puoi anche chiedere alle persone di controllare le cache del browser. Coloro che vedono Coding Horror in stile retrò potrebbero avere alcune delle immagini memorizzate nella cache.

Ho post di blog risalenti al 2005 in GReader, ma sfortunatamente non hanno immagini e non mi permettono di esportarli come una serie di pagine ... Tuttavia, potrei inviarti un'e-mail, Jeff. ..
Glen Solsberry,

Sì, c'era un implicito "Ti invierò quello che ho se lo chiedi." anche nella mia risposta.

3
Troppi lettori RSS ritengono che le immagini non moriranno mai. So che il mio

62

(1) Estrarre un elenco dei nomi file di tutte le immagini mancanti dai backup HTML. Ti verrà lasciato qualcosa come:

  • stay-Puft-marshmallow-man.jpg
  • internet-proprietà-dialog.png
  • yahoo-homepage-small.png
  • Password-show-animated.gif
  • tivo2.jpg
  • michael-Abrash-grafica-programma

(2) Effettua una ricerca di immagini di Google per tali nomi di file. Sembra che MOLTI di loro siano stati "rispecchiati" da altri blogger e siano maturi perché hanno lo stesso nome di file .

(3) Potresti farlo in modo automatizzato se si dimostra efficace per, diciamo, 10+ immagini.


Sarebbe molto ironico se in realtà avesse recuperato delle immagini in questo modo.
Hashim,

51

Accedendo alla ricerca di immagini di Google e digitando site:codinghorror.compuoi almeno trovare le versioni in miniatura di tutte le tue immagini. No, non aiuta necessariamente, ma ti dà un punto di partenza per recuperare quelle migliaia di immagini.

Immagini di codinghorror

Sembra che Google memorizzi una miniatura più grande in alcuni casi:

Google vs. Bing

Google è a sinistra, Bing a destra.


2
sì, nel peggiore dei casi, dovremo ingrandire le anteprime di Google. Sento che Bing memorizza miniature più grandi, però?
Jeff Atwood,

Non lo so; Non sono un tipo bing di tipo. Non so nemmeno se fanno la ricerca di immagini come fa Google. Lo scoprirò e aggiornerò detto post.
George Stocker,

18
Non so se questo sei tu. Ma Imageshack sembra avere molte delle immagini del tuo blog. profile.imageshack.us/user/codinghorror
Nick Berardi,

Sembra che abbiano 456 immagini a grandezza naturale. Questa potrebbe essere la scommessa migliore per recuperare tutto. Forse possono persino fornirti una discarica.
Nick Berardi,

28
Utilizza le miniature di Google come inizio, quindi usa tineye.com per vedere se qualcuno ospita una copia.
sep332,

40

Mi dispiace per i blog. Non andare a lezione. Ma ho trovato quelle che sembrano essere le tue immagini su Imageshack. Sono davvero tuoi o qualcuno ne ha tenuto una copia in giro.

http://profile.imageshack.us/user/codinghorror

Sembra che abbiano 456 immagini a grandezza naturale. Questa potrebbe essere la scommessa migliore per recuperare tutto. Forse possono persino fornirti una discarica.


37

Jeff, ho scritto qualcosa per te qui

In breve, ciò che ti propongo di fare è:

  1. Configurare il server Web per restituire 304 per ogni richiesta di immagine. 304 significa che il file non viene modificato e questo significa che il browser recupererà il file dalla sua cache se è presente lì. (credito: questa risposta SuperUser )

  2. In ogni pagina del sito Web, aggiungi un piccolo script per acquisire i dati dell'immagine e inviarli al server.

  3. Salva i dati dell'immagine nel server.

  4. Ecco!

Puoi ottenere gli script dal link indicato.


La risposta del superutente non è collegata.
Nathaniel,

@Nathaniel: RISOLTO
alexanderpas il

28

Prova questa query sulla Wayback Machine :

http://web.archive.org/web/*sa_re_im_/http://codinghorror.com/*

Questo ti porterà tutte le immagini da codinghorror.com archiviate da archive.org. Ciò restituisce 3878 immagini, alcune delle quali sono duplicate. Non sarà completo, ma comunque un buon inizio.

Per le immagini rimanenti, è possibile utilizzare le anteprime da una cache del motore di ricerca, quindi effettuare una ricerca inversa usando queste su http://www.tineye.com/ . Le dai l'immagine in miniatura e ti darà un'anteprima e un puntatore per far combaciare strettamente le immagini trovate sul web.


1
restituisce un 404 ora?
rogerdpack,

Ho creato uno strumento per ottenere automaticamente un backup da Wayback Machine: github.com/hartator/wayback-machine-downloader
Hartator,

26

+1 sulla ddraccomandazione se (1) il disco grezzo è disponibile da qualche parte; e (2) le immagini erano file semplici. Quindi è possibile utilizzare uno strumento di "analisi dei dati" forense per (ad esempio) estrarre tutti gli intervalli credibili che sembrano essere JPG / PNG / GIF. Ho recuperato il 95% + delle foto su un iPhone che è stato cancellato in questo modo.

Gli strumenti open source "innanzitutto" e il suo "bisturi" successivo possono essere utilizzati per questo:

http://foremost.sourceforge.net/

http://www.digitalforensicssolutions.com/Scalpel/


2
Photorec può anche essere utile una volta ottenute immagini dd.

primo è disponibile via yum su Fedora

26

Fortunatamente, le generazioni future andranno bene.

Anche con solo un po 'di questo grande rock, scienziati / linguisti hanno capito molto.

stele di Rosetta

Se mancano alcune immagini, lascia che qualcuno lo capisca tra un paio di migliaia di anni.

Spero che ridi un po '. :)


5
Ok, hai almeno una risatina da parte mia ;-)

21

Puoi sempre provare anche archive.org. Usa la macchina del ritorno. L'ho usato per recuperare immagini dai miei siti Web.


3
Almeno non sembra avere molta cache per CodingHorror. Vedo comunque le immagini per blog.stackoverflow.

ho ricostruito un sito web usando una macchina per fare ritorno su Internet una volta, ma ho provato alcune volte da allora e in realtà non archivia molti siti ...
Djangofan,

Sembra che risale al 2004 qui web.archive.org/web * / codinghorror.com

Grazie al cielo non aveva un file robots.txt eh? :)
Synetech

14

Quindi, nel peggiore dei casi, non puoi recuperare nulla. Dannazione.

Prova ad afferrare quelli minimizzati di Google e a metterli attraverso TinEye , il motore di ricerca per immagini inverse. Si spera che dovrebbe prendere qualsiasi duplicato o rehosts fatto dalla gente.


14

È un colpo lungo, ma potresti considerare:

  • Pubblicando l'elenco esatto dell'immagine che ti manca
  • crowdsourcing il processo di recupero attraverso tutta la cache Internet dei tuoi lettori.

Ad esempio, vedi Nirsoft Mozilla Cache Viewer :

testo alternativo
(fonte: nirsoft.net )

Può scavare rapidamente qualsiasi immagine "blog.stackoverflow.com" che si potrebbe ancora avere attraverso una semplice riga di comando:

MozillaCacheView.exe -folder "C:\Documents and Settings\Administrator\Local Settings\Application Data\Mozilla\Firefox\Profiles\acf2c3u2.default\Cache" 
/copycache "http://blog.stackoverflow.com" "image" /CopyFilesFolder "c:\temp\blogso" /UseWebSiteDirStructure 0

Nota: hanno lo stesso esploratore di cache per Chrome .

testo alternativo
(fonte: nirsoft.net )

(Devo avere 15 giorni di foto blog.stackoverflow.com)

E Internet Explorer o Opera .


Quindi aggiorna l'elenco pubblico per riflettere ciò che i lettori segnalano di trovare nella loro cache.


12

In passato ho usato http://www.archive.org/ per recuperare le immagini memorizzate nella cache. È un po 'incostante, ma ha funzionato per me.
Inoltre, quando provo a recuperare le foto stock che ho usato su un vecchio sito, www.tineye.com è fantastico quando ho solo le anteprime e ho bisogno di immagini a grandezza naturale.

Spero che questo ti aiuta. In bocca al lupo.


Ho cercato in archive.org qualche minuto fa le immagini di codinghorror.com e i pochi post su cui ho cliccato non mostravano nulla.
George Stocker,

Archive.org rilascia i dati mesi dopo la loro prima indicizzazione.
Christian,

10

Questa probabilmente non è la soluzione più semplice o più completa, ma servizi come Evernote in genere salvano sia il testo che le immagini quando sono memorizzati all'interno dell'applicazione - forse alcuni lettori utili che hanno salvato i tuoi articoli potrebbero salvare le immagini e rispedirle a te ?


10

Ho avuto grandi esperienze con archive.org . Anche se non sei in grado di estrarre tutti i post del tuo blog dal sito, mantengono istantanee periodiche:

testo alternativo

In questo modo puoi controllare ogni pagina e vedere i post sul blog che hai scritto. Con i nomi di tutti i post puoi trovarli facilmente nella cache di Google se archive.org non ce l'ha. Archive cerca di conservare le immagini, la cache di Google avrà immagini e non ho svuotato la cache di recente, quindi posso aiutarti con i post più recenti del blog :)


Ho cercato di ottenere alcuni dati dal sito Web di un'azienda in cui lavoravo da tempo. Era buono per il testo, tanto meno per le immagini. Ma
YMMV

Credo che la web cache di Google non memorizzi immagini.
Nathaniel,


8

Un suggerimento per il futuro: utilizzo Windows Live Writer per i blog e salva copie locali dei post sul mio computer, oltre a pubblicarli sul blog.


Inoltre, l'utilizzo di Windows Live Writer è solo un buon senso comune.

7

Circa cinque anni fa, una prima incarnazione di un disco rigido esterno su cui stavo memorizzando tutte le mie foto digitali è fallita gravemente. Ho creato un'immagine del disco rigido usando dde ho scritto uno strumento rudimentale per recuperare tutto ciò che sembrava un'immagine JPEG. Ne ho tratto la maggior parte delle mie foto.

Quindi, la domanda è: puoi ottenere una copia dell'immagine del disco della macchina virtuale che conteneva le immagini?



7

Suggerisco la combinazione di archive.org e un anonimizzatore di richiesta come [Tor] [2]. Suggerisco di utilizzare l'anonimizzatore perché in questo modo ciascuna delle tue richieste avrà un IP e una posizione casuali e in questo modo puoi evitare di essere bannato da un archive.org (come ha fatto Google) per un numero insolitamente elevato di richieste.

Buona fortuna, ci sono molte gemme in quel blog.


Dato che Jeff vuole fare una donazione a archive.org, abusare dell'anonimizzatore potrebbe non essere assolutamente inaccettabile. Ma voglio ancora darti un calcio per quello. : - |

6

La macchina di ritorno ne avrà alcuni. La cache di Google e cache simili ne avranno alcune.

Una delle cose più efficaci che potrai fare è inviare per e-mail i poster originali, chiedendo aiuto.

In realtà ho alcune raccomandazioni infrastrutturali, perché dopo tutto questo è stato ripulito. Il problema fondamentale non è in realtà il backup, è la mancanza di replica del sito e la mancanza di controllo. Se mi mandi un'e-mail ai contenuti del campo di posta elettronica privato, in seguito, quando sarai di nuovo in piedi, mi piacerebbe discutere con te della questione.


6

Se le tue immagini sono state memorizzate su un servizio esterno come Flickr o un CDN (come menzionato in uno dei tuoi podcast), potresti avere ancora le risorse immagine lì.

Alcune immagini potrebbero essere trovate cercando su Google Immagini e facendo clic su "Trova immagini simili" , forse ci sono copie su altri siti.


5

archive.org a volte nasconde immagini. Ottieni manualmente ogni URL (o scrivi un breve script) e richiedili in questo modo:

string.Format ("GET / * / {0}", nextUri)

Ovviamente sarà una vera seccatura cercare.

Potrei averne alcuni nella mia cache del browser. Se lo faccio li ospiterò da qualche parte.


4

Se speri di provare a cancellare le cache degli utenti, potresti voler impostare il server in modo che risponda 304 Not Modifieda tutte le richieste condizionali-GET ('If-Modified-Since' o 'If-None-Match'), che i browser utilizzano per riconvalidare il loro materiale memorizzato nella cache.

Se le intestazioni di memorizzazione nella cache iniziale su contenuti statici come le immagini fossero piuttosto liberali - consentendo la memorizzazione nella cache delle cose per giorni o mesi - potresti continuare a ricevere richieste di riconvalida per un po '. Imposta un cookie su tali richieste e fai appello a quegli utenti affinché eseguano uno script sulla loro cache per estrarre le immagini che hanno ancora.

Attenzione, però: nel momento in cui inizi a pubblicare contenuti testuali con risorse incorporate che non sono ancora presenti, potresti cancellare quelle versioni memorizzate nella cache mentre i revalidatori raggiungono i 404.



4

A rischio di evidenziare l'ovvio, prova a estrarre i backup del tuo computer per le immagini. So che la mia strategia di backup è abbastanza casuale che ho più copie di molti file in giro su unità esterne, dischi masterizzati e file zip / tar. In bocca al lupo!


4

Sono riuscito a recuperare questi file dalla mia cache Safari su Snow Leopard:

bad-code-offset-back.jpg
bad-code-offset-front.jpg
code-whitespace-invisible.png
code-whitespace-visible.png
coding-horror-official-logo-small.png
coding-horror-text.png
codinghorror-search-logo1.png
crucial-ssd-128gb-ct128m225.jpg
google-microformat-results-forum.png
google-microformat-results-review.png
kraken-cthulhu.jpg
mail.png
powered-by-crystaltech-web-hosting.png
ssd-vs-magnetic-graph.png

Se qualcun altro vuole provare, ho scritto uno script Python per estrarli in ~ / codinghorror / nomefile, che ho messo online qui .

Spero che questo possa essere d'aiuto.


3

Hai avuto la possibilità di vedere se il tuo provider di hosting ha qualche backup (alcune versioni precedenti)?


non sembra buono .. il loro programma di backup non è stato in grado di eseguire il backup dei file del disco rigido della macchina virtuale, quindi non ci sono backup.
Jeff Atwood,

2

Quanto valgono questi dati per te? Se vale una somma significativa (migliaia di dollari), considera di chiedere al tuo provider di hosting il disco rigido utilizzato per archiviare i dati per il tuo sito Web (in caso di perdita di dati a causa di un guasto hardware). È quindi possibile portare l'unità su traccia o qualche altro servizio di recupero dati per vedere cosa è possibile ottenere dall'unità. Questo potrebbe essere difficile da negoziare a causa della possibilità di dati non recuperati di altre persone sul disco, ma se ti interessa davvero, probabilmente puoi risolverlo.


il server era una VM per quanto ne so.
splattne,

1
@splattne anche così, c'è una possibilità diversa da zero che molti dati potrebbero essere recuperati.

Dovrebbe essere un servizio altamente specializzato.

2

Mi dispiace molto sentirlo e sono molto seccato per te e per i tempi: volevo una copia offline di alcuni dei tuoi post e ho fatto HTTrack su tutto il tuo sito ma ho dovuto uscire (questo era un paio di settimane fa) e L'ho fermato.

Se l'host è a metà discesa - e dal fatto che immagino che tu sia un buon cliente ... Chiederei loro di inviarti i dischi rigidi (come immagino che dovrebbero usare RAID) o fare un po 'di recupero da soli.

Anche se questo potrebbe non essere un processo veloce, l'ho fatto con un host per un client ed è stato in grado di recuperare interi database intatti (... fondamentalmente, l'host ha provato un aggiornamento per il pannello di controllo che stavano usando e lo ha incasinato .. ma nulla è stato sovrascritto).

Qualunque cosa accada, buona fortuna da tutti i tuoi fan sui siti SO!

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.