Ottieni un elenco di URL da un sito [chiuso]


94

Sto distribuendo un sito sostitutivo per un cliente ma non vogliono che tutte le loro vecchie pagine finiscano in 404. Non è stato possibile mantenere la vecchia struttura dell'URL perché era orribile.

Quindi sto scrivendo un gestore 404 che dovrebbe cercare una vecchia pagina richiesta e fare un reindirizzamento permanente alla nuova pagina. Il problema è che ho bisogno di un elenco di tutti gli URL della vecchia pagina.

Potrei farlo manualmente, ma sarei interessato se ci fossero app che mi fornissero un elenco di URL relativi (ad esempio: / page / path, non http: /.../ page / path) URL appena indicati come home pagina. Come un ragno ma a cui non importa il contenuto se non quello di trovare pagine più profonde.


Risposte:


65

Non volevo rispondere alla mia domanda, ma ho solo pensato di eseguire un generatore di mappe del sito. Il primo che ho trovato http://www.xml-sitemaps.com ha un bel output di testo. Perfetto per le mie esigenze.


Ma c'è un limite di 5000 collegamenti! .. :( Sto cercando uno script per il generatore di mappe del sito php gratuito.
Jenson M John

13
Il limite attuale è 500 - sempre più piccolo ...
Oli Studholme

Si è verificato un errore per me: ::::::: Si è verificato un errore Si è verificato un errore durante l'accesso all'URL specificato: 159.121.ssss Assicurati di specificare l'URL del sito web corretto e invia nuovamente la richiesta.
JustJohn

FYI: Se stai usando il routing frontend, non otterrai quei percorsi da questo metodo.
jasonleonhard

Cordiali saluti: se il sito Web utilizza l'autenticazione e / o l'autorizzazione, non otterrai nemmeno tutti i percorsi.
jasonleonhard

46

fare wget -r -l0 www.oldsite.com

Quindi find www.oldsite.comrivelerei solo tutti gli URL, credo.

In alternativa, pubblica quella pagina personalizzata non trovata su ogni 404 richiesta! Cioè se qualcuno usasse il link sbagliato, otterrebbe la pagina che dice che la pagina non è stata trovata e che fornisce alcuni suggerimenti sul contenuto del sito.


15
In particolare, poiché restituisce un elenco di file , non URL, funzionerebbe solo per i siti che sono raccolte di file HTML statici. Se il sito ha parametri di query URL, URL riscritti lato server o qualsiasi tipo di include/ require/ ecc. assemblaggio di pagine, questo non funzionerà davvero.
TJ Schuck

Potrei aver frainteso wget. Pensavo che "wget" servisse per scaricare i contenuti del sito?
Cosmic Hawk

@Doomsy sì, ma quando hai scaricato tutto il contenuto conosci sicuramente tutti gli URL di quel contenuto e senza scaricare non c'è modo di scoprire gli URL.
alamar

1
Considera la profondità predefinita. gnu.org/software/wget/manual/html_node/…
PJ Brunet

1
@alamar Sì, c'è "-r -l inf" per la ricorsione infinita, ma consiglio alle persone di controllare la documentazione - così tante fantastiche opzioni! L'opzione "-m" si rispecchierà e proverò "-R.jpg, .jpeg, .gif, .png" che penso salti le immagini.
PJ Brunet

24

Ecco un elenco di generatori di sitemap (da cui ovviamente puoi ottenere l'elenco degli URL da un sito): http://code.google.com/p/sitemap-generators/wiki/SitemapGenerators

Generatori di Sitemap Web

Di seguito sono riportati i collegamenti agli strumenti che generano o mantengono file nel formato XML Sitemaps, uno standard aperto definito su sitemaps.org e supportato dai motori di ricerca come Ask, Google, Microsoft Live Search e Yahoo !. I file Sitemap contengono generalmente una raccolta di URL su un sito Web insieme ad alcuni metadati per questi URL. I seguenti strumenti generalmente generano file di Sitemap XML e di elenchi di URL "di tipo web" (alcuni possono supportare anche altri formati).

Nota: Google non ha testato o verificato le funzionalità o la sicurezza del software di terze parti elencato in questo sito. Per qualsiasi domanda relativa al software, rivolgersi all'autore del software. Ci auguriamo che questi strumenti ti piacciano!

Programmi lato server

  • Enarion phpSitemapsNG (PHP)
  • Generatore di Google Sitemap (Linux / Windows, 32 / 64bit, open source)
  • Outil en PHP (francese, PHP)
  • Perl Sitemap Generator (Perl)
  • Generatore di mappe del sito Python (Python)
  • Sitemap semplici (PHP)
  • SiteMap XML Dynamic Sitemap Generator (PHP) $
  • Generatore di mappe del sito per OS / 2 (script REXX)
  • XML Sitemap Generator (PHP) $

CMS e altri plugin:

  • ASP.NET - Sitemaps.Net
  • DotClear (spagnolo)
  • DotClear (2)
  • Drupal
  • Modelli di e-commerce (PHP) $
  • Modelli e-commerce (PHP o ASP) $
  • LifeType
  • Generatore di Sitemap MediaWiki
  • mnoGoSearch
  • OS Commerce
  • phpWebSite
  • Plone
  • RapidWeaver
  • Textpattern
  • vBulletin
  • Wikka Wiki (PHP)
  • WordPress

Strumenti scaricabili

  • GSiteCrawler (Windows)
  • GWebCrawler e Creatore di Sitemap (Windows)
  • G-Mapper (Windows)
  • Inspyder Sitemap Creator (Windows) $
  • IntelliMapper (Windows) $
  • Microsys A1 Sitemap Generator (Windows) $
  • Rage Google Sitemap Automator $ (OS-X)
  • Screaming Frog SEO Spider e generatore di Sitemap (Windows / Mac) $
  • Mappa del sito Pro (Windows) $
  • Sitemap Writer (Windows) $
  • Generatore di mappe del sito di DevIntelligence (Windows)
  • Strumenti per la mappa del sito di Sorrowmans (Windows)
  • TheSiteMapper (Windows) $
  • Vigos Gsitemap (Windows)
  • Visual SEO Studio (Windows)
  • Generatore di mappe del sito WebDesignPros (applicazione Webstart Java)
  • Weblight (Windows / Mac) $
  • WonderWebWare Sitemap Generator (Windows)

Generatori / servizi in linea

  • AuditMyPc.com Sitemap Generator
  • AutoMapIt
  • Autositemap $
  • Enarion phpSitemapsNG
  • Generatore di mappe del sito gratuito
  • Neuroticweb.com Sitemap Generator
  • ROR Sitemap Generator
  • ScriptSocket Sitemap Generator
  • SeoUtility Sitemap Generator (italiano)
  • SitemapDoc
  • Sitemapspal
  • SitemapSubmit
  • Smart-IT-Consulting Validatore XML di Google Sitemaps
  • Generatore di Sitemap XML
  • Generatore XML-Sitemap

CMS con generatori di Sitemap integrati

  • Calcestruzzo 5

Generatori di Sitemap per Google News I seguenti plug-in consentono agli editori di aggiornare i file Sitemap di Google News, una variante del protocollo sitemaps.org che descriviamo nel nostro Centro assistenza. Oltre alle normali proprietà dei file Sitemap, le Sitemap per Google News consentono agli editori di descrivere i tipi di contenuti che pubblicano, oltre a specificare i livelli di accesso per i singoli articoli. Ulteriori informazioni su Google News sono disponibili nel nostro Centro assistenza e nei Forum di assistenza.

  • Plugin di Google News per WordPress

Frammenti di codice / librerie

  • Script ASP
  • Script Emacs Lisp
  • Libreria Java
  • Script Perl
  • Classe PHP
  • Script del generatore PHP

Se ritieni che uno strumento debba essere aggiunto o rimosso per un motivo legittimo, lascia un commento nel Forum di assistenza per i webmaster.


C'è qualcuno che fornisce una schermata di stampa da tutti gli URL?
ValRob

6

Il migliore che ho trovato è http://www.auditmypc.com/xml-sitemap.asp che utilizza Java e non ha limiti sulle pagine e ti consente persino di esportare i risultati come elenco di URL non elaborati.

Utilizza anche sessioni, quindi se stai utilizzando un CMS, assicurati di essere disconnesso prima di eseguire la scansione.


3
suonava bene, ma è rotto.
NoobishPro

2

Quindi, in un mondo ideale avresti una specifica per tutte le pagine del tuo sito. Avresti anche un'infrastruttura di test che potrebbe colpire tutte le tue pagine per testarle.

Presumibilmente non sei in un mondo ideale. Perché non farlo ...?

  1. Crea una mappatura tra i ben noti vecchi URL e quelli nuovi. Reindirizza quando vedi un vecchio URL. Potrei forse considerare di presentare un "questa pagina è stata spostata, il suo nuovo URL è XXX, verrai reindirizzato a breve".

  2. Se non hai una mappatura, presenta un messaggio "mi dispiace - questa pagina è stata spostata. Ecco un collegamento alla home page" e reindirizzali se lo desideri.

  3. Registra tutti i reindirizzamenti, specialmente quelli senza mappatura. Nel tempo, aggiungi mappature per le pagine importanti.



1

Scrivete uno spider che legga in ogni html dal disco e restituisca ogni attributo "href" di un elemento "a" (può essere fatto con un parser). Tieni presente quali collegamenti appartengono a una determinata pagina (questa è un'attività comune per un datastructre MultiMap). Dopodiché puoi produrre un file di mappatura che funge da input per il gestore 404.


0

Vorrei esaminare un numero qualsiasi di strumenti di generazione di mappe del sito online. Personalmente, ho usato questo (basato su java) in passato, ma se fai una ricerca su Google per "sitemap builder" sono sicuro che troverai molte opzioni diverse.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.