Quali sono i tipi di contenuto corretti per i documenti XML, HTML e XHTML?
Ho bisogno di scrivere un semplice crawler che recuperi solo questi tipi di file.
Oggigiorno http://example.net/index.html può servire ad esempio un file JPEG a causa di mod_rewrite, quindi ho bisogno di controllare il tipo di contenuto dall'intestazione della risposta e confrontarlo con un elenco di tipi di contenuto consentiti.
Da dove posso ottenere un elenco del genere?