Scraping tabelle html in frame di dati R utilizzando il pacchetto XML


Come posso raschiare le tabelle html usando il pacchetto XML?

Prendi, ad esempio, questa pagina di Wikipedia sulla squadra di calcio brasiliana . Vorrei leggerlo in R e ottenere la tabella "elenco di tutte le partite che il Brasile ha disputato contro le squadre riconosciute dalla FIFA" come data.frame. Come posso fare questo?

Per capire i selettori xpath, dai un'occhiata a - è fantastico



... o un tentativo più breve:

theurl <- getURL("",.opts = list(ssl.verifypeer = FALSE) )
tables <- readHTMLTable(theurl)
tables <- list.clean(tables, fun = is.null, recursive = FALSE)
n.rows <- unlist(lapply(tables, function(t) dim(t)[1]))

la tabella scelta è la più lunga della pagina


La guida readHTMLTable fornisce anche un esempio di lettura di una tabella di testo semplice da un elemento PRE HTML utilizzando htmlParse (), getNodeSet (), textConnection () e read.table ()
Dave X


# Download page using RCurl
# You may need to set proxy details, etc.,  in the call to getURL
theurl <- ""
webpage <- getURL(theurl)
# Process escape characters
webpage <- readLines(tc <- textConnection(webpage)); close(tc)

# Parse the html tree, ignoring errors on the page
pagetree <- htmlTreeParse(webpage, error=function(...){})

# Navigate your way through the tree. It may be possible to do this more efficiently using getNodeSet
body <- pagetree$children$html$children$body 
divbodyContent <- body$children$div$children[[1]]$children$div$children[[4]]
tables <- divbodyContent$children[names(divbodyContent)=="table"]

#In this case, the required table is the only one with class "wikitable sortable"  
tableclasses <- sapply(tables, function(x) x$attributes["class"])
thetable  <- tables[which(tableclasses=="wikitable sortable")]$table

#Get columns headers
headers <- thetable$children[[1]]$children
columnnames <- unname(sapply(headers, function(x) x$children$text$value))

# Get rows from table
content <- c()
for(i in 2:length(thetable$children))
   tablerow <- thetable$children[[i]]$children
   opponent <- tablerow[[1]]$children[[2]]$children$text$value
   others <- unname(sapply(tablerow[-1], function(x) x$children$text$value)) 
   content <- rbind(content, c(opponent, others))

# Convert to data frame
colnames(content) <- columnnames

Modificato per aggiungere:

Uscita campione

                     Opponent Played Won Drawn Lost Goals for Goals against  % Won
    1               Argentina     94  36    24   34       148           150  38.3%
    2                Paraguay     72  44    17   11       160            61  61.1%
    3                 Uruguay     72  33    19   20       127            93  45.8%

Per chiunque altro che ha la fortuna di trovare questo post, questo script probabilmente non eseguito a meno che l'utente aggiunge le loro informazioni "User-Agent", come descritto in questo altro post utile:


Un'altra opzione che utilizza Xpath.


theurl <- ""
webpage <- getURL(theurl)
webpage <- readLines(tc <- textConnection(webpage)); close(tc)

pagetree <- htmlTreeParse(webpage, error=function(...){}, useInternalNodes = TRUE)

# Extract table header and contents
tablehead <- xpathSApply(pagetree, "//*/table[@class='wikitable sortable']/tr/th", xmlValue)
results <- xpathSApply(pagetree, "//*/table[@class='wikitable sortable']/tr/td", xmlValue)

# Convert character vector to dataframe
content <-, ncol = 8, byrow = TRUE))

# Clean up the results
content[,1] <- gsub(" ", "", content[,1])
tablehead <- gsub(" ", "", tablehead)
names(content) <- tablehead

Produce questo risultato

> head(content)
   Opponent Played Won Drawn Lost Goals for Goals against % Won
1 Argentina     94  36    24   34       148           150 38.3%
2  Paraguay     72  44    17   11       160            61 61.1%
3   Uruguay     72  33    19   20       127            93 45.8%
4     Chile     64  45    12    7       147            53 70.3%
5      Peru     39  27     9    3        83            27 69.2%
6    Mexico     36  21     6    9        69            34 58.3%

Ottima chiamata sull'uso di xpath. Punto minore: puoi semplificare leggermente l'argomento path cambiando // * / in //, ad es. "// table [@ class = 'wikitable sortable'] / tr / th"
Richie Cotton

Viene visualizzato un messaggio di errore "Gli script devono utilizzare una stringa informativa utente-agente con le informazioni di contatto, oppure possono essere bloccati IP senza preavviso." [2] "Esiste un modo per attuare questo metodo?

opzioni (RCurlOptions = list (useragent = "zzzz")). Vedi anche la sezione "Runtime" di per altre alternative e discussioni.
apprese il


L' rvestinsieme xml2è un altro pacchetto popolare per analizzare le pagine web HTML.

theurl <- ""
tables<-html_nodes(file, "table")
table1 <- html_table(tables[4], fill = TRUE)

La sintassi è più facile da usare rispetto al xmlpacchetto e per la maggior parte delle pagine Web il pacchetto fornisce tutte le opzioni di cui ha bisogno.

Il read_html mi dà l'errore "'file: ///Users/grieb/Auswertungen/tetyana-snp-2016/data/snp-nexus/15/SNP%20Annotation%20Tool.html' non esiste nella directory di lavoro corrente (' / utenti / Grieb / Auswertungen / Tetyana-SNP-2016 / code ')."
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.