Scraping web di LinkedIn


11

Di recente ho scoperto un nuovo pacchetto R per la connessione all'API di LinkedIn. Sfortunatamente l'API di LinkedIn sembra piuttosto limitata all'inizio; ad esempio, è possibile ottenere solo dati di base sulle aziende e questi sono distaccati dai dati sugli individui. Vorrei ottenere dati su tutti i dipendenti di una determinata azienda, cosa che puoi fare manualmente sul sito ma non è possibile tramite l'API.

import.io sarebbe perfetto se riconoscesse l'impaginazione di LinkedIn (vedi fine pagina).

Qualcuno conosce strumenti o tecniche di web scraping applicabili al formato corrente del sito di LinkedIn o come piegare l'API per eseguire analisi più flessibili? Preferibilmente in R o basato sul web, ma certamente aperto ad altri approcci.


2
Web scraping LinkedIn è contrario ai loro termini di servizio. Vedere "DO" e " NON FARE " di LinkedIn - NON: "Utilizzare software, dispositivi, robot di script, altri strumenti o processi manuali o automatizzati per accedere," raschiare "," gattonare "o" spider "i Servizi o qualsiasi dati o informazioni correlate; "
Brian Spiering,

Risposte:



3

Scrapy è una grande libreria Python che può aiutarti a raschiare più velocemente siti diversi e migliorare la struttura del tuo codice. Non tutti i siti possono essere analizzati con strumenti classici, poiché possono utilizzare la creazione di contenuti JS dinamici. Per questo compito è meglio usare Selenium (questo è un framework di test per siti Web, ma è anche un ottimo strumento di scraping web). C'è anche un wrapper Python disponibile per questa libreria. In Google puoi trovare alcuni trucchi che possono aiutarti a utilizzare Selenium all'interno di Scrapy e rendere il tuo codice chiaro, organizzato e puoi usare alcuni ottimi strumenti per la libreria Scrapy .

Penso che il selenio sarebbe un raschietto migliore per Linkedin rispetto agli strumenti classici. C'è un sacco di javascript e contenuti dinamici. Inoltre, se si desidera effettuare l'autenticazione nel proprio account e cancellare tutto il contenuto disponibile, si otterranno molti problemi con l'autenticazione classica utilizzando librerie semplici come le richieste o l' URLlib .


1

Mi piace reinvestire in combinazione con il plug-in Chrome SelectorGadget per selezionare le sezioni pertinenti.

Ho usato rvest e ho creato piccoli script per impaginare i forum tramite:

  1. Cerca l'oggetto "Pagina n di m"
  2. Estrai m
  3. Sulla base della struttura della pagina, creare un elenco di collegamenti da 1 a m (ad es. Www.sample.com/page1)
  4. Scorrere il raschietto attraverso l'elenco completo dei collegamenti

0

Andrei anche con beautifulsoup, se conosci Python. Nel caso in cui tu preferisca programmare javascript / JQuery (e hai familiarità con node.js), potresti voler dare un'occhiata a CoffeeScript ( Dai un'occhiata al Tutorial ) L'ho già usato con successo in diverse occasioni per raschiare pagine web.


0

lxml è una bella libreria di web scrapping in Python. Beautiful Soup è un wrapper su lxml. Quindi, lxml è più veloce di una zuppa sia squamosa che bella e ha una curva di apprendimento molto più semplice.

Questo è un esempio di raschietto che ho creato con esso per un progetto personale, che può scorrere su pagine Web.


0

BeautifulSoup non funziona su LinkedIn. Scrappy viola le politiche. Octoparse è solo per Windows. C'è un altro modo? Voglio estrarre dati di persone simili per l'account di una persona. Per favore aiuto!


1
Pubblica questo post come commento o fai una nuova domanda
christopherlovell,

Si tratta di informazioni importanti, ma ti preghiamo di rimuovere la domanda se si suppone che sia una risposta.
Pithikos,

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.