python-nltk su Ubuntu 12.04 LTS: nltk.download ('brown') genera l'errore HTML 401


9

Ho installato python-nltk su Ubuntu Server 12.04 usando apt-get.

Ma quando provo a scaricare un corpus, ottengo il seguente errore:

$ python
Python 2.7.3 (default, Feb 27 2014, 19:58:35)
[GCC 4.6.3] on linux2
Type "help", "copyright", "credits" or "license" for more information.
>>> import nltk
>>> nltk.download('brown')
[nltk_data] Error loading brown: HTTP Error 401: Authorization
[nltk_data]     Required
False

Mi manca qualche configurazione o pacchetto aggiuntivo?


Potresti provare a installare dal sorgente wget https://github.com/nltk/nltk/archive/develop.zip; unzip develop.zip; cd nltk-develop; python setup.py install. Ma è stato sollevato un problema in github.com/nltk/nltk/issues/747
alvas,

Questo è ancora un problema con Ubuntu 13.04
Tickon,

Rivisitare questa domanda dopo molto tempo e alcuni aggiornamenti di sistema: il problema non è più presente con Ubuntu 18.04 LTS
jk - Reinstate Monica,

Risposte:


12

L' DEFAULT_URLusato nella downloader.pyversione impacchettata di Ubuntu utilizza ancora:

DEFAULT_URL = 'http://nltk.googlecode.com/svn/trunk/nltk_data/index.xml'

Ma l'attuale server di dati è:

DEFAULT_URL = "http://nltk.github.com/nltk_data/"

Ovviamente puoi installare dal sorgente o ... modificare la tua versione già installata per puntare al nuovo server in questo modo:

 sudo perl -pi -e 's#DEFAULT_URL = .*#DEFAULT_URL = "http://nltk.github.com/nltk_data/"#' /usr/lib/python2.7/dist-packages/nltk/downloader.py

È quindi possibile installare il corpus "marrone":

$ python
Python 2.7.6 (default, Mar 22 2014, 22:59:56) 
[GCC 4.8.2] on linux2
Type "help", "copyright", "credits" or "license" for more information.
>>> import nltk
>>> nltk.download('brown')
[nltk_data] Downloading package 'brown' to /home/sylvain/nltk_data...
[nltk_data]   Unzipping corpora/brown.zip.
True
>>> from nltk.corpus import brown
>>> brown.words()
['The', 'Fulton', 'County', 'Grand', 'Jury', 'said', ...]
>>> 

12

È possibile risolvere questo problema senza modificare il codice sorgente. Crea un downloader personalizzato in Python:

>>> dl = nltk.downloader.Downloader("http://nltk.github.com/nltk_data/")

quindi si apre una finestra di dialogo della GUI:

>>> dl.download()

Verifica di avere accesso in scrittura alla directory di download e scarica ciò di cui hai bisogno.


0
pip install nltk --upgrade

Questo aggiorna nltk e quindi nltk.download()funziona di nuovo.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.