Quali sono le differenze fondamentali tra code e pipe nel pacchetto multiprocessore di Python ?
In quali scenari si dovrebbe scegliere l'uno rispetto all'altro? Quando è vantaggioso da usare Pipe()
? Quando è vantaggioso da usare Queue()
?
Quali sono le differenze fondamentali tra code e pipe nel pacchetto multiprocessore di Python ?
In quali scenari si dovrebbe scegliere l'uno rispetto all'altro? Quando è vantaggioso da usare Pipe()
? Quando è vantaggioso da usare Queue()
?
Risposte:
Quando usarli
Se sono necessari più di due punti per comunicare, utilizzare a Queue()
.
Se hai bisogno di prestazioni assolute, a Pipe()
è molto più veloce perché Queue()
è costruito sopra Pipe()
.
Benchmarking delle prestazioni
Supponiamo che tu voglia generare due processi e inviare messaggi tra loro il più rapidamente possibile. Questi sono i risultati di cronometraggio di una gara di resistenza tra test simili usando Pipe()
e Queue()
... Questo è su un ThinkpadT61 con Ubuntu 11.10 e Python 2.7.2.
Cordiali saluti, ho lanciato i risultati JoinableQueue()
come bonus; JoinableQueue()
tiene conto delle attività quando queue.task_done()
viene chiamato (non conosce nemmeno l'attività specifica, conta solo le attività non completate nella coda), in modo che queue.join()
sappia che il lavoro è finito.
Il codice per ciascuno in fondo a questa risposta ...
mpenning@mpenning-T61:~$ python multi_pipe.py
Sending 10000 numbers to Pipe() took 0.0369849205017 seconds
Sending 100000 numbers to Pipe() took 0.328398942947 seconds
Sending 1000000 numbers to Pipe() took 3.17266988754 seconds
mpenning@mpenning-T61:~$ python multi_queue.py
Sending 10000 numbers to Queue() took 0.105256080627 seconds
Sending 100000 numbers to Queue() took 0.980564117432 seconds
Sending 1000000 numbers to Queue() took 10.1611330509 seconds
mpnening@mpenning-T61:~$ python multi_joinablequeue.py
Sending 10000 numbers to JoinableQueue() took 0.172781944275 seconds
Sending 100000 numbers to JoinableQueue() took 1.5714070797 seconds
Sending 1000000 numbers to JoinableQueue() took 15.8527247906 seconds
mpenning@mpenning-T61:~$
In sintesi Pipe()
è circa tre volte più veloce di a Queue()
. Non pensare nemmeno a JoinableQueue()
meno che tu non debba davvero avere i benefici.
MATERIALE BONUS 2
Il multiprocessing introduce sottili cambiamenti nel flusso di informazioni che rendono difficile il debug a meno che non si conoscano alcune scorciatoie. Ad esempio, potresti avere uno script che funziona bene quando si indicizza un dizionario in molte condizioni, ma raramente fallisce con determinati input.
Normalmente otteniamo indizi sull'errore quando l'intero processo di Python si arresta in modo anomalo; tuttavia, non si ottengono tracce di crash non richieste stampate sulla console se la funzione multiprocessore si arresta in modo anomalo. È difficile rintracciare gli arresti anomali del multiprocessing senza avere la minima idea di cosa abbia provocato l'arresto anomalo del processo.
Il modo più semplice che ho trovato per rintracciare le informazioni sull'arresto anomalo del multiprocessing è avvolgere l'intera funzione multiprocessing in un try
/ except
e usare traceback.print_exc()
:
import traceback
def run(self, args):
try:
# Insert stuff to be multiprocessed here
return args[0]['that']
except:
print "FATAL: reader({0}) exited while multiprocessing".format(args)
traceback.print_exc()
Ora, quando trovi un incidente, vedi qualcosa del tipo:
FATAL: reader([{'crash': 'this'}]) exited while multiprocessing
Traceback (most recent call last):
File "foo.py", line 19, in __init__
self.run(args)
File "foo.py", line 46, in run
KeyError: 'that'
Codice sorgente:
"""
multi_pipe.py
"""
from multiprocessing import Process, Pipe
import time
def reader_proc(pipe):
## Read from the pipe; this will be spawned as a separate Process
p_output, p_input = pipe
p_input.close() # We are only reading
while True:
msg = p_output.recv() # Read from the output pipe and do nothing
if msg=='DONE':
break
def writer(count, p_input):
for ii in xrange(0, count):
p_input.send(ii) # Write 'count' numbers into the input pipe
p_input.send('DONE')
if __name__=='__main__':
for count in [10**4, 10**5, 10**6]:
# Pipes are unidirectional with two endpoints: p_input ------> p_output
p_output, p_input = Pipe() # writer() writes to p_input from _this_ process
reader_p = Process(target=reader_proc, args=((p_output, p_input),))
reader_p.daemon = True
reader_p.start() # Launch the reader process
p_output.close() # We no longer need this part of the Pipe()
_start = time.time()
writer(count, p_input) # Send a lot of stuff to reader_proc()
p_input.close()
reader_p.join()
print("Sending {0} numbers to Pipe() took {1} seconds".format(count,
(time.time() - _start)))
"""
multi_queue.py
"""
from multiprocessing import Process, Queue
import time
import sys
def reader_proc(queue):
## Read from the queue; this will be spawned as a separate Process
while True:
msg = queue.get() # Read from the queue and do nothing
if (msg == 'DONE'):
break
def writer(count, queue):
## Write to the queue
for ii in range(0, count):
queue.put(ii) # Write 'count' numbers into the queue
queue.put('DONE')
if __name__=='__main__':
pqueue = Queue() # writer() writes to pqueue from _this_ process
for count in [10**4, 10**5, 10**6]:
### reader_proc() reads from pqueue as a separate process
reader_p = Process(target=reader_proc, args=((pqueue),))
reader_p.daemon = True
reader_p.start() # Launch reader_proc() as a separate python process
_start = time.time()
writer(count, pqueue) # Send a lot of stuff to reader()
reader_p.join() # Wait for the reader to finish
print("Sending {0} numbers to Queue() took {1} seconds".format(count,
(time.time() - _start)))
"""
multi_joinablequeue.py
"""
from multiprocessing import Process, JoinableQueue
import time
def reader_proc(queue):
## Read from the queue; this will be spawned as a separate Process
while True:
msg = queue.get() # Read from the queue and do nothing
queue.task_done()
def writer(count, queue):
for ii in xrange(0, count):
queue.put(ii) # Write 'count' numbers into the queue
if __name__=='__main__':
for count in [10**4, 10**5, 10**6]:
jqueue = JoinableQueue() # writer() writes to jqueue from _this_ process
# reader_proc() reads from jqueue as a different process...
reader_p = Process(target=reader_proc, args=((jqueue),))
reader_p.daemon = True
reader_p.start() # Launch the reader process
_start = time.time()
writer(count, jqueue) # Send a lot of stuff to reader_proc() (in different process)
jqueue.join() # Wait for the reader to finish
print("Sending {0} numbers to JoinableQueue() took {1} seconds".format(count,
(time.time() - _start)))
Un'altra caratteristica Queue()
degna di nota è il filo dell'alimentatore. Questa sezione indica "Quando un processo inserisce per la prima volta un elemento nella coda, viene avviato un thread di alimentazione che trasferisce gli oggetti da un buffer nel pipe". È possibile inserire un numero infinito di (o dimensioni massime) di elementi Queue()
senza chiamate al queue.put()
blocco. Ciò consente di archiviare più elementi in un Queue()
, fino a quando il programma non è pronto per elaborarli.
Pipe()
d'altra parte, ha una quantità limitata di spazio di archiviazione per gli articoli che sono stati inviati a una connessione, ma che non sono stati ricevuti dall'altra connessione. Dopo aver esaurito questo spazio di archiviazione, le chiamate a connection.send()
verranno bloccate fino a quando non c'è spazio per scrivere l'intero elemento. Questo bloccherà il thread facendo la scrittura fino a quando un altro thread non legge dalla pipe. Connection
gli oggetti ti danno accesso al descrittore di file sottostante. Sui sistemi * nix, è possibile impedire il connection.send()
blocco delle chiamate utilizzando ilos.set_blocking()
funzione. Tuttavia, ciò provocherà problemi se si tenta di inviare un singolo elemento che non si adatta al file della pipe. Le versioni recenti di Linux consentono di aumentare le dimensioni di un file, ma le dimensioni massime consentite variano in base alle configurazioni di sistema. Pertanto non dovresti mai fare affidamento sui Pipe()
dati del buffer. Chiamate aconnection.send
potrebbe bloccare fino a quando i dati non vengono letti dalla pipe da qualche altra parte.
In conclusione, la coda è una scelta migliore rispetto alla pipe quando è necessario bufferizzare i dati. Anche quando devi solo comunicare tra due punti.