Risposta breve :
Usa Delimiter='/'
. Questo evita di fare un elenco ricorsivo del tuo bucket. Alcune risposte qui suggeriscono erroneamente di fare un elenco completo e di utilizzare alcune manipolazioni di stringhe per recuperare i nomi delle directory. Questo potrebbe essere orribilmente inefficiente. Ricorda che S3 non ha praticamente limiti al numero di oggetti che un bucket può contenere. Quindi, immagina che, tra bar/
e foo/
, hai un trilione di oggetti: aspetteresti molto tempo per ottenere ['bar/', 'foo/']
Usa Paginators
. Per lo stesso motivo (S3 è l'approssimazione dell'infinito di un ingegnere), è necessario elencare le pagine ed evitare di memorizzare tutto l'elenco in memoria. Considera invece il tuo "lister" come un iteratore e gestisci il flusso che produce.
Usa boto3.client
, no boto3.resource
. La resource
versione non sembra gestire bene l' Delimiter
opzione. Se si dispone di una risorsa, diciamo una bucket = boto3.resource('s3').Bucket(name)
, è possibile ottenere il cliente corrispondente: bucket.meta.client
Risposta lunga :
Quello che segue è un iteratore che utilizzo per bucket semplici (nessuna gestione della versione).
import boto3
from collections import namedtuple
from operator import attrgetter
S3Obj = namedtuple('S3Obj', ['key', 'mtime', 'size', 'ETag'])
def s3list(bucket, path, start=None, end=None, recursive=True, list_dirs=True,
list_objs=True, limit=None):
Iterator that lists a bucket's objects under path, (optionally) starting with
start and ending before end.
If recursive is False, then list only the "depth=0" items (dirs and objects).
If recursive is True, then list recursively all objects (no dirs).
a boto3.resource('s3').Bucket().
a directory in the bucket.
optional: start key, inclusive (may be a relative path under path, or
absolute in the bucket)
optional: stop key, exclusive (may be a relative path under path, or
absolute in the bucket)
optional, default True. If True, lists only objects. If False, lists
only depth 0 "directories" and objects.
optional, default True. Has no effect in recursive listing. On
non-recursive listing, if False, then directories are omitted.
optional, default True. If False, then directories are omitted.
optional. If specified, then lists at most this many items.
an iterator of S3Obj.
# set up
>>> s3 = boto3.resource('s3')
... bucket = s3.Bucket(name)
# iterate through all S3 objects under some dir
>>> for p in s3ls(bucket, 'some/dir'):
... print(p)
# iterate through up to 20 S3 objects under some dir, starting with foo_0010
>>> for p in s3ls(bucket, 'some/dir', limit=20, start='foo_0010'):
... print(p)
# non-recursive listing under some dir:
>>> for p in s3ls(bucket, 'some/dir', recursive=False):
... print(p)
# non-recursive listing under some dir, listing only dirs:
>>> for p in s3ls(bucket, 'some/dir', recursive=False, list_objs=False):
... print(p)
kwargs = dict()
if start is not None:
if not start.startswith(path):
start = os.path.join(path, start)
if end is not None:
if not end.startswith(path):
end = os.path.join(path, end)
if not recursive:
if not path.endswith('/'):
path += '/'
if limit is not None:
kwargs.update(PaginationConfig={'MaxItems': limit})
paginator = bucket.meta.client.get_paginator('list_objects')
for resp in paginator.paginate(Bucket=bucket.name, **kwargs):
q = []
if 'CommonPrefixes' in resp and list_dirs:
q = [S3Obj(f['Prefix'], None, None, None) for f in resp['CommonPrefixes']]
if 'Contents' in resp and list_objs:
q += [S3Obj(f['Key'], f['LastModified'], f['Size'], f['ETag']) for f in resp['Contents']]
q = sorted(q, key=attrgetter('key'))
if limit is not None:
q = q[:limit]
limit -= len(q)
for p in q:
if end is not None and p.key >= end:
yield p
def __prev_str(s):
if len(s) == 0:
return s
s, c = s[:-1], ord(s[-1])
if c > 0:
s += chr(c - 1)
s += ''.join(['\u7FFF' for _ in range(10)])
return s
Prova :
Quanto segue è utile per testare il comportamento di paginator
e list_objects
. Crea una serie di directory e file. Poiché le pagine contengono fino a 1000 voci, ne utilizziamo un multiplo per directory e file. dirs
contiene solo directory (ciascuna con un oggetto). mixed
contiene un mix di directory e oggetti, con un rapporto di 2 oggetti per ogni directory (più un oggetto sotto dir, ovviamente; S3 memorizza solo gli oggetti).
import concurrent
def genkeys(top='tmp/test', n=2000):
for k in range(n):
if k % 100 == 0:
for name in [
os.path.join(top, 'dirs', f'{k:04d}_dir', 'foo'),
os.path.join(top, 'mixed', f'{k:04d}_dir', 'foo'),
os.path.join(top, 'mixed', f'{k:04d}_foo_a'),
os.path.join(top, 'mixed', f'{k:04d}_foo_b'),
yield name
with concurrent.futures.ThreadPoolExecutor(max_workers=32) as executor:
executor.map(lambda name: bucket.put_object(Key=name, Body='hi\n'.encode()), genkeys())
La struttura risultante è:
Con un po 'di dottorato del codice sopra dato per s3list
ispezionare le risposte dal paginator
, puoi osservare alcuni fatti divertenti:
La Marker
è davvero esclusiva. Dato Marker=topdir + 'mixed/0500_foo_a'
farà iniziare l'elenco dopo quella chiave (come per l' API AmazonS3 ), cioè con .../mixed/0500_foo_b
. Questo è il motivo __prev_str()
Utilizzando Delimiter
, quando si elenca mixed/
, ogni risposta dal paginator
contiene 666 chiavi e 334 prefissi comuni. È abbastanza bravo a non creare risposte enormi.
Al contrario, quando si elenca dirs/
, ogni risposta dal paginator
contiene 1000 prefissi comuni (e nessuna chiave).
Il superamento di un limite sotto forma di PaginationConfig={'MaxItems': limit}
limiti solo il numero di chiavi, non i prefissi comuni. Ci occupiamo di questo troncando ulteriormente il flusso del nostro iteratore.