Ottimizzazione di query su database di grandi dimensioni (oltre 25 milioni di righe, utilizzando max () e GROUP BY)


Sto usando Postgres 9.3.5 e ho una grande tabella nel database, attualmente ha oltre 25 milioni di righe e tende a diventare ancora più grande rapidamente. Sto cercando di selezionare righe specifiche (tutte unit_idcon solo le ultime unit_timestampper ognuna di esse) con una semplice query come:

SELECT unit_id, max(unit_timestamp) AS latest_timestamp FROM all_units GROUP BY unit_id;

Senza alcun indice, l'esecuzione di questa query richiede circa 35 secondi. Con un indice definito (CREATE INDEX partial_idx ON all_units (unit_id, unit_timestamp DESC); ) il tempo di interrogazione è ridotto a circa (solo) 19 secondi.

Mi chiedo se sarà mai possibile eseguire la mia query in ancora meno tempo (come solo pochi secondi) e in tal caso, quali passi devo prendere per ottimizzarla ulteriormente?

Il dump della struttura della tabella è simile al seguente:

CREATE TABLE "all_units" (
"unit_id" int4 NOT NULL,
"unit_timestamp" timestamp(6) NOT NULL,
"lon" float4,
"lat" float4,
"speed" float4,
"status" varchar(255) COLLATE "default"
ALTER TABLE "all_units" ADD PRIMARY KEY ("unit_id", "unit_timestamp");


HashAggregate  (cost=663998.38..664069.73 rows=7135 width=12) (actual time=84715.050..84732.021 rows=11094 loops=1)
  Buffers: shared hit=192 read=286819
  ->  Seq Scan on ais_sorted  (cost=0.00..538335.92 rows=25132492 width=12) (actual time=0.608..41264.196 rows=25132492 loops=1)
        Buffers: shared hit=192 read=286819
Total runtime: 84746.501 ms

e le mie impostazioni psql sul server si presentano così:

Hai davvero bisogno di TUTTI i unit_ids? Perché una clausola WHERE sarebbe di aiuto.

Sfortunatamente ne ho bisogno TUTTI, e per peggiorare le cose, in questo momento ottengo "solo" 11000+ unità in cambio, ma in futuro credo che ce ne saranno 5-10 volte di più.

Prova SELECT DISTINCT ON (unit_id),unit_timestamp FROM t ORDER BY unit_timestamp DESCUn indice separato su unit_timestamp sarebbe di aiuto.

la vista materializzata è un'opzione?

Hm, non sapevo affatto delle opinioni materializzate. Proverò a crearne uno e vedrò se sarebbe utile!




La tua query è costretta a scansionare l'intera tabella (o l'intero indice). Ogni riga potrebbe essere un'altra unità distinta. L'unico modo per abbreviare sostanzialmente il processo sarebbe una tabella separata con tutte le unità disponibili, il che aiuterebbe fino a quando ci saranno sostanzialmente meno unità rispetto alle voci all_units.
Dato che hai ~ 11k unità (aggiunte nel commento) per 25 milioni di voci, questo dovrebbe sicuramente aiutare.

A seconda delle frequenze dei valori, ci sono un paio di tecniche di query per ottenere un risultato considerevolmente più veloce:

  • CTE ricorsivo
  • subquery correlata

Dettagli in questa risposta correlata su SO:

È necessario solo l'indice implicito della chiave primaria (unit_id, unit_timestamp), questa query dovrebbe fare il trucco, usando un implicito JOIN LATERAL:

SELECT u.unit_id, a.max_ts
FROM unit u
  , (SELECT unit_timestamp AS max_ts
     FROM   all_units
     WHERE  unit_id = u.unit_id
     ORDER  BY unit_timestamp DESC
     LIMIT  1
     ) a;

Esclude le unità senza accesso all_units, come la query originale.
O una subquery poco correlata (probabilmente anche più veloce):

SELECT u.unit_id
    , (SELECT unit_timestamp
       FROM   all_units
       WHERE  unit_id = u.unit_id
       ORDER  BY unit_timestamp DESC
       LIMIT  1) AS max_ts
FROM unit u;

Include unità senza accesso all_units.

L'efficienza dipende dal numero di voci per unità . Più voci, maggiore è il potenziale per una di queste query.

In un rapido test locale con tabelle simili (500 "unità", 1 milione di righe in una tabella grande), la query con subquery correlate era ~ 500 volte più veloce dell'originale. Scansioni solo dell'indice sull'indice PK della tabella grande rispetto alla scansione sequenziale nella query originale.

Dal momento che la tabella tends to get even larger rapidly, una vista materializzata non è probabilmente un'opzione.

Esiste anche DISTINCT ONun'altra tecnica di query possibile, ma difficilmente sarà più veloce della query originale, quindi non la risposta che stai cercando. Dettagli qui:


Il tuo partial_idx:

CREATE INDEX partial_idx ON all_units (unit_id, unit_timestamp DESC);

in realtà non è un indice parziale e anche ridondante. Postgres può scansionare gli indici all'indietro praticamente alla stessa velocità, il PK serve bene. Far cadere questo indice aggiuntivo.

Layout della tabella

Un paio di punti per la definizione della tabella.

CREATE TABLE all_units (
unit_timestamp timestamp,
unit_id int4,
lon     float4,
lat     float4,
speed   float4,
status  varchar(255),   -- might be improved.
PRIMARY KEY (unit_id, unit_timestamp)
  • timestamp(6)non ha molto senso, è effettivamente lo stesso di solo timestamp, che consente di salvare un massimo di 6 cifre frazionarie.

  • Ho cambiato posizione delle prime due colonne per salvare 4 byte di riempimento, che equivale a ~ 100 MB per 25 milioni di righe (il risultato esatto dipende da status). Le tabelle più piccole sono in genere più veloci per tutto.

  • Se statusnon è testo libero, ma una sorta di nota standardizzata, è possibile sostituirlo con qualcosa di molto più economico. Maggiori informazioni varchar(255)su Postgres .

Configurazione del server

Devi configurare il tuo server. La maggior parte delle impostazioni sembrano essere impostazioni predefinite conservative. 1 MB attivo shared_bufferso work_memsembra troppo basso per un'installazione con milioni di righe. Ed random_pare_cost = 4è troppo alto per qualsiasi sistema moderno con molta RAM. Inizia con il manuale e il Wiki di Postgres:

Per completezza, dovresti aggiungere il DISTINCT ONmthod nell'elenco delle tecniche di query per questo problema (ovviamente se OP vuole mostrare tutte le righe come sostiene, e non solo le 2 colonne come mostra il codice)

@ypercube: per completezza, sì. Ma difficilmente sarà più veloce. Non è la risposta che l'OP sta cercando.
Erwin Brandstetter,

Potresti elaborare come un CTE ricorsivo sarà più veloce (o addirittura: come risolverebbe il problema in primo luogo - Non ho mai pensato ai CTE ricorsivi per un problema "massimo")

@Mihai: no, ha solo una scansione dell'indice bitmap (ovvero genera l'indice bitmap "al volo")

@ErwinBrandstetter ALRIGHT! Prima di tutto grazie mille per questa risposta elaborata, è stato estremamente utile, non posso spiegarti quanto! :) In secondo luogo, la tua query (la seconda) è FANTASTICA! Il tempo di interrogazione è ora di circa 0,2 secondi !!! :) Ho provato anche a giocare con la prima query ma non sono riuscito a risolvere l'errore che ho riscontrato: invalid reference to FROM-clause entry for table "u"in questa WHEREclausola nella query interna. Mi dispiace, ma non sono così bravo con i database, quindi non ho oppresso la mia testa poiché la seconda query mi ha già aiutato molto.
