Ecco la mia tabella con ~ 10.000.000 di righe di dati
CREATE TABLE `votes` (
`subject_name` varchar(32) COLLATE utf8_unicode_ci NOT NULL,
`subject_id` int(11) NOT NULL,
`voter_id` int(11) NOT NULL,
`rate` int(11) NOT NULL,
`updated_at` timestamp NOT NULL DEFAULT CURRENT_TIMESTAMP,
PRIMARY KEY (`subject_name`,`subject_id`,`voter_id`),
KEY `IDX_518B7ACFEBB4B8AD` (`voter_id`),
KEY `subject_timestamp` (`subject_name`,`subject_id`,`updated_at`),
KEY `voter_timestamp` (`voter_id`,`updated_at`),
CONSTRAINT `FK_518B7ACFEBB4B8AD` FOREIGN KEY (`voter_id`) REFERENCES `users` (`id`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8 COLLATE=utf8_unicode_ci;
Ecco le cardinalità degli indici
Quindi quando faccio questa domanda:
SELECT SQL_NO_CACHE * FROM votes WHERE
voter_id = 1099 AND
rate = 1 AND
subject_name = 'medium'
ORDER BY updated_at DESC
LIMIT 20 OFFSET 100;
Mi aspettavo che usasse l'indice voter_timestamp
ma mysql ha scelto di usare questo invece:
explain select SQL_NO_CACHE * from votes where subject_name = 'medium' and voter_id = 1001 and rate = 1 order by updated_at desc limit 20 offset 100;`
type:
index_merge
possible_keys:
PRIMARY,IDX_518B7ACFEBB4B8AD,subject_timestamp,voter_timestamp
key:
IDX_518B7ACFEBB4B8AD,PRIMARY
key_len:
102,98
ref:
NULL
rows:
9255
filtered:
10.00
Extra:
Using intersect(IDX_518B7ACFEBB4B8AD,PRIMARY); Using where; Using filesort
E ho ottenuto un tempo di interrogazione di 200-400 ms.
Se lo costringo a usare l'indice giusto come:
SELECT SQL_NO_CACHE * FROM votes USE INDEX (voter_timestamp) WHERE
voter_id = 1099 AND
rate = 1 AND
subject_name = 'medium'
ORDER BY updated_at DESC
LIMIT 20 OFFSET 100;
Mysql può restituire i risultati in 1-2ms
ed ecco la spiegazione:
type:
ref
possible_keys:
voter_timestamp
key:
voter_timestamp
key_len:
4
ref:
const
rows:
18714
filtered:
1.00
Extra:
Using where
Allora perché mysql non ha scelto l' voter_timestamp
indice per la mia query originale?
Quello che avevo provato è analyze table votes
, optimize table votes
eliminare quell'indice e aggiungerlo di nuovo, ma mysql utilizza ancora l'indice errato. non capisco bene qual è il problema.
(voter_id, updated_at)
. Un altro indice sarebbe (voter_id, subject_name, updated_at)
o (subject_name, voter_id, updated_at)
(senza il tasso).
subject_name='medium' and rate=1
)
LIMIT
o addirittura a ORDER BY
meno che l'indice non soddisfi prima tutti i filtri. Cioè, senza le 4 colonne complete, raccoglierà tutte le righe pertinenti, le ordinerà tutte, quindi sceglierà LIMIT
. Con l'indice a 4 colonne, la query può evitare l'ordinamento e arrestarsi dopo aver letto solo le LIMIT
righe.
subject_name = "medium"
parte può anche scegliere l'indice giusto, non c'è bisogno di indicizzarerate