Attualmente sto cercando di eseguire alcune query su un dump di dati dei commenti di Stack Overflow. Ecco come appare lo schema:
CREATE TABLE `socomments` (
`Id` int(11) NOT NULL,
`PostId` int(11) NOT NULL,
`Score` int(11) DEFAULT NULL,
`Text` varchar(600) NOT NULL,
`CreationDate` timestamp NOT NULL DEFAULT CURRENT_TIMESTAMP ON UPDATE CURRENT_TIMESTAMP,
`UserId` int(11) NOT NULL,
PRIMARY KEY (`Id`),
KEY `idx_socomments_PostId` (`PostId`),
KEY `CreationDate` (`CreationDate`),
FULLTEXT KEY `Text` (`Text`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8
Ho eseguito questa query sul tavolo e ha funzionato incredibilmente lentamente (ha 29 milioni di righe, ma ha un indice full-text):
SELECT *
FROM socomments
WHERE MATCH (Text) AGAINST ('"fixed the post"' IN BOOLEAN MODE)
Quindi l'ho profilato, i cui risultati sono:
|| Status || Duration ||
|| starting || 0.000058 ||
|| checking permissions || 0.000006 ||
|| Opening tables || 0.000014 ||
|| init || 0.000019 ||
|| System lock || 0.000006 ||
|| optimizing || 0.000007 ||
|| statistics || 0.000013 ||
|| preparing || 0.000005 ||
|| FULLTEXT initialization || 207.1112 ||
|| executing || 0.000009 ||
|| Sending data || 0.000856 ||
|| end || 0.000004 ||
|| query end || 0.000004 ||
|| closing tables || 0.000006 ||
|| freeing items || 0.000059 ||
|| logging slow query || 0.000037 ||
|| cleaning up || 0.000046 ||
Come puoi vedere, trascorre molto tempo nell'inizializzazione FULLTEXT. È normale? In caso contrario, come lo riparerei?
id_group 2
eid_group 23
. Con questo la tua ricerca all'interno della tabella principale e limita la tua query agli intervalli di ID da 2.000 a 2.999 e da 23.000 a 23.999. Ovviamente il secondo otterrà più risultati se necessario mescolando tutti i commenti creando nuove combinazioni di parole chiave, ma alla fine dovrebbe accelerare il tutto. Ovviamente raddoppia l'utilizzo dello spazio su disco. I nuovi commenti dovrebbero essere CONCAT'di tabella del gruppo.