Vorrei codificare un cluster di kmean in Python usando Panda e Scikit Learn. Per selezionare il buon k, vorrei codificare la statistica del gap da Tibshirani e al 2001 ( pdf ).
Vorrei sapere se potevo usare il risultato di inerzia di scikit e adattare la formula statistica del gap senza dover ricodificare il calcolo di tutte le distanze.
Qualcuno conosce la formula di inerzia utilizzata in scikit / conosce un modo semplice per ricodificare la statistica del gap usando funzioni di distanza di alto livello?
python
.