Una strategia di potenziamento può migliorare le prestazioni del tuo modello, quindi vale la pena provare. Per quanto riguarda l'apprendimento incrementale / online, non sono a conoscenza di alcun pacchetto in R che lo implementa (altri, per favore correggimi se sbaglio). In Scikit Learn ci sono classificatori fuori dal core che consentono l'apprendimento incrementale. Tuttavia, se sei legato all'utilizzo di R, potresti non avere altra scelta che scrivere il tuo modello incrementale. In entrambi i casi, esaminando i classificatori out-of-core di Scikit Learn potresti darti un'idea di dove iniziare.
Un altro dettaglio da tenere presente è la misura in cui l'aggiornamento del modello su un singolo falso positivo o falso negativo migliorerà le prestazioni del modello. Nel campo della frode, ci sono generalmente da migliaia a milioni di volte più casi di non frode rispetto alla frode. Pertanto, è importante cercare di imparare a discriminare correttamente ogni istanza di frode, ma l'aggiornamento di un modello su una singola istanza di frode probabilmente non modificherà il modello in modo significativo. Prendi in considerazione altre strategie per far sì che il modello attribuisca maggiore rilevanza alle istanze di frode.
Il modo più semplice per migliorare il tuo modello supervisionato, basato sul feedback degli investigatori umani sarebbe quello di costruire un modello separato dalle istanze corrette (cioè le istanze previste in modo errato che sono state correttamente etichettate). Potresti quindi far votare i tuoi due modelli sulla classificazione delle istanze future aggregando le loro iscrizioni alle classi previste. Ad esempio, ModelA può ritenere che Instance1 sia [Frode: 0,65, non fraudolento: 0,35], mentre ModelB ritiene che Instance1 sia [Frode: 0,47, Non fraudolento: 0,53]. La previsione dell'ensemble sarebbe quindi [Frode: (0.65 + 0.47) /2=0.56, Non frode: (0.35 + 0.53) /2=0.44].
Se il modello originale ha prestazioni migliori del caso, il numero di istanze che classifica correttamente sarà maggiore del numero erroneamente classificato. Pertanto, non si desidera attribuire lo stesso peso ai modelli se vengono addestrati su un numero sproporzionato di istanze. Esistono due semplici opzioni per gestire questa disparità: 1) attendere fino a quando non si accumulano abbastanza istanze corrette per approssimare circa il numero su cui è stato addestrato il modello originale, oppure 2) assegnare peso a ciascun modello in base alle prestazioni del modello su un set di validazione.