Fai attenzione al sovradimensionamento . Un modello più accurato dei dati raccolti da un sistema potrebbe non essere un fattore predittivo migliore del comportamento futuro di un sistema.
L'immagine sopra mostra due modelli di alcuni dati.
La linea lineare è in qualche modo accurata sui dati di allenamento (i punti sul grafico) e (ci si aspetterebbe) sarà in qualche modo accurata sui dati di prova (dove è probabile che i punti siano per x <5 e x> -5 ).
Al contrario, il polinomio è accurato al 100% per i dati di allenamento, ma (a meno che non abbiate motivo di credere che il polinomio di 9 ° grado sia ragionevole per qualche motivo fisico), assumereste che questo sarà un predittore estremamente scarso per x> 5 e x <-5.
Il modello lineare è "meno accurato", basato su qualsiasi confronto di errori con i dati che abbiamo raccolto. Ma è più generalizzabile.
Inoltre, gli ingegneri devono preoccuparsi di meno del proprio modello e di ciò che le persone faranno del modello.
Se ti dico che faremo una passeggiata in una giornata calda e che dovrebbe durare 426 minuti. È probabile che porti meno acqua rispetto a quando ti dico che la camminata durerà 7 ore e anche meno che se dico che la camminata durerà 4-8 ore. Questo perché stai rispondendo al mio livello implicito di fiducia nelle mie previsioni, piuttosto che al punto medio dei miei tempi indicati.
Se dai alle persone un modello preciso, le persone ridurranno il loro margine di errore. Ciò comporta maggiori rischi.
Facendo la passeggiata in un giorno caldo esempio, se so che la camminata richiederà 4-8 ore nel 95% dei casi, con qualche incertezza sulla navigazione e sulla velocità della camminata. Conoscere perfettamente la nostra velocità di camminata diminuirà l'incertezza della figura 4-8, ma non influenzerà in modo significativo la "possibilità che prendiamo così tanto tempo che l'acqua diventa un problema", perché questo è guidato quasi interamente dalla navigazione incerta, non l'incerta velocità di camminata.