Per iniziare, suggerirei che di solito è bene diffidare delle affermazioni che ce n'è solo unamodo di fare qualcosa. Dividere un campione ottenuto in un "training" e un set di dati "testing" è un approccio comune in molte applicazioni di machine learning / data science. Spesso, questi approcci di modellizzazione sono meno interessati ai test di ipotesi su un processo di generazione dei dati sottostante, vale a dire che tendono ad essere in qualche modo ateorici. In realtà, per lo più questo tipo di divisioni di training / test vuole solo vedere se il modello è troppo adatto in termini di prestazioni predittive. Naturalmente, è anche possibile utilizzare un approccio di addestramento / test per vedere se un determinato modello si replica in termini di parametri "significativi" o per vedere se le stime dei parametri rientrano negli intervalli previsti in entrambi i casi.
In teoria, convalidare o invalidare i modelli è ciò che la scienza, scritta in grande, dovrebbe fare. Ricercatori indipendenti, che esaminano, generano e testano separatamente ipotesi che supportano o confutano argomenti su una teoria sul perché o in quali circostanze si verifichi un fenomeno osservabile - questa è l'impresa scientifica in un guscio di noce (o almeno in una frase troppo lunga). Quindi, per rispondere alla tua domanda, anche a me le divisioni di addestramento / test non "convalidano" un modello. Questo è qualcosa che prende il peso di anni di prove accumulate da più ricercatori indipendenti che studiano lo stesso insieme di fenomeni. Tuttavia, garantirò che questa interpretazione potrebbe essere una differenza nella semantica su ciò che intendo convalidare il modello rispetto a ciò che il termine convalida ha significato nelle impostazioni applicate ...
A seconda dei dati e dell'approccio alla modellazione, potrebbe non essere sempre appropriato dal punto di vista statistico suddividere il campione in set di addestramento e test. Ad esempio, a piccoli campioni può essere particolarmente difficile applicare questo approccio. Inoltre, alcune distribuzioni possono avere determinate proprietà che le rendono difficili da modellare anche con campioni relativamente grandi. Il tuo caso a gonfiaggio zero probabilmente si adatta a quest'ultima descrizione. Se l'obiettivo è di ottenere un'approssimazione della "verità" su un insieme di relazioni o processi sottostanti ritenuti responsabili di alcuni fenomeni, non sarete ben serviti adottando consapevolmente un approccio sottovalutato per testare una determinata ipotesi. Quindi forse il primo passo è quello di eseguire un'analisi di potenza per vedere se è probabile che tu possa replicare la constatazione di interesse nei tuoi dati sottoposti a sottoinsiemi.
Un'altra opzione è quella di specificare diversi modelli per vedere se "meglio" spiegano i dati osservati. L'obiettivo qui sarebbe quello di identificare il modello migliore tra una serie di alternative ragionevoli. Questo è un argomento relativo, non assoluto, che faresti sul tuo modello. In sostanza, stai ammettendo che potrebbero esserci altri modelli che potrebbero essere postulati per spiegare i tuoi dati, ma il tuo modello è il migliore dell'insieme testato di alternative (almeno lo speri). Tutti i modelli nel set, incluso il tuo modello ipotizzato, dovrebbero essere teoricamente fondati; altrimenti corri il rischio di creare un gruppo di uomini statistici di paglia.
Esistono anche fattori di Bayes in cui è possibile calcolare il peso delle prove fornite dal modello, dati i dati, per un'ipotesi specifica relativa a scenari alternativi.
Questo è ben lungi dall'essere un elenco esaustivo di opzioni, ma spero che sia di aiuto. Scendo dalla soapbox ora. Ricorda solo che ogni modello in ogni studio pubblicato sul comportamento umano non è corretto. Ci sono quasi sempre variabili omesse rilevanti, interazioni non modellate, popolazioni campionate in modo imperfetto e un semplice errore di campionamento in atto che offusca la verità sottostante.