Come giustamente notate, in questi giorni i "big data" sono qualcosa che tutti vogliono dire di avere, il che comporta una certa scioltezza nel modo in cui le persone definiscono il termine. In generale, però, direi che hai sicuramente a che fare con i big data se la scala è tale che non è più possibile gestirli con tecnologie più tradizionali come RDBMS, almeno senza completarli con tecnologie per big data come Hadoop.
Quanto siano grandi i tuoi dati per essere veri è discutibile. Ecco un post sul blog (un po 'provocatorio) che afferma che non è proprio il caso di meno di 5 TB di dati. (Per essere chiari, non si afferma che "Meno di 5 TB non è un grosso dato", ma solo "Meno di 5 TB non è abbastanza grande da aver bisogno di Hadoop".)
Ma anche su set di dati più piccoli, le tecnologie di big data come Hadoop possono avere altri vantaggi, tra cui essere adatti alle operazioni batch, giocare bene con dati non strutturati (così come i dati la cui struttura non è nota in anticipo o potrebbe cambiare), scalabilità orizzontale ( ridimensionamento aggiungendo più nodi invece di rinforzare i server esistenti) e (come uno dei commentatori delle note di post collegate sopra) la possibilità di integrare l'elaborazione dei dati con set di dati esterni (pensate a una riduzione della mappa in cui il mappatore effettua una chiamata a un altro server). Altre tecnologie associate ai big data, come i database NoSql, enfatizzano le prestazioni veloci e la disponibilità costante mentre si occupano di grandi insiemi di dati, oltre a essere in grado di gestire dati semi-non strutturati e ridimensionare in orizzontale.
Naturalmente, i RDBMS tradizionali hanno i loro vantaggi, tra cui le garanzie ACID (Atomicità, Coerenza, Isolamento, Durabilità) e prestazioni migliori per determinate operazioni, oltre ad essere più standardizzate, più mature e (per molti utenti) più familiari. Quindi, anche per i dati "grandi" indiscutibilmente, può avere senso caricare almeno una parte dei dati in un database SQL tradizionale e utilizzarli insieme alle tecnologie dei big data.
Pertanto, una definizione più generosa sarebbe che si dispone di big data a condizione che sia sufficientemente grande che le tecnologie di big data offrano un valore aggiunto per te. Ma come puoi vedere, ciò può dipendere non solo dalla dimensione dei tuoi dati ma da come vuoi lavorare con essi e che tipo di requisiti hai in termini di flessibilità, coerenza e prestazioni. Come si sta utilizzando i dati è più rilevante per la domanda di quello che si sta utilizzando per (ad esempio il data mining). Detto questo, usi come il data mining e l'apprendimento automatico hanno maggiori probabilità di produrre risultati utili se si dispone di un set di dati abbastanza grande con cui lavorare.