Si, puoi. Almeno in senso approssimativo.
Descrivo come di seguito (e in effetti c'è una relazione con la "sovrapposizione di riquadri" come suggerisci) insieme ad alcuni avvertimenti e limitazioni. Ma prima discutiamo alcuni preliminari per alcuni retroscena e contesto. (Penso che una risposta appropriata qui non dovrebbe concentrarsi sui dettagli dell'esempio - sebbene ciò meriti forse una menzione a parte - ma sulla questione centrale dell'uso dei grafici a scatola per valutare se le differenze apparenti possano essere prontamente spiegate come variazione casuale o no .)
Se hai accesso ai dati puoi disegnare grafici a scatole intagliati che sono progettati per questo tipo di confronto visivo.

C'è una discussione sui calcoli intagliati del diagramma a scatole qui . Se gli intervalli di notch non si sovrappongono, i due gruppi confrontati sono approssimativamente diversi al livello del 5%; i calcoli si basano su calcoli al normale, ma sono piuttosto robusti e funzionano ragionevolmente bene su una vasta gamma di distribuzioni. (Se viene trattato come un test formale, la potenza non è così elevata al normale, ma dovrebbe fare abbastanza bene per una varietà di casi più o meno "tipici" dalla coda più pesante.)
Considerando come funzionano i grafici a scatole intagliati, puoi discernere una rapida regola empirica che funzionerà quando hai solo un display come quello nella domanda. Quando la dimensione del campione è 10 e la mediana è posizionata vicino al centro della scatola, le tacche in un diagramma a scatola dentellato hanno circa la larghezza della scatola, quindi le estremità della tacca e la scatola si trovano all'incirca nello stesso posto.
n = 10
n = 10
n = 9n = 10
n = 10n = 10 , 10n = 9 , 9n = 8 , 8
nn--√n = 40
Guardando la trama:
Si noti che dall'aspetto della trama nella domanda possiamo dire che le dimensioni del campione devono essere almeno 5; se fossero inferiori a 5 i grafici a scatola dei singoli campioni avrebbero indizi distinti che provenivano da una dimensione del campione inferiore (come i mediani essendo il punto morto di ogni scatola o il baffo di lunghezza 0 quando c'era un valore anomalo).
In alternativa, se le caselle (contrassegnando i quartili) non si sovrappongono e la dimensione del campione è di almeno 10, i due gruppi confrontati dovrebbero avere mediane diverse al livello del 5% (considerato come un singolo confronto a coppie).
nn = 5
[Si noti che ciò non tiene conto del numero di confronti, quindi se si effettuano confronti multipli l'errore di tipo I complessivo sarà maggiore. È pensato per un'ispezione visiva piuttosto che per un test formale; tuttavia le idee coinvolte possono essere adattate a un approccio più formale, compreso l'adeguamento per confronti multipli.]
Avendo affrontato se è possibile , sarebbe ragionevole considerare se si dovrebbe . Forse no; il problema del potenziale p-hacking è reale, ma se lo stai usando per capire se, ad esempio, continuare a raccogliere nuovi dati sul problema della ricerca e tutto ciò che hai è un boxplot in un documento - diciamo - potrebbe essere abbastanza utile per essere in grado di valutare se c'è di più di quello che potrebbe essere facilmente spiegato dalle variazioni dovute al rumore. Ma considerare questo problema in profondità significherebbe davvero rispondere a una domanda diversa.