Quale modello parallelo teorico è il più vicino al modello di programmazione CUDA / OpenCL?
Ad esempio, si adatta in una certa misura al modello generico di macchina ad accesso casuale parallelo (PRAM). Tuttavia, questo è troppo generico, poiché crea l'astrazione di varie latenze di accesso alla memoria e problemi di sincronizzazione.
La mia domanda è: qual è il modello teorico che l'architettura CUDA si adatta maggiormente (tenendo presente il parallelismo gerarchico di fili e blocchi di fili che cooperano)?