Hadoop è un progetto open source Apache che fornisce software per l'elaborazione distribuita affidabile e scalabile. Il nucleo è costituito da un file system distribuito (HDFS) e da un gestore di risorse (YARN). Vari altri progetti open source, come Apache Hive, utilizzano Apache Hadoop come livello di persistenza.