Sono un principiante che sta cercando di avvolgere la mia testa intorno a OLAP e ho alcune domande.
- Domanda 1: un cubo OLAP può memorizzare mediane, modalità, percentili?
- Domanda 2: una query MDX scritta dall'utente può restituire un riepilogo dei dati a livello di riga? (es:% transazioni> $ 100). O il progettista del cubo deve aggiungere questo al cubo?
- Domanda 3: Alcuni prodotti OLAP ora forniscono meccanismi per accedere ai dati a livello di riga? Quale?
Il nostro dipartimento IT è alla ricerca di feedback su che tipo di problemi stiamo riscontrando con un cubo ROLAP di MS Analsis Services. Non abbiamo accesso al database relazionale dietro di esso e dobbiamo eseguire calcoli che non sono attualmente disponibili come misure nel cubo.
Fammi vedere se ho questo diritto.
- Un cubo può fornire statistiche per conteggi, medie, proporzioni, deviazioni standard.
- Se una determinata statistica non è stata soddisfatta in una misura fornita dal progettista del cubo, possiamo scrivere una query MDX per ottenerla? O devono cambiare il cubo per precalcolarlo dai dati a livello di riga?
- Un cubo non può fornire statistiche come mediane, modalità o percentili, perché queste statistiche non si aggregano correttamente.
Sto leggendo La grammatica della grafica di Leland Wilkinson e nel suo capitolo su Data Mining e OLAP, dice
Queste [operazioni del cubo] funzionano bene con statistiche come conteggi, medie, proporzioni e deviazioni standard. Aggregazioni semplici su sottoclassi possono essere calcolate operando su somme, somme di quadrati e altri termini che sono combinati in funzioni lineari per produrre statistiche riassuntive di base.
Non funzionano correttamente con statistiche come la mediana, la modalità e i percentili perché l'aggregato di queste statistiche non è la statistica dei loro aggregati. La mediana delle mediane non è la mediana dell'aggregato, per esempio.
Continua aggiungendo:
Tuttavia, recentemente è emerso un modello ROLAP più sofisticato. È possibile, attraverso diverse tecnologie, fornire agli algoritmi statistici l'accesso ai dati grezzi attraverso il modello relazionale in tempo reale. Questo approccio è più promettente rispetto alle rigide aggregazioni offerte da strutture come i cubi di dati.
Nella forma più elegante di questa architettura, le applicazioni possono richiedere connessioni remote per fornire informazioni sui loro metodi di gestione dei dati e intraprendere azioni adeguate a seconda delle informazioni restituite. In questa forma, l'architettura dei componenti può raggiungere la vera promessa del calcolo distribuito: progettazione ed esecuzione indipendenti dal sito, dal sistema operativo o dal linguaggio.
È stato scritto intorno al 2005. Qualcuno è a conoscenza dei prodotti che utilizzano questa metodologia per consentire l'accesso ai dati a livello di riga?