Mediane, modalità, percentuali e OLAP


9

Sono un principiante che sta cercando di avvolgere la mia testa intorno a OLAP e ho alcune domande.

  • Domanda 1: un cubo OLAP può memorizzare mediane, modalità, percentili?
  • Domanda 2: una query MDX scritta dall'utente può restituire un riepilogo dei dati a livello di riga? (es:% transazioni> $ 100). O il progettista del cubo deve aggiungere questo al cubo?
  • Domanda 3: Alcuni prodotti OLAP ora forniscono meccanismi per accedere ai dati a livello di riga? Quale?

Il nostro dipartimento IT è alla ricerca di feedback su che tipo di problemi stiamo riscontrando con un cubo ROLAP di MS Analsis Services. Non abbiamo accesso al database relazionale dietro di esso e dobbiamo eseguire calcoli che non sono attualmente disponibili come misure nel cubo.

Fammi vedere se ho questo diritto.

  1. Un cubo può fornire statistiche per conteggi, medie, proporzioni, deviazioni standard.
  2. Se una determinata statistica non è stata soddisfatta in una misura fornita dal progettista del cubo, possiamo scrivere una query MDX per ottenerla? O devono cambiare il cubo per precalcolarlo dai dati a livello di riga?
  3. Un cubo non può fornire statistiche come mediane, modalità o percentili, perché queste statistiche non si aggregano correttamente.

Sto leggendo La grammatica della grafica di Leland Wilkinson e nel suo capitolo su Data Mining e OLAP, dice

Queste [operazioni del cubo] funzionano bene con statistiche come conteggi, medie, proporzioni e deviazioni standard. Aggregazioni semplici su sottoclassi possono essere calcolate operando su somme, somme di quadrati e altri termini che sono combinati in funzioni lineari per produrre statistiche riassuntive di base.

Non funzionano correttamente con statistiche come la mediana, la modalità e i percentili perché l'aggregato di queste statistiche non è la statistica dei loro aggregati. La mediana delle mediane non è la mediana dell'aggregato, per esempio.

Continua aggiungendo:

Tuttavia, recentemente è emerso un modello ROLAP più sofisticato. È possibile, attraverso diverse tecnologie, fornire agli algoritmi statistici l'accesso ai dati grezzi attraverso il modello relazionale in tempo reale. Questo approccio è più promettente rispetto alle rigide aggregazioni offerte da strutture come i cubi di dati.

Nella forma più elegante di questa architettura, le applicazioni possono richiedere connessioni remote per fornire informazioni sui loro metodi di gestione dei dati e intraprendere azioni adeguate a seconda delle informazioni restituite. In questa forma, l'architettura dei componenti può raggiungere la vera promessa del calcolo distribuito: progettazione ed esecuzione indipendenti dal sito, dal sistema operativo o dal linguaggio.

È stato scritto intorno al 2005. Qualcuno è a conoscenza dei prodotti che utilizzano questa metodologia per consentire l'accesso ai dati a livello di riga?


1
Nessun acquirente? Qualche suggerimento su come migliorare la domanda per ottenere una risposta?
Tommy O'Dell,

Risposte:


5

Per rispondere alle tue domande in ordine:

  1. Il cubo non memorizza mediane, modalità (o persino medie), ma è possibile scrivere query che le calcolano e incorporarle come misure calcolate nel cubo. La capacità di incorporare questo tipo di calcolo è uno dei principali punti di forza unici della tecnologia OLAP.
  2. Se si dispone di una dimensione in grado di identificare singole righe (che potrebbe essere una dimensione degenerata o 'fact' derivata da un identificatore nella tabella fact), è possibile eseguire una query in base a singole righe. Tuttavia, OLAP funziona in termini di dimensioni e aggregati, quindi è necessario disporre di una dimensione in grado di identificare singole righe (con un aggregato composto da un valore).
  3. Qualsiasi strumento OLAP può eseguire ciò che è descritto in (2), inoltre in genere supporta un meccanismo noto come "drill-through" in cui il cubo restituirà un bordo dei dati transazionali alla base di una determinata sezione in cui si esegue il drill-through .

Se si desidera eseguire calcoli che non sono direttamente disponibili nello script del cubo, molti strumenti OLAP come ProClarity, in ritardo e lamentato, consentiranno di formulare query che comportano calcoli personalizzati basati su MDX. A meno che il cubo non disponga delle informazioni necessarie per eseguire i calcoli effettivi, i calcoli MDX personalizzati dovrebbero essere in grado di supportare qualsiasi calcolo necessario.

Sebbene le query OLAP siano tradizionalmente associate a query statistiche in forma aggregata, se si dispone di una dimensione che consente il drill-down ai dettagli, è certamente possibile formulare query che calcoleranno mediane, percentili o query dell'istogramma da cui è possibile inferire o calcolare le modalità.

Ad esempio, questo ha un esempio di una query di analisi del pareto , che si basa sulle classifiche.

Molti prodotti cubi possono operare in modalità OLAP ibrida o relazionale in cui non persistono i dati stessi ma li interrogano da un database sottostante. Inoltre, strumenti ROLAP puri come Business Objects, Report Builder o Discoverer possono eseguire query da un database sottostante e funzionare riga per riga. Tuttavia, tendono a mancare della raffinatezza dei prodotti OLAP dedicati e non hanno molto in termini di capacità di analisi statistica pronta all'uso.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.