Risolvere la relazione di ricorrenza con due chiamate ricorsive

Sto studiando il caso peggiore di quicksort a condizione che non farà mai una partizione molto sbilanciata per le diverse definizioni di molto .

Per fare questo mi chiedo quale sarebbe il runtime nel caso in cui Quicksort capiti sempre di partizionare in una frazione tale che elementi sono nella partizione sinistra e sono nella partizione destra (lasciando elemento, il perno, al centro). $T(n, p)$ $0 < p \leq {1\over 2}$ $\lfloor{p(n-1)}\rfloor$ $\lceil(1 - p)(n - 1)\rceil$ $1$

Non dovrebbe essere difficile vedere che fornisce un limite superiore per il caso peggiore in cui è la partizione consentita massimamente sbilanciata, poiché qualsiasi partizione con frazione sarà più bilanciata e avrà un tempo di esecuzione minore, e qualsiasi frazione non è consentita. $T(n, p)$ $p$ $> p$ $<p$

È ovvio che è il caso migliore e è il caso peggiore di quicksort. Entrambi hanno facili relazioni di ricorrenza che si trovano in qualsiasi risorsa educativa. Ma non ho idea di come studiare in generale. La relazione ovvia sarebbe: $T(n, {1 \over 2})$ $T(n, 0)$ $T(n, p)$

T (n, p) = n + T (⌊ p (n - 1) ⌋, p) + T (⌈ (1 - p) (n - 1) ⌉, p)

$T(n, p) = n + T(\lfloor{p(n-1)}\rfloor, p) + T(\lceil(1 - p)(n - 1)\rceil, p)$

Qui mi blocco. Ho provato a cercare in giro, ma tutta la letteratura che ho capito sugli algoritmi di divisione e conquista ha preso letteralmente il "divario" e ha "ingannato" l'analisi usando il fatto che le partizioni hanno sempre le stesse dimensioni, unendo i termini in una volta costante.

Non so come gestire due chiamate ricorsive e non so se sia sicuro rimuovere l'arrotondamento. È possibile risolvere analiticamente e, se sì, come?

PS: Non mi interessano gli asintotici (che è facile mostrare per qualsiasi costante ). Sono interessato a quanto lo slowsort più lento diventa man mano che si riduce , ad esempio mi interessa il rapporto . $\Theta(n \log n)$ $p$ $p$ $T(n, 0.25) \over T(n, 0.5)$

PPS: Come studente universitario, mi scuso se ho fatto cose ovvie troppo lunghe o non spiegate non banali. E anche se non so se sia guardato in basso qui tanto quanto gli altri siti SE, noterò che questo è un interesse personale, non compiti a casa.

algorithm-analysis runtime-analysis recurrence-relation

— orlp
fonte

Come dici tu, il teorema di Akra – Bazzi mostra che la soluzione alla ricorrenza è per tutti i . Tuttavia, ciò non rivela la natura della dipendenza da . Per determinare quest'ultimo, possiamo usare un approccio ad albero di ricorsione. $T(n,p)$ $O(n\log n)$ $p \in (0,1)$ $p$

Alla radice dell'albero di ricorsione si trova l'intervallo . I suoi due figli sono gli intervalli e , la cui lunghezza totale è di nuovo . Ognuno di questi nodi ha due figli (supponendo che sia abbastanza grande) e così via. Per semplicità ignoriamo gli errori di arrotondamento, ovvero supponiamo che sia un numero intero; questo è solo un tecnicismo e non me ne preoccuperei. Interrompiamo il processo ogni volta che un nodo ha una lunghezza al massimo . La complessità dell'algoritmo è proporzionale alla lunghezza totale degli intervalli nella struttura. Quando , le foglie $\{1,\ldots n\}$ $\{1,\ldots,pn\}$ $\{pn+1,\ldots,n\}$ $n$ $n$ $pn$ $1$ $p \neq 1/2$ (nodi in cui interrompiamo il processo) hanno profondità diverse e ciò rende più difficile determinare la complessità complessiva.

Possiamo ottenere un semplice limite superiore notando che l'albero ha al massimo livelli : ogni nodo è almeno un fattore più piccolo del suo genitore. Proprio come nell'analisi per , la lunghezza totale degli intervalli a qualsiasi livello è al massimo , e otteniamo un limite superiore di sul tempo di esecuzione. Poiché e per piccola , possiamo scrivere questo come . $\log_{1-p} (1/n)$ $1-p$ $p = 1/2$ $n$ $O(n\log_{1-p} (1/n))$ $\log_{1-p} (1/n) = \log n/\log (1-p)^{-1}$ $\log (1-p)^{-1} = -\log (1-p) = p \pm O(p^2)$ $p$ $O(n\log n/p)$

Ecco un calcolo più accurato. Considera il livello . Supponiamo di non interrompere il processo al raggiungimento di un piccolo intervallo. Possiamo generare un vertice casuale prendendo passi, in ognuno dei quali andiamo a sinistra (diciamo) con probabilità e a destra (diciamo) con probabilità . Ogni volta che facciamo un passo a sinistra il registro della lunghezza dell'intervallo diminuisce di , e ogni volta che facciamo un passo a destra diminuisce di . Un vertice si trova nell'albero reale del registro della lunghezza diminuita al massimo . Il peso totale degli intervalli al livello $t$ $t$ $p$ $1-p$ $-\log p$ $-\log (1-p)$ $\log n$ $t$ dell'albero è esattamente la probabilità che un vertice generato secondo questo processo corrisponda ad una diminuzione al massimo . Cioè, se è la distribuzione che è uguale a con probabilità e a con probabilità e sono indipendenti, quindi il il peso totale del livello è . Per super costante , la variabile casuale è approssimativamente normalmente distribuita con media varianza lineare in $\log n$ $D$ $-\log p$ $p$ $-\log(1-p)$ $1-p$ $X_1,\ldots,X_t \sim D$ $t$ $\Pr[X_1+\cdots+X_t \leq \log n]$ $t$ $X_1+\cdots+X_t$ $[-p\log p-(1-p)\log(1-p)]t$ $t$ , quindi per soddisfacente , diciamo, la probabilità sarà molto vicina a , mentre per soddisfacente , diciamo, sarà molto vicino allo zero. Definendo (nota come funzione di entropia binaria), concludiamo che il tempo di esecuzione è (uniforme in , come da ). Come abbiamo , e quindi la nostra stima precedente non era stretta. $t$ $[-p\log p-(1-p)\log(1-p)]t \leq (\log n)/2$ $1$ $t$ $[-p\log p-(1-p)\log(1-p)]t \geq 2\log n$ $h(p) = -p\log p-(1-p)\log(1-p)$ $\Theta(n\log n/h(p))$ $p$ $n\to\infty$ $p\to 0$ $h(p) \approx -p\log p$

Un altro modo di guardare la stessa analisi è avere una sequenza infinita di variabili casuali indipendenti come in precedenza e definire un tempo di arresto per essere la prima volta tale che . Il tempo di esecuzione è quindi proporzionale a . Il teorema di rinnovamento elementare afferma quindi che , sottintendendo che il la dimensione totale degli intervalli è uguale a . Più precisamente, per ogni costante la dimensione totale degli intervalli è , dove $X_1,X_2,\ldots$ $T$ $t$ $X_1 + \cdots + X_t \geq \log n$ $n\mathbb{E}[T]$ $\lim_{n\to\infty} \mathbb{E}[T]/\log n = 1/\mathbb{E}[D] = 1/h(p)$ $(1+o(1))n\log n/h(p)$ $p$ $(1+\alpha_p(n))n\log n/h(p)$ $\alpha_p(n) = o(n)$ . La convergenza nel teorema di rinnovo elementare è esponenziale nel parametro time - nel nostro caso - quindi dovrebbe essere polinomiale in , cioè . La convergenza è probabilmente anche uniforme per per qualsiasi . $\log n$ $n$ $\alpha_p(n) = O(n^{-C_p})$ $p \in (\delta,1-\delta)$ $\delta > 0$

Riassumendo, la lunghezza totale degli intervalli nell'albero di ricorsione, che è proporzionale al tempo di esecuzione, è della seguente forma per ogni : dove e vengono portati sulla stessa base e è una funzione che dipende da e tende a con . $p$

T (n, p) = (1 + o (1)) \frac{n \log n}{h (p)},

$T(n,p) = (1+o(1)) \frac{n\log n}{h(p)},$

\log n

$\log n$

h (p) = - p \log p - (1 - p) \log (1 - p)

$h(p) = -p\log p-(1-p)\log(1-p)$

o (1)

$o(1)$

p

$p$

0

$0$

n

$n$

Inoltre, è probabilmente vero che per qualsiasi e qualsiasi è vero che la lunghezza totale degli intervalli è della forma dove e la grande costante O nascosta dipendono solo da . In particolare, dovrebbe essere il caso che per tutte le costanti , e la convergenza è polinomialmente veloce. $\delta > 0$ $p \in (\delta,1-\delta)$

T (n, p) = (1 + O (n^{- C_{δ}})) \frac{n \log n}{h (p)},

$T(n,p) = (1+O(n^{-C_\delta})) \frac{n\log n}{h(p)},$

C_{δ} > 0

$C_\delta > 0$

δ

$\delta$

p_{1}, p_{2}

$p_1,p_2$

lim_{n \to \infty} \frac{T (n, p_{1})}{T (n, p_{2})} = \frac{h (p_{2})}{h (p_{1})},

$\lim_{n\to\infty} \frac{T(n,p_1)}{T(n,p_2)} = \frac{h(p_2)}{h(p_1)},$

— Yuval Filmus
fonte

Grazie per la tua rapida risposta Yuval. Sono un po 'confuso dal fatto che tu abbia usato nel tuo riassunto. è una costante e ciò non significa che sia irrilevante in ? Ho deciso di scrivere un piccolo programma di test , che ha mostrato che per confrontando tra il metodo analitico e uno computazionale ha dato un errore di 0,03. Sembra piuttosto grande, o è prevedibile?

Θ

$\Theta$

h (p)

$h(p)$

Θ

$\Theta$

n = 100000000000000

$n = 100000000000000$

T (n, 0.1) / T (n, 0.5)

$T(n, 0.1) / T(n, 0.5)$

— orlp

La costante in è uniforme in . Più precisamente, per alcune costanti è il caso che per ogni esista tale che per , . Probabilmente puoi ottenere un'istruzione ancora più forte della forma per ogni fissa , dove la piccola o è rispetto a ( ma potrebbe dipendere da ); non dovrebbe dipendere da .

Θ

$\Theta$

p

$p$

c, C

$c, C$

p

$p$

N_{p}

$N_p$

n \geq N_{p}

$n\geq N_p$

c n \log n / h (p) \leq T (n, p) \leq C n \log n / h (p)

$cn\log n/h(p) \leq T(n, p) \leq Cn\log n/h(p)$

T (n, p) = (1 + o (1)) C n \log n / h (p)

$T(n, p)=(1+o(1))Cn\log n/h(p)$

p

$p$

n

$n$

p

$p$

C

$C$

p

$p$

— Yuval Filmus,

La convergenza al limite dipende da , quindi potrebbe essere necessario che sia grande per ottenere una buona approssimazione. D'altra parte, un errore relativo di 0,03 non sembra così grande. Puoi provare a correggere e tracciare il tempo di esecuzione in funzione di , confrontandolo con .

\log n

$\log n$

\log n

$\log n$

n

$n$

p

$p$

1 / h (p)

$1/h(p)$

— Yuval Filmus,

Oh mi dispiace, non intendevo un errore relativo di 0,03, ma assoluto (2,13222 vs 2,10339). Tracciare in funzione di , rispetto a dato una differenza relativa del 4%, con essendo il 96% di .

T (n, p)

$T(n, p)$

p

$p$

1 / h (p)

$1 / h(p)$

T (10^{11}, 0.05) * h (0.05)

$T(10^{11}, 0.05) * h(0.05)$

T (10^{11}, 0.4) * h (0.4)

$T(10^{11}, 0.4) * h(0.4)$

— orlp

La super-costante è una funzione che tende all'infinito rispetto alla variabile rilevante (in questo caso ). È lo stesso di .

n

$n$

ω (1)

$\omega(1)$

— Yuval Filmus,