Quando dovrei usare Reinforcement Learning vs PID Control?


12

Quando si progettano soluzioni a problemi come Lunar Lander su OpenAIGym , Reinforcement Learning è un mezzo allettante per fornire all'agente un adeguato controllo dell'azione per atterrare con successo.

Ma quali sono i casi in cui gli algoritmi del sistema di controllo, come i controller PID , farebbero proprio un lavoro adeguato come, se non meglio, Reinforcement Learning?

Domande come questa fanno un ottimo lavoro per affrontare la teoria di questa domanda, ma fanno poco per affrontare la componente pratica.

Come ingegnere di intelligenza artificiale, quali elementi di un dominio problematico dovrebbero suggerirmi che un controller PID è insufficiente per risolvere un problema e invece dovrebbe essere usato un algoritmo di Reinforcement Learning (o viceversa)?


L'idea di base che ho su PID dice che non è facile da progettare. Ha molti integrali e differenziali coinvolti. Quindi questa è sostanzialmente la stessa idea di quando si sostituiscono le statistiche con approcci ML. I sistemi di controllo sono sicuramente impeccabili ma è troppo lavoro.
DuttaA

2
in realtà non è troppo lavoro, è piuttosto standard nel settore, utilizzando moderni strumenti di progettazione del sistema come MATLAB è possibile ottimizzare PID o qualsiasi altro controller relativamente facile da soddisfare le proprie esigenze. L'apprendimento per rinforzo non viene applicato nella pratica poiché necessita di abbondanza di dati e non ci sono garanzie teoriche come la teoria del controllo classico. A proposito, il design del controllore non implica lavorare direttamente con integrali / differenziali, per i sistemi lineari tutto il lavoro viene svolto nel dominio Laplace che comporta semplici manipolazioni algebriche
Brale_

@Brale_ ma implica ancora molta conoscenza teorica ... Il dominio di Placelace semplifica solo il differenziale, ma è necessario sapere come progettare le cose (poli e zeri) in modo che i sistemi non diventino instabili. È piuttosto difficile visualizzarmi come funzionano effettivamente queste cose.
Dutta,

2
Come buona regola empirica che mi ha aiutato nei progetti passati, se non riesci a spiegare in poche frasi la politica ottimale (PID, RL o altro), i PID saranno davvero difficili. Qual è la politica ottimale per Pacman?
Jaden Travnik

Risposte:


5

Penso che i commenti siano fondamentalmente sulla buona strada.

I controller PID sono utili per trovare politiche ottimali in sistemi dinamici continui e spesso questi domini vengono anche utilizzati come parametri di riferimento per RL, proprio perché esiste una politica ottimale facilmente derivata. Tuttavia, in pratica, preferiresti ovviamente un controller PID per qualsiasi dominio in cui puoi facilmente progettarne uno: i comportamenti del controller sono ben compresi, mentre le soluzioni RL sono spesso difficili da interpretare.

Laddove RL brilla in compiti in cui sappiamo come si presenta un buon comportamento (ovvero, conosciamo la funzione di ricompensa) e sappiamo come appaiono gli input del sensore (cioè possiamo descrivere in modo completo e preciso un determinato stato numericamente), ma abbiamo poco o non ho idea di cosa vogliamo veramente che l'agente faccia per ottenere quei premi.

Ecco un buon esempio:

  • Se volessi fare in modo che un agente potesse manovrare un aereo di fronte a un aereo nemico con schemi di movimento noti dietro, usando la minima quantità di carburante, preferirei di gran lunga usare un controller PID .

  • Se volessi fare in modo che un agente controllasse un aereo e abbattere un aereo nemico con abbastanza combustibile lasciato a terra, ma senza una descrizione formale di come potrebbe attaccare l'aereo nemico (forse un esperto umano lo piloterà in simulazioni contro il nostro agente) , Preferirei di gran lunga RL .

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.