Apprendimento rinforzato sicuro nella robotica: sperimentare con OpenAI Safety Gym

Afridi, Naveed Manzoor <1994>

View/Open

tesi30600624.pdf (2.656Mb)

Author

Afridi, Naveed Manzoor <1994>

Date

2024-10-14

Data available

2024-10-17

Abstract

Gli agenti di apprendimento rinforzato (RL) devono osservare gli ambienti in modo che la politica ottimale possa essere appresa tramite tentativi ed errori. Tuttavia, nella maggior parte delle situazioni pratiche, garantire la sicurezza diventa molto critico poiché alcuni errori non sono accettabili. Ad esempio, è importante evitare lesioni quando i sistemi robotici interagiscono con gli esseri umani durante l'esplorazione. Sebbene gli agenti RL siano solitamente addestrati in simulazioni in cui i problemi di sicurezza sono minimi, complessità come l'interazione uomo-IA in scenari reali mostrano uno spostamento verso l'addestramento degli agenti RL direttamente nel mondo reale, dove la sicurezza sarebbe di primaria importanza. Questa tesi sottolinea l'esplorazione sicura come area di interesse critica nella ricerca RL, contribuendo in modo significativo al campo. Sta standardizzando RL vincolato come framework di base per l'esplorazione sicura basata su un lavoro sostanziale precedente. La suite di benchmark Safety Gym è utilizzata per l'ambiente di controllo continuo ad alta dimensione che misura correttamente i progressi nella ricerca RL vincolata. Alcuni algoritmi RL profondi vincolati sono sottoposti a benchmark negli ambienti Safety Gym per stabilire linee di base per ulteriori ricerche. L'implementazione pratica utilizza strumenti e framework come OpenAI Safety Gym, Stable Baselines3 e Never2 Tool e Marabou. Sono fornite procedure dettagliate di progettazione, installazione e funzionamento per lo strumento Never2, Marabou, tra cui la creazione di modelli, la definizione delle proprietà e le interazioni dell'interfaccia della riga di comando. Alcune delle sue caratteristiche includono la formazione di rete, strategie di verifica e visualizzazione dell'output. Sono presenti esperimenti nell'ambiente Safety Gym, che forniscono una valutazione di diversi metodi e approcci multipli all'RL. L'enfasi è posta sulla verifica di rete per la robustezza e la sicurezza del

The reinforcement learning (RL) agents have to observe the environments such that optimal policy could be learned through trial and error. However, in most practical situations, ensuring safety becomes very critical since certain mistakes are not acceptable. For example, it is important to avoid injuries when robotic systems interact with humans during exploration. Although RL agents are usually trained in simulations where safety concerns are minimal, complexities such as human-AI interaction in actual scenarios show a shift into training the RL agents directly in the real world, where safety would be of primary concern. This thesis underlines safe exploration as a critical focus area in RL research, significantly contributing to the field. It is standardizing constrained RL as the basic framework for safe exploration based on prior substantial work. The Safety Gym benchmark suite is used for the high-dimensional continuous control environment that properly measures progress in constrained RL research. A few constrained deep RL algorithms are benchmarked in Safety Gym environments to establish baselines for further research. Practical implementation uses tools and frameworks like OpenAI Safety Gym, Stable Baselines3, and the Never2 Tool and Marabou. Detailed design, installation, and operational procedures are provided for the Never2 Tool, Marabou including model building, property definition, and command-line interface interactions. Some of its features include network training, verification strategies, and output visualization. Experiments in the Safety Gym environment are present, providing an evaluation of several methods and multiple approaches to RL. Emphasis is put on network verification for robustness and safety of the tool at hand. This thesis concludes the grand view of safe RL in robotics merging theoretical foundations and practical applications and opens up future prospects of development in RL research and real-world implementations

Type

info:eu-repo/semantics/masterThesis