Modelli del mondo nelle Reti Neurali Spiking: veglia e sonno tramite apprendimento per rinforzo

Brizzi, Emilio <1999>

View/Open

tesi32413723.pdf (3.545Mb)

Author

Brizzi, Emilio <1999>

Date

2025-03-24

Data available

2025-03-27

Abstract

Le reti neurali Spiking (SNN) hanno guadagnato una notevole attenzione per la loro capacità di emulare i processi biologici e fornire soluzioni di apprendimento a basso consumo energetico. A differenza delle reti neurali tradizionali che utilizzano valori continui per l'attivazione dei neuroni, le reti neurali Spiking utilizzano picchi discreti per trasmettere informazioni, il che le rende adatte a lavorare con attività sparse (quando solo una piccola parte dei neuroni si attiva in un dato momento). Questa capacità comporta un consumo energetico significativamente inferiore e adatto all'implementazione su hardware neuromorfico. Inoltre, questa capacità include il concetto di tempo nella rete neurale, rendendolo ancora più realistico e adatto all'elaborazione di informazioni temporali e all'apprendimento di sequenze di eventi. L'implementazione e l'addestramento delle reti SNN non è spesso facile. Ne è un esempio il caso dell'uso di SNN nel contesto del Reinforcement Learning (o apprendimento per rinforzo), dove la loro applicazione è spesso ostacolata dall'instabilità nella previsione di ricompense e stati, dal rumore nelle attivazioni neurali e dalle inefficienze nei meccanismi di pianificazione come il sogno. Questa tesi mira ad affrontare queste sfide introducendo modifiche a un modello del mondo esistente basato su SNN. Le implementazioni dei miglioramenti sono diverse, a partire dall'implementazione di una media mobile esponenziale (o smoothing esponenziale) sulle ricompense per ridurre il rumore dall'ambiente e stabilizzare l'apprendimento del modello. Un'implementazione della media di smoothing esponenziale è stata applicata anche agli stati previsti per migliorarne la stabilità. Inoltre, è stato applicato un decadimento del tasso di apprendimento (decadimento con l’inverso della radice quadrata) per garantire la convergenza insieme a pesi ricorrenti fissi per stabilizzare le dinamiche della rete consentendola di essere più veloce.

Spiking Neural Networks (SNNs) have gained significant attention for their ability to emulate biological processes and provide energy-efficient learning solutions. Unlike traditional neural networks that use continuous values for neuron activation, Spiking Neural Networks use discrete spikes to transmit information, making them working with sparse activity. This ability leads to significantly lower power consumption and suitable for neuromorphic implementation. In addition, this capability includes the concept of time into the network, making it even more realistic and suitable for processing temporal information and learn sequences of events. Their application is not always easy making the entire dynamics challenging. However, SNNs face also limitations and complications, training complexity is an example due to the spike-based learning algorithms that are difficult to implement. This is the case of the use of SNNs in the context of Reinforcement Learning, where their application is, often, hindered by instability in reward and states prediction, noise in the neural activations, and inefficiencies in planning mechanisms like dreaming. This thesis aims to address these challenges by introducing modifications to an existing SNN-based World Model. The implementations of the enhancements are different, starting with the implementation of an exponential moving average on rewards (or exponential smoothing) to reduce the noise from the environment and stabilize the model learning. An implementation of the exponential smoothing average has been applied also to the predicted states to improve stability for the model. Additionally, a learning rate decay (inverse square root schedule) was applied to guarantee convergence together with fixed recurrent weights (no updates during training) to stabilize the networks dynamics allowing it to be faster.

Type

info:eu-repo/semantics/masterThesis