Modelli del mondo nelle Reti Neurali Spiking: veglia e sonno tramite apprendimento per rinforzo

View/ Open
Author
Brizzi, Emilio <1999>
Date
2025-03-24Data available
2025-03-27Abstract
Le reti neurali Spiking (SNN) hanno guadagnato una notevole attenzione per la loro capacità
di emulare i processi biologici e fornire soluzioni di apprendimento a basso consumo
energetico. A differenza delle reti neurali tradizionali che utilizzano valori continui per
l'attivazione dei neuroni, le reti neurali Spiking utilizzano picchi discreti per trasmettere
informazioni, il che le rende adatte a lavorare con attività sparse (quando solo una piccola
parte dei neuroni si attiva in un dato momento). Questa capacità comporta un consumo
energetico significativamente inferiore e adatto all'implementazione su hardware
neuromorfico. Inoltre, questa capacità include il concetto di tempo nella rete neurale,
rendendolo ancora più realistico e adatto all'elaborazione di informazioni temporali e
all'apprendimento di sequenze di eventi. L'implementazione e l'addestramento delle reti
SNN non è spesso facile. Ne è un esempio il caso dell'uso di SNN nel contesto del
Reinforcement Learning (o apprendimento per rinforzo), dove la loro applicazione è spesso
ostacolata dall'instabilità nella previsione di ricompense e stati, dal rumore nelle attivazioni
neurali e dalle inefficienze nei meccanismi di pianificazione come il sogno. Questa tesi mira
ad affrontare queste sfide introducendo modifiche a un modello del mondo esistente basato
su SNN. Le implementazioni dei miglioramenti sono diverse, a partire dall'implementazione
di una media mobile esponenziale (o smoothing esponenziale) sulle ricompense per ridurre
il rumore dall'ambiente e stabilizzare l'apprendimento del modello. Un'implementazione
della media di smoothing esponenziale è stata applicata anche agli stati previsti per
migliorarne la stabilità. Inoltre, è stato applicato un decadimento del tasso di apprendimento
(decadimento con l’inverso della radice quadrata) per garantire la convergenza insieme a
pesi ricorrenti fissi per stabilizzare le dinamiche della rete consentendola di essere più
veloce. Spiking Neural Networks (SNNs) have gained significant attention for their ability to
emulate biological processes and provide energy-efficient learning solutions. Unlike
traditional neural networks that use continuous values for neuron activation, Spiking Neural
Networks use discrete spikes to transmit information, making them working with sparse
activity. This ability leads to significantly lower power consumption and suitable for
neuromorphic implementation. In addition, this capability includes the concept of time into
the network, making it even more realistic and suitable for processing temporal information
and learn sequences of events. Their application is not always easy making the entire
dynamics challenging. However, SNNs face also limitations and complications, training
complexity is an example due to the spike-based learning algorithms that are difficult to
implement. This is the case of the use of SNNs in the context of Reinforcement Learning,
where their application is, often, hindered by instability in reward and states prediction, noise
in the neural activations, and inefficiencies in planning mechanisms like dreaming.
This thesis aims to address these challenges by introducing modifications to an existing
SNN-based World Model. The implementations of the enhancements are different, starting
with the implementation of an exponential moving average on rewards (or exponential
smoothing) to reduce the noise from the environment and stabilize the model learning. An
implementation of the exponential smoothing average has been applied also to the predicted
states to improve stability for the model. Additionally, a learning rate decay (inverse square
root schedule) was applied to guarantee convergence together with fixed recurrent weights
(no updates during training) to stabilize the networks dynamics allowing it to be faster.
Type
info:eu-repo/semantics/masterThesisCollections
- Laurea Magistrale [5638]