Web Scraping di dati da internet attraverso l'Intelligenza Artificiale
View/ Open
Author
Danè, Diego <2001>
Date
2023-12-19Data available
2023-12-21Abstract
Il presente elaborato focalizza l’attenzione sull’utilizzo di ChatGPT, un chatbot che basa il suo funzionamento sul GPT-3.5(ovvero un Large Language Model di ultima generazione), per creare uno strumento per il Web Scraping, una tecnica che si basa sull’identificazione e il rilevamento di dati in automatico, rendendo così il processo di estrazione delle informazioni un processo più rapido ed efficiente. In primo luogo la tesi introduce il concetto di Web Scraping e fornisce un quadro generale sulle caratteristiche e le applicazioni della tecnica di estrazione in vari campi lavorativi. Successivamente vengono trattati i Large Language Models, modelli di intelligenza artificiale che sono capaci di utilizzare il linguaggio naturale per comunicare. Vengono analizzate le caratteristiche di questi modelli IA e in particolar modo si focalizza l’attenzione su ChatGPT, l’esempio più importante che ha alla base un LLM. Dopo aver introdotto ChatGPT si analizzano le varie tecniche che vanno sotto il nome di Prompt Engineering, e come esse, se applicate, possono portare ad un utilizzo più efficiente del chatbot in termini dello sviluppo dello strumento di Web Scraping. L’obiettivo della tesi è quindi quello di dimostrare che ChatGPT può rivelarsi uno strumento di supporto valido quando si parla di estrapolazione di dati, attraverso Scraping, permettendo di risparmiare tempo nella programmazione e nello sviluppo dello Scraper e rendendo più efficiente tutto il processo di analisi di dati. The present paper focuses on the use of ChatGPT, a chatbot that operates on GPT-3.5 (a state-of-the-art Large Language Model), to create a tool for Web Scraping. Web Scraping is a technique based on the automatic identification and detection of data, making the information extraction process faster and more efficient. Firstly, the thesis introduces the concept of Web Scraping and provides a general overview of the characteristics and applications of the extraction technique in various professional fields. Subsequently, Large Language Models are discussed, which are artificial intelligence models capable of using natural language for communication. The features of these AI models are analyzed, with a particular focus on ChatGPT, the most significant example based on a Large Language Model. After introducing ChatGPT, various techniques falling under the umbrella term "Prompt Engineering" are examined. It explores how, if applied, these techniques can lead to a more efficient use of the chatbot in terms of developing the Web Scraping tool. The thesis aims to demonstrate that ChatGPT can be a valuable support tool for data extraction through Scraping, saving time in programming and developing the Scraper, and enhancing the efficiency of the entire data analysis process.
Type
info:eu-repo/semantics/bachelorThesisCollections
- Laurea Triennale [2383]