Progetti
Questa pagina contiene alcune proposte per i progetti d'esame.
Gli studenti sono comunque invitati a sottoporre proposte alternative al docente e a valutarne con lui la fattibilità.
IN OGNI CASO è opportuno contattare il docente prima di iniziare il progetto per ottenere delucidazioni, codici e/o datset.
Proposte
- Adattare lo script per il token classification proposto da Huggingface Transformers per la Named Entity Recognition (run_ner_no_trainer.py) al PoS-tagging per una lingua a scelta. E' ovviamente necessario identificare un opportuno benchmark di riferimento.
- Adattare lo script del progetto precedente per la Named Entity Recognition nell'ambito della lingua italiana.
- Adattare lo script run_glue_no_trainer.py utilizzato a lezione per il fine-tuning di un trasformer per problemi di Text Classification in lingua inglese sul benchmark GLUE a un task equivalente per l'italiano. I benchmark delle varie edizioni di EVALITA sono un ottimo punto di partenza.
- Costruire un PoS-tagger per l'italiano basato su reti ricorrenti LSTM bidirezionali (e magari un ulteriore livello CRF), eventualmente partendo da progetti su github.
- Seguendo questo tutorial, e il relativo repository github, addestrare un LLM generativo composto da 13M di parametri. Una volta riusciti, provare a scalare la dimensione del trasformer fino a dove consentito da Colab.
- Utilizzare il repository di nanoGPT per addestrare un piccolo LLM generativo utilizzando documenti appartenenti a un linguaggio specialistico.
- Eseguire esperimenti di Topic Modeling seguendo questo tutorial.
- Eseguire esperimenti di Text classification (es. polarity detection, hate speech detection, ecc.) mediante il Prompting di LLM. Scegliere il LLM attingendo ai modelli disponibili su Huggingface Transformers considerando la lingua che si vuole studiare e l'effettiva potenza di calcolo a disposizione.