Progetti
Questa pagina contiene alcune proposte per i progetti d'esame.
Gli studenti sono comunque invitati a sottoporre proposte alternative al docente e a valutarne con lui la fattibilità.
IN OGNI CASO è opportuno contattare il docente prima di iniziare il progetto per ottenere delucidazioni, codici e/o datset.
Proposte:
- adattare lo script per il token classification proposto da Huggingface Transformers per la Named Entity Recognition (run_ner_no_trainer.py) al PoS-tagging per una lingua a scelta. E' ovviamente necessario identificare un opportuno benchmark di riferimento;
- adattare lo script del progetto precedente per la Named Entity Recognition nell'ambito della lingua italiana;
- adattare lo script run_glue_no_trainer.py utilizzato a lezione per il fine-tuning di un trasformer per problemi di Text Classification in lingua inglese sul benchmark GLUE a un task equivalente per l'italiano. I benchmark delle varie edizioni di EVALITA sono un ottimo punto di partenza;
- costruire un PoS-tagger per l'italiano basato su reti ricorrenti LSTM bidirezionali (e magari un ulteriore livello CRF), eventualmente partendo da progetti su github;
- seguendo questo tutorial, e il relativo repository github, addestrare un LLM generativo composto da 13M di parametri. Una volta riusciti, provare a scalare la dimensione del trasformer fino a dove consentito da Colab.
- utilizzare il repository di nanoGPT per addestrare un piccolo LLM generativo utilizzando documenti appartenenti a un linguaggio specialistico.
- eseguire esperimenti di Topic Modeling seguendo questo tutorial.