Progetti

Questa pagina contiene alcune proposte per i progetti d'esame. Gli studenti sono comunque invitati a sottoporre proposte alternative al docente e a valutarne con lui la fattibilità. IN OGNI CASO è opportuno contattare il docente prima di iniziare il progetto per ottenere delucidazioni, codici e/o datset. Proposte:

  • adattare lo script per il token classification proposto da Huggingface Transformers per la Named Entity Recognition (run_ner_no_trainer.py) al PoS-tagging per una lingua a scelta. E' ovviamente necessario identificare un opportuno benchmark di riferimento;
  • adattare lo script del progetto precedente per la Named Entity Recognition nell'ambito della lingua italiana;
  • adattare lo script run_glue_no_trainer.py utilizzato a lezione per il fine-tuning di un trasformer per problemi di Text Classification in lingua inglese sul benchmark GLUE a un task equivalente per l'italiano. I benchmark delle varie edizioni di EVALITA sono un ottimo punto di partenza;
  • costruire un PoS-tagger per l'italiano basato su reti ricorrenti LSTM bidirezionali (e magari un ulteriore livello CRF), eventualmente partendo da progetti su github;
  • seguendo questo tutorial, e il relativo repository github, addestrare un LLM generativo composto da 13M di parametri. Una volta riusciti, provare a scalare la dimensione del trasformer fino a dove consentito da Colab.
  • utilizzare il repository di nanoGPT per addestrare un piccolo LLM generativo utilizzando documenti appartenenti a un linguaggio specialistico.
  • eseguire esperimenti di Topic Modeling seguendo questo tutorial.