LINGUISTICA COMPUTAZIONALE
(Laurea Magistrale)
A.A. 2022/2023
Fabio Tamburini
fabio.tamburiniunibo.it
Il
corso fornirà un approfondimento di alcuni aspetti della
Linguistica Computazionale e del Natural
Language Processing
ponendo particolare attenzione alle metodologie empiriche alla base di
questo tipo di analisi e a una sperimentazione pratica delle
metodologie proposte.
Il programma descritto viene svolto in circa 30 ore
di lezione (6 CFU), con eventuali approfondimenti
tematici individuali.
Ricevimento studenti il martedì dalle 9.15 alle 11.15 al
Dipartimento di Filologia Classica e Italianistica, Via Zamboni, 32.
(E' opportuno fissare un appuntamento via email)
QUESTO CORSO RAPPRESENTA ANCHE LA SECONDA PARTE DEL CORSO INTEGRATO
"TRATTAMENTO AUTOMATICO DELLE LINGUE" DA 12CFU.
PROGRAMMA DEL CORSO
- Parte
I: Introduzione
- Natural
Language Processing - Problemi e prospettive
- Breve
ripasso di Linguistica dei Corpora
- Cenni
di calcolo delle probabilità
- N-grammi
e modelli delle lingue, Modelli di Markov
- Parte
II: Il trattamento automatico delle lingue
- Tecniche di
Machine e Deep Learning
- Metodologie
per la valutazione dei prodotti della Linguistica Computazionale
- I livelli
di analisi linguistica da un punto di vista computazionale
- Fonetica
computazionale
- Caratteristiche
del campione audio - foni e formanti - parametri significativi
- Analisi in
frequenza – Spettrogrammi – Tratti soprasegmentali
- Applicazioni
per l’elaborazione automatica della lingua parlata.
- Morfologia computazionale
- Generazione e analisi morfologica
- Lemmari, Metodi basati su Automi a Stati Finiti (FSA)
- Sintassi computazionale
- Part-of-speech tagging
- Grammatiche per il linguaggio naturale
- Parsing del
linguaggio naturale - metodologie e problematiche
- Approfondimento: Grammatiche formali per l'analisi
delle lingue storico-naturali
- Linguaggi formali e linguaggio naturale. La complessità del linguaggio naturale.
- Grammatiche phrase structure, Grammatiche a Dipendenze
- Treebank
- Semantica computazionale
- Semantica
lessicale:
WordNet
- Word Sense
Disambiguation
- Modelli
lessico-semantici distribuzionali
- Cenni di semantica della frase
- Parte
III: Applicazioni - Case study:
- Solving downstream tasks with LLM
- Prompting Pre-Trained Language Models
- Identificazione Automatica della Prominenza Prosodica
- Cenni
di Stilometria e Dialettometria.
TESTI E RIFERIMENTI
BIBLIOGRAFICI
Capitoli tratti dai seguenti volumi:
- Tamburini F. (2022). Neural Models for the Automatic Processing of Italian, Bologna: Pàtron.
- Lenci
A., Montemagni S. and Pirrelli V. (2016). Testo e computer.
Carocci.
- D.
Jurafsky and J.H. Martin (2008). Speech and Language
Processing, Prentice Hall. (2nd Edition DRAFT.) (3rd Edition DRAFT.)
- Mitkow
R. (ed.) (2003). The Oxford Handbook of Computational
Linguistics.
- Briggs J. (2022). Natural Language Processing for Semantic Search.
- Dispense
e articoli che verranno forniti durante le lezioni (si vedano i link
alle varie sezioni del corso).
Per
gli studenti che non hanno MAI seguito un corso di Linguistica Applicata o
Linguistica dei Corpora durante la Laurea Triennale
o Magistrale consiglio di leggere PRELIMINARMENTE:
- Lenci
A., Montemagni S. and Pirrelli V. (2016). Testo e computer.
Carocci. [Cap. 1, 7,
Par. 8, 8.1, 8.2, 8.3]
Si raccomanda agli studenti NON frequentanti di contattare il docente,
in
orario di ricevimento, prima di iniziare lo studio in modo da ricevere tutte le
spiegazioni riguardanti i materiali da studiare per l'esame ed evitare
così ogni fraintendimento o problema.
SOFTWARE
Seguendo
questo link
troverete una raccolta di programmi open-source
disponibili in rete.
GLI
ESAMI
L'esame
consisterà in una prova orale.
E' obbligatorio iscriversi all'esame preventivamente utilizzando la procedura online.
Riservato