LINGUISTICA INFORMATICA
(Laurea Magistrale)

A.A. 2020/2021

Fabio Tamburini
fabio.tamburiniunibo.it


PARTE I: TECNICHE AVANZATE PER LA GESTIONE E L'ANALISI DI CORPORA

DATA
ARGOMENTO
MATERIALI
1/2T
2/2T
Introduzione alla Linguistica Computazionale
Introduzione alla Linguistica dei Corpora
- Articolo [Tamburini, 2008]
- Articoli [Abney, 2011, Aslin, 2017]
- Slide utilizzate a lezione [I.1], [I.2], [I.2bis]
- [LMP] - Capitolo 1
- Articolo [Biber, 1993]
5/2T Espressioni regolari
Consultazione di corpora
- Slide utilizzate a lezione [I.3],
- [LMP] - Capitolo 4
- Reg. Exp. Quick Start, Quick reference.
- Reg.Exp. Demo.
8/2 Tokenisation & sentence segmentation. - Slide utilizzate a lezione [I.4],
- [Schmid, 2008]
9/2 Metodologie per l'annotazione di testi e
linguaggi di mark-up: XML
- [LMP] - Capitolo 3 e paragrafo 8.4
- Slide utilizzate a lezione [I.5]
9/2 Standard per l'annotazione di testi: TEI - Slide Tomasi
- Sito Text Encoding Initiative
12/2 Preparazione e consultazione di un piccolo corpus annotato in formato TEI - Documentazione XAIRA
(PTB PoS-tags, XAIRA Installer)
15/2 Case study:
   Corpora di lingua scritta e parlata (inglese/italiano): una review
   Corpora@FICLIT: CORIS/CODIS, BoLC e DiaCORIS.
 
- Link1 (Inglese), Link2 (Varie lingue)
- Slide utilizzate a lezione [I.6]


BIBLIOGRAFIA

[LMP]
Lenci A., Montemagni S., Pirrelli V. (2005). Testo e computer. Roma: Carocci.

[Abney, 2011]
Abney, S. (2011). Data-Intensive Experimental Linguistics. Linguistic Issues in Language Technology, 6.

[Aslin, 2017]
Aslin, R.N. (2017). Statistical learning: a powerful mechanism that operates by mere exposure. WIREs Cogn Sci 2017, 8:e1373.

[Biber, 1993]
Biber, D. (1993). Representativeness in corpus design. Journal of Literary and Linguistic Computing, 8(4).

[Schmid, 2008]
Schmid, H (2008): Tokenizing. In: Anke Lüdeling and Merja Kyto (eds), Corpus Linguistics. An International Handbook. Mouton de Gruyter, Berlin.