LINGUISTICA INFORMATICA
(Laurea
Magistrale)
A.A. 2022/2023
Fabio Tamburini
fabio.tamburiniunibo.it
PARTE I: TECNICHE AVANZATE PER LA GESTIONE E L'ANALISI DI CORPORA
DATA
|
ARGOMENTO
|
MATERIALI
|
30/1 31/1 |
Introduzione
alla
Linguistica Computazionale Introduzione alla Linguistica dei Corpora |
-
Articolo [Tamburini,
2008] - Articoli [Abney, 2011, Aslin, 2017] - Slide utilizzate a lezione [I.1], [I.2], [I.2bis] - [LMP] - Capitolo 1 - Articolo [Biber, 1993] |
10/2 | Espressioni
regolari Consultazione di corpora |
- Slide utilizzate a lezione [I.3],
- [LMP] - Capitolo 4 - Reg. Exp. Quick Start, Quick reference. - Reg.Exp. Demo. |
13/2 | Tokenisation & sentence segmentation. |
- Slide
utilizzate a lezione [I.4], - [Schmid, 2008] |
13/2 14/2 |
Metodologie
per l'annotazione di testi e linguaggi di mark-up: XML |
- [LMP] - Capitolo 3
e paragrafo 8.4 - Slide utilizzate a lezione [I.5] |
14/2 | Standard per l'annotazione di testi: TEI | - Slide Tomasi - Sito Text Encoding Initiative |
14/2 | Strumenti per la consultazione di corpora | - Slide [I.5b] |
17/2 | Preparazione e consultazione di un piccolo corpus annotato in formato TEI | -
Documentazione XAIRA
(PTB PoS-tags, XAIRA Installer, File XML) |
20/2 | Case
study: Corpora di lingua scritta e parlata (inglese/italiano): una review Corpora@FICLIT: CORIS/CODIS, BoLC e DiaCORIS. |
- Link1 (Inglese), Link2 (Varie lingue) - Slide utilizzate a lezione [I.6] |
BIBLIOGRAFIA
[LMP]
Lenci A., Montemagni S., Pirrelli V. (2016). Testo e computer.
Roma: Carocci.
[Abney, 2011]
Abney, S. (2011). Data-Intensive Experimental Linguistics.
Linguistic Issues in Language Technology, 6.
[Aslin, 2017]
Aslin, R.N. (2017). Statistical learning: a powerful mechanism that operates by
mere exposure.
WIREs Cogn Sci 2017, 8:e1373.
[Biber, 1993]
Biber, D. (1993). Representativeness in corpus design. Journal
of Literary and Linguistic Computing, 8(4).
[Schmid, 2008]
Schmid, H (2008): Tokenizing. In: Anke Lüdeling and Merja Kyto
(eds),
Corpus Linguistics. An International Handbook.
Mouton de Gruyter, Berlin.