Linguistically annotated multilingual comparable corpora of parliamentary debates ParlaMint.ana 4.1

Verfasser:	Erjavec, Tomaž Kopp, Matyáš Ogrodniczuk, Maciej Osenova, Petya Agerri, Rodrigo Agirrezabal, Manex Agnoloni, Tommaso Aires, José Albini, Monica Alkorta, Jon Antiba-Cartazo, Iván Arrieta, Ekain Barcala, Mario Bardanca, Daniel Barkarson, Starkaður Bartolini, Roberto Battistoni, Roberto Bel, Nuria Bonet Ramos, Maria del Mar Calzada Pérez, María Cardoso, Aida Çöltekin, Çağrı Coole, Matthew Darģis, Roberts de Does, Jesse de Libano, Ruben Depoorter, Griet Depuydt, Katrien Diwersy, Sascha Dodé, Réka Fernandez, Kike Fernández Rei, Elisa Frontini, Francesca Garcia, Marcos García Díaz, Noelia García Louzao, Pedro Gavriilidou, Maria Gkoumas, Dimitris Grigorov, Ilko Grigorova, Vladislava Haltrup Hansen, Dorte Iruskieta, Mikel Jarlbrink, Johan Jelencsik-Mátyus, Kinga Jongejan, Bart Kahusk, Neeme Kirnbauer, Martin Kryvenko, Anna Ligeti-Nagy, Noémi Ljubešić, Nikola Luxardo, Giancarlo Magariños, Carmen Magnusson, Måns Marchetti, Carlo Marx, Maarten Meden, Katja Mendes, Amália Mochtak, Michal Mölder, Martin Montemagni, Simonetta Navarretta, Costanza Nitoń, Bartłomiej Norén, Fredrik Mohammadi Nwadukwe, Amanda Ojsteršek, Mihael Pančur, Andrej Papavassiliou, Vassilis Pereira, Rui Pérez Lago, María Piperidis, Stelios Pirker, Hannes Pisani, Marilina Pol, Henk van der Prokopidis, Prokopis Quochi, Valeria Rayson, Paul Regueira, Xosé Luís Rii, Andriana Rudolf, Michał Ruisi, Manuela Rupnik, Peter Schopper, Daniel Simov, Kiril Sinikallio, Laura Skubic, Jure Tamper, Minna Tungland, Lars Magne Tuominen, Jouni van Heusden, Ruben Varga, Zsófia Vázquez Abuín, Marta Venturi, Giulia Vidal Miguéns, Adrián Vider, Kadri Vivel Couso, Ainhoa Vladu, Adina Ioana Wissik, Tanja Yrjänäinen, Väinö Zevallos, Rodolfo Fišer, Darja
Dokumenttyp:	corpus
Erscheinungsdatum:	2024
Verlag/Hrsg.:	CLARIN ERIC
Schlagwörter:	Parla-CLARIN / parliamentary debates / COVID-19 / TEI / Bulgarian Parliament / Croatian Parliament / Polish Parliament / Slovenian Parliament / Czech Parliament / Icelandic Parliament / Belgian Parliament / Danish Parliament / Spanish Parliament / Dutch Parliament / Turkish Parliament / Italian Parliament / Hungarian Parliament / Latvian Parliament / French Parliament / Bosnian Parliament / Catalonian Parliament / Galician Parliament / Greek Parliament / Norwegian Parliament / Serbian Parliament / Swedish Parliament / Ukrainian Parliament / Finnish Parliament / Estonian Parliament / Basque Parliament / Portuguese parliament / Austrian Parliament / UK Parliament
Sprache:	Bosnian Bulgarian Catalan Croatian Tschechisch Danish Niederländisch Englisch Estonian Französisch Galician Deutsch Hungarian ice Italian Latvian Greek Norwegian Polish Portuguese Russian Serbian Slovenian Spanish Swedish Turkish Ukrainian Finnish baq
Permalink:	https://search.fid-benelux.de/Record/base-28977903
Datenquelle:	BASE; Originalkatalog
Powered By:	BASE
Link(s) :	http://hdl.handle.net/11356/1911

ParlaMint 4.1 is a set of comparable corpora containing transcriptions of parliamentary debates of 29 European countries and autonomous regions, mostly starting in 2015 and extending to mid-2022. The individual corpora comprise between 9 and 126 million words and the complete set contains over 1.2 billion words. The transcriptions are divided by days with information on the term, session and meeting, and contain speeches marked by the speaker and their role (e.g. chair, regular speaker). The speeches also contain marked-up transcriber comments, such as gaps in the transcription, interruptions, applause, etc. The corpora have extensive metadata, most importantly on speakers (name, gender, MP and minister status, party affiliation), on their political parties and parliamentary groups (name, coalition/opposition status, Wikipedia-sourced left-to-right political orientation, and CHES variables, https://www.chesdata.eu/). Note that some corpora have further metadata, e.g. the year of birth of the speakers, links to their Wikipedia articles, their membership in various committees, etc. The transcriptions are also marked with the subcorpora they belong to ("reference", until 2020-01-30, "covid", from 2020-01-31, and "war", from 2022-02-24). An overview of the statistics of the corpora is avaialable on GitHub in the folder Build/Metadata, in particular for the release 4.1 at https://github.com/clarin-eric/ParlaMint/tree/v4.1/Build/Metadata. The corpora are encoded according to the ParlaMint encoding guidelines (https://clarin-eric.github.io/ParlaMint/) and schemas (included in the distribution). The ParlaMint.ana linguistic annotation includes tokenization; sentence segmentation; lemmatisation; Universal Dependencies part-of-speech, morphological features, and syntactic dependencies; and the 4-class CoNLL-2003 named entities. Some corpora also have further linguistic annotations, in particular PoS tagging according a language-specific scheme, with their corpus TEI headers giving further details on the annotation ...