Corpora

Identification

Les outils

Les données

Listes de corpora

Corpora

Listes de noms

Liste de marqueurs

Dictionnaires & Lexiques

Taxonomie

Vecteur

  • NASARI (a Novel Approach to a Semantically-Aware Representation of Items) est une représentation de vecteurs sémantiques pour les synsets BableNet et pour les pages wikipéedia dans plusieurs langues.

Verbes

Corpus oraux transcrits

  • Le projet Rhapsodie regroupe des échantillons sonores pour un total de 3 heures et 33000 mots. Ces échantillons sont accompagnés d’une transcription orthographique et d'une transcription phonétique alignées au son (frontières de mots, syllabes et phonèmes), d’annotations syntaxiques et prosodiques. On trouve également les treebanks correspondants.

Corpus français ancien

  • Corpus Renom : entités nommées obtenues à partir de transcriptions réalisées sur les exemplaires originaux de l’époque (graphies non modernisées), issues du corpus de textes de la Renaissance BVH-Epistemon (Oeuvres de François Rabelais)

Multimedia

Collection

Dialogue / QR

Paraphrase

Web

Divers (anglais)

Expressions

Dictionnaires & Lexiques

Verbes

Twitter

Divers

  • ConceptNet est un réseau sémantique pour l'anglais.

Arabe

Divers (autres)

Les sites

Formats

TMX

Spécifications

Outils

Encodage

XML

recherche/ml/corpora.txt · Dernière modification: 2020/05/04 19:20 par janiszek