Documentation

1. Présentation

Le Lexique Lectura est une base de données lexicale française libre et complète, développée dans le cadre du projet Lectura. Elle combine lexique, phonétique IPA, morphologie, sémantique et entités nommées Wikidata dans une base SQLite unique.

Conçue pour des applications de traitement automatique du langage, d'aide à la lecture et d'exploration linguistique, elle est accessible librement via ce site web et via une API REST.

2. Contenu de la base

Le lexique contient actuellement :

359 303 lemmes
1 518 155 formes fléchies
456 335 définitions
2 483 597 entités nommées
873 catégories

Relations sémantiques :

  • 360 884 synonymes
  • 117 992 dérivés
  • 76 380 apparentés
  • 1 287 660 hyperonymes
  • 49 334 antonymes

3. Sources de données

Le lexique est construit à partir des sources libres suivantes :

Source Usage Licence
GLAFF 1.2.2 Lexique de base (lemmes, formes, morphologie) CC BY-SA 3.0
Wiktionnaire Définitions, étymologies, exemples CC BY-SA 3.0
Lexique 3.83 Fréquences, phonétique complémentaire CC BY-SA 4.0
ipa-dict Phonétique IPA complémentaire MIT
Kaikki.org Définitions, synonymes, antonymes CC BY-SA 3.0
WOLF 1.0b4 Catégories sémantiques, co-synonymes CeCILL-C
Thésaurus LibreOffice Synonymes (complément) LGPL 2.1+
OpenSubtitles Fréquences orales CC BY-SA 4.0
CHACQFAM Âge d'acquisition estimé CC BY-SA 4.0
Wikidata Entités nommées, catégories, propriétés CC0 1.0
JeuxDeMots Relations sémantiques complémentaires CC BY-SA 4.0

4. Champs et structure

La base est organisée en deux couches principales :

Lemme (forme canonique)

Chaque lemme représente une unité lexicale (ex. chat, manger, petit).

ChampDescriptionExemple
lemmeForme canonique du motchat
cgramCatégorie grammaticaleNOM
genreGenre grammaticalm
freq_compositeFréquence composite (par million)62.3
etymologieOrigine du motDu latin cattus

Forme fléchie

Chaque lemme possède une ou plusieurs formes fléchies (pluriel, féminin, conjugaison, etc.).

ChampDescriptionExemple
orthoGraphiechats
phoneTranscription phonétique IPA/ʃa/
syllabesDécoupage syllabiqueʃa
multextTag morphosyntaxique MULTEXTNcmp
orthocodeCode orthographique syllabiquecha°

Définition

Les définitions sont issues du Wiktionnaire et peuvent inclure un registre de langue et un domaine thématique.

ChampDescriptionExemple
definitionTexte de la définitionPetit mammifère domestique...
registreNiveau de languefamilier, soutenu, vieilli
themeDomaine thématiquezoologie, cuisine, droit

Exemple : le mot "chat"

Lemme : chat (NOM, masculin)
Formes : chat /ʃa/, chats /ʃa/, chatte /ʃat/, chattes /ʃat/
Définition : Petit mammifère carnivore domestique de la famille des Felidae.

5. Catégories grammaticales

Chaque lemme est associé à une catégorie grammaticale (champ cgram). Le lexique utilise les catégories suivantes :

CodeCatégorieExemples
NOMNom communchat, maison, idée
NOM PROPRENom propreParis, Victor, Sahara
VERVerbemanger, être, courir
AUXAuxiliaireavoir, être
ADJAdjectifgrand, bleu, ancien
ADVAdverbetrès, bien, rapidement
DETDéterminantle, un, mon, ce
PROPronomje, celui, lequel
PREPrépositionde, à, dans, pour
CONConjonctionet, mais, que, si
ONOOnomatopée / Interjectionoh, hélas, boum

6. Tags MULTEXT

Chaque forme fléchie porte un tag MULTEXT (champ multext) qui encode la catégorie grammaticale et les traits flexionnels dans une chaîne positionnelle. Ce système est basé sur le standard MULTEXT-GRACE / EAGLES.

Principe

Chaque caractère du tag correspond à un trait, selon sa position. Le premier caractère indique toujours la catégorie majeure :

Position 0Catégorie
NNom
VVerbe
AAdjectif
DDéterminant
PPronom
RAdverbe
SPréposition
CConjonction

Noms (N)

Format : N + sous-type + genre + nombre

PositionTraitValeurs
1Sous-typec commun, p propre
2Genrem masculin, f féminin
3Nombres singulier, p pluriel

Ncms = Nom commun masculin singulier (ex. chat)
Ncfp = Nom commun féminin pluriel (ex. maisons)
Np = Nom propre (ex. Paris)

Verbes (V)

Format : V + sous-type + mode + temps + personne + nombre + genre

PositionTraitValeurs
1Sous-typem principal, a auxiliaire
2Modei indicatif, s subjonctif, m impératif, c conditionnel, n infinitif, p participe, g gérondif
3Tempsp présent, i imparfait, f futur, s passé simple
4Personne1, 2, 3
5Nombres singulier, p pluriel
6Genrem masculin, f féminin (participes)

Vmip3s = Verbe principal, indicatif présent, 3e personne singulier (ex. mange)
Vmii1p = Verbe principal, indicatif imparfait, 1re personne pluriel (ex. mangions)
Vmps--m = Verbe principal, participe passé, masculin (ex. mangé)
Vmn = Verbe principal, infinitif (ex. manger)

Adjectifs (A)

Format : A + sous-type + degré + genre + nombre

PositionTraitValeurs
1Sous-typef qualificatif, o ordinal, i indéfini
2Degrép positif, c comparatif, s superlatif
3Genrem masculin, f féminin
4Nombres singulier, p pluriel

Afpms = Adjectif qualificatif positif masculin singulier (ex. grand)
Afpfp = Adjectif qualificatif positif féminin pluriel (ex. grandes)

7. Orthocode

L'orthocode est un système de codage syllabique orthographique développé pour Lectura. Il permet de découper un mot en syllabes en se basant sur sa graphie (et non sur la phonétique seule), tout en marquant les lettres muettes et les particularités orthographiques.

Marqueurs

MarqueurSignificationExemple
.Séparateur de syllabespe.ti° → pe / ti
°Lettre(s) muette(s) en fin de syllabecha° → le t est muet
(y)Lettre-pont (appartient aux deux syllabes)ba.la(y).yer → le y fait liaison
²Consonne doublée non séparéea.l²u.mer → les deux l restent ensemble

Exemples

MotOrthocodeSyllabes IPA
chatcha°/ʃa/
petitpe.ti°/pə.ti/
balayerba.la(y).yer/ba.le.je/
maisonmai.son/mɛ.zɔ̃/
allumera.l²u.mer/a.ly.me/

8. Fréquences

Le lexique intègre quatre sources de fréquence complémentaires, couvrant différents registres d'usage. Toutes les valeurs sont exprimées en occurrences par million de mots.

ChampSourceRegistreDescription
freq_opensubs OpenSubtitles Oral / informel Sous-titres de films et séries francophones
freq_frantext Frantext Littéraire Corpus de textes littéraires français
freq_lm10 LM10 Livres modernes Corpus de livres contemporains
freq_frwac FrWaC Web Corpus de pages web francophones

Score composite

Le champ freq_composite combine les quatre sources en un score unique, calculé par moyenne géométrique des sources disponibles :

composite = exp( (log(f1) + log(f2) + ... + log(fn)) / max(n, 2) )

Le dénominateur est plafonné à min 2 : si un mot n'apparaît que dans une seule source, la formule prend la racine carrée plutôt que la valeur brute, pénalisant les mots attestés dans un seul corpus. Le résultat est également exprimé en occurrences par million.

Par exemple, un mot très courant comme de a un composite d'environ 30 000 par million, tandis qu'un terme technique rare aura un composite inférieur à 1.

9. Relations sémantiques

Le lexique contient cinq types de relations entre lemmes :

RelationDescriptionExemple
Synonymes Mots de sens proche ou identique maison → habitation, demeure, logis
Antonymes Mots de sens contraire grand → petit
Hyperonymes Terme plus général (relation "est un") chat → mammifère → animal
Dérivés Mots formés à partir du même radical terre → terrestre, atterrir, enterrer
Apparentés Mots sémantiquement liés sans lien morphologique direct école → enseignant, élève, classe

Ces relations proviennent de trois sources principales : Kaikki (extraction du Wiktionnaire), WOLF (WordNet français) et JeuxDeMots.

10. Entités nommées

Le lexique intègre 2 483 597 entités nommées issues de Wikidata, organisées en 873 catégories hiérarchiques.

Types d'entités

  • Personne : personnalités, artistes, scientifiques, sportifs...
  • Lieu : villes, pays, régions, monuments, cours d'eau...
  • Organisation : entreprises, institutions, associations...
  • Oeuvre : livres, films, albums, tableaux...
  • Événement : batailles, festivals, compétitions...
  • Taxon : espèces animales et végétales...

Propriétés

Chaque entité peut posséder des propriétés enrichies :

  • Image : photo ou illustration (Wikimedia Commons)
  • Dates : naissance, décès, fondation...
  • Coordonnées : latitude, longitude (pour les lieux)
  • Extrait : résumé de l'article Wikipédia
  • Notoriété et Popularité : deux mesures d'importance (voir ci-dessous)

Notoriété et Popularité

Le lexique fournit deux métriques complémentaires pour évaluer l'importance d'une entité. Elles servent notamment à trier les résultats de recherche et à prioriser l'affichage.

MétriqueSourceSignification
Notoriété Wikidata (sitelinks) Nombre d'éditions linguistiques de Wikipédia possédant un article sur cette entité. Par exemple, « France » a un article dans plus de 300 Wikipédias (notoriété ≈ 300), tandis qu'une commune rurale n'en aura que quelques-uns. C'est une mesure internationale et stable dans le temps.
Popularité Wikipédia francophone (pageviews) Nombre moyen de consultations quotidiennes de l'article Wikipédia en français. Calculé par échantillonnage stratifié sur plusieurs années de dumps Wikimedia (dates réparties sur toutes les saisons et jours de semaine pour éliminer les biais de périodicité). C'est une mesure francophone et dynamique, reflétant l'intérêt du public français.

Exemple : Victor Hugo a une notoriété élevée (~300 sitelinks) et une forte popularité (~1 500 vues/jour en français). Une ville américaine peu connue en France peut avoir une notoriété correcte (article dans 50 Wikipédias) mais une popularité faible (quelques vues par jour sur le Wikipédia francophone).

Les entités sont liées aux lemmes du lexique, permettant de naviguer du vocabulaire courant vers les connaissances encyclopédiques et inversement. Explorez les entités par catégories.

11. Licence et attribution

Le Lexique Lectura est un assemblage de sources ouvertes. La licence dominante est CC BY-SA (versions 3.0 et 4.0). Les entités Wikidata sont sous CC0 (domaine public). WOLF est sous licence CeCILL-C (compatible LGPL).

Les données sont redistribuées conformément aux termes de chaque source. Si vous utilisez le lexique dans un projet, merci de citer les sources pertinentes (voir le tableau dans la section Sources de données).

Le code source du projet Lectura est disponible sur lec-tu-ra.com.