Documentation

1. Présentation

Le Lexique Lectura est une base de données lexicale française libre et complète, développée dans le cadre du projet Lectura. Elle combine lexique, phonétique IPA, morphologie, sémantique et entités nommées Wikidata dans une base SQLite unique.

Conçue pour des applications de traitement automatique du langage, d'aide à la lecture et d'exploration linguistique, elle est accessible librement via ce site web et via une API REST.

2. Contenu de la base

Le lexique contient actuellement :

359 303 lemmes

1 518 155 formes fléchies

456 335 définitions

2 483 597 entités nommées

873 catégories

Relations sémantiques :

360 884 synonymes
117 992 dérivés
76 380 apparentés
1 287 660 hyperonymes
49 334 antonymes

3. Sources de données

Le lexique est construit à partir des sources libres suivantes :

Source	Usage	Licence
GLAFF 1.2.2	Lexique de base (lemmes, formes, morphologie)	CC BY-SA 3.0
Wiktionnaire	Définitions, étymologies, exemples	CC BY-SA 3.0
Lexique 3.83	Fréquences, phonétique complémentaire	CC BY-SA 4.0
ipa-dict	Phonétique IPA complémentaire	MIT
Kaikki.org	Définitions, synonymes, antonymes	CC BY-SA 3.0
WOLF 1.0b4	Catégories sémantiques, co-synonymes	CeCILL-C
Thésaurus LibreOffice	Synonymes (complément)	LGPL 2.1+
OpenSubtitles	Fréquences orales	CC BY-SA 4.0
CHACQFAM	Âge d'acquisition estimé	CC BY-SA 4.0
Wikidata	Entités nommées, catégories, propriétés	CC0 1.0
JeuxDeMots	Relations sémantiques complémentaires	CC BY-SA 4.0

4. Champs et structure

La base est organisée en deux couches principales :

Lemme (forme canonique)

Chaque lemme représente une unité lexicale (ex. chat, manger, petit).

Champ	Description	Exemple
lemme	Forme canonique du mot	chat
cgram	Catégorie grammaticale	NOM
genre	Genre grammatical	m
freq_composite	Fréquence composite (par million)	62.3
etymologie	Origine du mot	Du latin cattus

Forme fléchie

Chaque lemme possède une ou plusieurs formes fléchies (pluriel, féminin, conjugaison, etc.).

Champ	Description	Exemple
ortho	Graphie	chats
phone	Transcription phonétique IPA	/ʃa/
syllabes	Découpage syllabique	ʃa
multext	Tag morphosyntaxique MULTEXT	Ncmp
orthocode	Code orthographique syllabique	cha°

Définition

Les définitions sont issues du Wiktionnaire et peuvent inclure un registre de langue et un domaine thématique.

Champ	Description	Exemple
definition	Texte de la définition	Petit mammifère domestique...
registre	Niveau de langue	familier, soutenu, vieilli
theme	Domaine thématique	zoologie, cuisine, droit

Exemple : le mot "chat"

Lemme : chat (NOM, masculin)
Formes : chat /ʃa/, chats /ʃa/, chatte /ʃat/, chattes /ʃat/
Définition : Petit mammifère carnivore domestique de la famille des Felidae.

5. Catégories grammaticales

Chaque lemme est associé à une catégorie grammaticale (champ cgram). Le lexique utilise les catégories suivantes :

Code	Catégorie	Exemples
`NOM`	Nom commun	chat, maison, idée
`NOM PROPRE`	Nom propre	Paris, Victor, Sahara
`VER`	Verbe	manger, être, courir
`AUX`	Auxiliaire	avoir, être
`ADJ`	Adjectif	grand, bleu, ancien
`ADV`	Adverbe	très, bien, rapidement
`DET`	Déterminant	le, un, mon, ce
`PRO`	Pronom	je, celui, lequel
`PRE`	Préposition	de, à, dans, pour
`CON`	Conjonction	et, mais, que, si
`ONO`	Onomatopée / Interjection	oh, hélas, boum

6. Tags MULTEXT

Chaque forme fléchie porte un tag MULTEXT (champ multext) qui encode la catégorie grammaticale et les traits flexionnels dans une chaîne positionnelle. Ce système est basé sur le standard MULTEXT-GRACE / EAGLES.

Principe

Chaque caractère du tag correspond à un trait, selon sa position. Le premier caractère indique toujours la catégorie majeure :

Position 0	Catégorie
`N`	Nom
`V`	Verbe
`A`	Adjectif
`D`	Déterminant
`P`	Pronom
`R`	Adverbe
`S`	Préposition
`C`	Conjonction

Noms (`N`)

Format : N + sous-type + genre + nombre

Position	Trait	Valeurs
1	Sous-type	`c` commun, `p` propre
2	Genre	`m` masculin, `f` féminin
3	Nombre	`s` singulier, `p` pluriel

Ncms = Nom commun masculin singulier (ex. chat)
Ncfp = Nom commun féminin pluriel (ex. maisons)
Np = Nom propre (ex. Paris)

Verbes (`V`)

Format : V + sous-type + mode + temps + personne + nombre + genre

Position	Trait	Valeurs
1	Sous-type	`m` principal, `a` auxiliaire
2	Mode	`i` indicatif, `s` subjonctif, `m` impératif, `c` conditionnel, `n` infinitif, `p` participe, `g` gérondif
3	Temps	`p` présent, `i` imparfait, `f` futur, `s` passé simple
4	Personne	`1`, `2`, `3`
5	Nombre	`s` singulier, `p` pluriel
6	Genre	`m` masculin, `f` féminin (participes)

Vmip3s = Verbe principal, indicatif présent, 3^e personne singulier (ex. mange)
Vmii1p = Verbe principal, indicatif imparfait, 1^re personne pluriel (ex. mangions)
Vmps--m = Verbe principal, participe passé, masculin (ex. mangé)
Vmn = Verbe principal, infinitif (ex. manger)

Adjectifs (`A`)

Format : A + sous-type + degré + genre + nombre

Position	Trait	Valeurs
1	Sous-type	`f` qualificatif, `o` ordinal, `i` indéfini
2	Degré	`p` positif, `c` comparatif, `s` superlatif
3	Genre	`m` masculin, `f` féminin
4	Nombre	`s` singulier, `p` pluriel

Afpms = Adjectif qualificatif positif masculin singulier (ex. grand)
Afpfp = Adjectif qualificatif positif féminin pluriel (ex. grandes)

7. Orthocode

L'orthocode est un système de codage syllabique orthographique développé pour Lectura. Il permet de découper un mot en syllabes en se basant sur sa graphie (et non sur la phonétique seule), tout en marquant les lettres muettes et les particularités orthographiques.

Marqueurs

Marqueur	Signification	Exemple
`.`	Séparateur de syllabes	pe.ti° → pe / ti
`°`	Lettre(s) muette(s) en fin de syllabe	cha° → le t est muet
`(y)`	Lettre-pont (appartient aux deux syllabes)	ba.la(y).yer → le y fait liaison
`²`	Consonne doublée non séparée	a.l²u.mer → les deux l restent ensemble

Exemples

Mot	Orthocode	Syllabes IPA
chat	`cha°`	/ʃa/
petit	`pe.ti°`	/pə.ti/
balayer	`ba.la(y).yer`	/ba.le.je/
maison	`mai.son`	/mɛ.zɔ̃/
allumer	`a.l²u.mer`	/a.ly.me/

8. Fréquences

Le lexique intègre quatre sources de fréquence complémentaires, couvrant différents registres d'usage. Toutes les valeurs sont exprimées en occurrences par million de mots.

Champ	Source	Registre	Description
`freq_opensubs`	OpenSubtitles	Oral / informel	Sous-titres de films et séries francophones
`freq_frantext`	Frantext	Littéraire	Corpus de textes littéraires français
`freq_lm10`	LM10	Livres modernes	Corpus de livres contemporains
`freq_frwac`	FrWaC	Web	Corpus de pages web francophones

Score composite

Le champ freq_composite combine les quatre sources en un score unique, calculé par moyenne géométrique des sources disponibles :

composite = exp( (log(f₁) + log(f₂) + ... + log(f_n)) / max(n, 2) )

Le dénominateur est plafonné à min 2 : si un mot n'apparaît que dans une seule source, la formule prend la racine carrée plutôt que la valeur brute, pénalisant les mots attestés dans un seul corpus. Le résultat est également exprimé en occurrences par million.

Par exemple, un mot très courant comme de a un composite d'environ 30 000 par million, tandis qu'un terme technique rare aura un composite inférieur à 1.

9. Relations sémantiques

Le lexique contient cinq types de relations entre lemmes :

Relation	Description	Exemple
Synonymes	Mots de sens proche ou identique	maison → habitation, demeure, logis
Antonymes	Mots de sens contraire	grand → petit
Hyperonymes	Terme plus général (relation "est un")	chat → mammifère → animal
Dérivés	Mots formés à partir du même radical	terre → terrestre, atterrir, enterrer
Apparentés	Mots sémantiquement liés sans lien morphologique direct	école → enseignant, élève, classe

Ces relations proviennent de trois sources principales : Kaikki (extraction du Wiktionnaire), WOLF (WordNet français) et JeuxDeMots.

10. Entités nommées

Le lexique intègre 2 483 597 entités nommées issues de Wikidata, organisées en 873 catégories hiérarchiques.

Types d'entités

Personne : personnalités, artistes, scientifiques, sportifs...
Lieu : villes, pays, régions, monuments, cours d'eau...
Organisation : entreprises, institutions, associations...
Oeuvre : livres, films, albums, tableaux...
Événement : batailles, festivals, compétitions...
Taxon : espèces animales et végétales...

Propriétés

Chaque entité peut posséder des propriétés enrichies :

Image : photo ou illustration (Wikimedia Commons)
Dates : naissance, décès, fondation...
Coordonnées : latitude, longitude (pour les lieux)
Extrait : résumé de l'article Wikipédia
Notoriété et Popularité : deux mesures d'importance (voir ci-dessous)

Notoriété et Popularité

Le lexique fournit deux métriques complémentaires pour évaluer l'importance d'une entité. Elles servent notamment à trier les résultats de recherche et à prioriser l'affichage.

Métrique	Source	Signification
Notoriété	Wikidata (sitelinks)	Nombre d'éditions linguistiques de Wikipédia possédant un article sur cette entité. Par exemple, « France » a un article dans plus de 300 Wikipédias (notoriété ≈ 300), tandis qu'une commune rurale n'en aura que quelques-uns. C'est une mesure internationale et stable dans le temps.
Popularité	Wikipédia francophone (pageviews)	Nombre moyen de consultations quotidiennes de l'article Wikipédia en français. Calculé par échantillonnage stratifié sur plusieurs années de dumps Wikimedia (dates réparties sur toutes les saisons et jours de semaine pour éliminer les biais de périodicité). C'est une mesure francophone et dynamique, reflétant l'intérêt du public français.

Exemple : Victor Hugo a une notoriété élevée (~300 sitelinks) et une forte popularité (~1 500 vues/jour en français). Une ville américaine peu connue en France peut avoir une notoriété correcte (article dans 50 Wikipédias) mais une popularité faible (quelques vues par jour sur le Wikipédia francophone).

Les entités sont liées aux lemmes du lexique, permettant de naviguer du vocabulaire courant vers les connaissances encyclopédiques et inversement. Explorez les entités par catégories.

11. Licence et attribution

Le Lexique Lectura est un assemblage de sources ouvertes. La licence dominante est CC BY-SA (versions 3.0 et 4.0). Les entités Wikidata sont sous CC0 (domaine public). WOLF est sous licence CeCILL-C (compatible LGPL).

Les données sont redistribuées conformément aux termes de chaque source. Si vous utilisez le lexique dans un projet, merci de citer les sources pertinentes (voir le tableau dans la section Sources de données).

Le code source du projet Lectura est disponible sur lec-tu-ra.com.