Documentation
1. Présentation
Le Lexique Lectura est une base de données lexicale française libre et complète, développée dans le cadre du projet Lectura. Elle combine lexique, phonétique IPA, morphologie, sémantique et entités nommées Wikidata dans une base SQLite unique.
Conçue pour des applications de traitement automatique du langage, d'aide à la lecture et d'exploration linguistique, elle est accessible librement via ce site web et via une API REST.
2. Contenu de la base
Le lexique contient actuellement :
Relations sémantiques :
- 360 884 synonymes
- 117 992 dérivés
- 76 380 apparentés
- 1 287 660 hyperonymes
- 49 334 antonymes
3. Sources de données
Le lexique est construit à partir des sources libres suivantes :
| Source | Usage | Licence |
|---|---|---|
| GLAFF 1.2.2 | Lexique de base (lemmes, formes, morphologie) | CC BY-SA 3.0 |
| Wiktionnaire | Définitions, étymologies, exemples | CC BY-SA 3.0 |
| Lexique 3.83 | Fréquences, phonétique complémentaire | CC BY-SA 4.0 |
| ipa-dict | Phonétique IPA complémentaire | MIT |
| Kaikki.org | Définitions, synonymes, antonymes | CC BY-SA 3.0 |
| WOLF 1.0b4 | Catégories sémantiques, co-synonymes | CeCILL-C |
| Thésaurus LibreOffice | Synonymes (complément) | LGPL 2.1+ |
| OpenSubtitles | Fréquences orales | CC BY-SA 4.0 |
| CHACQFAM | Âge d'acquisition estimé | CC BY-SA 4.0 |
| Wikidata | Entités nommées, catégories, propriétés | CC0 1.0 |
| JeuxDeMots | Relations sémantiques complémentaires | CC BY-SA 4.0 |
4. Champs et structure
La base est organisée en deux couches principales :
Lemme (forme canonique)
Chaque lemme représente une unité lexicale (ex. chat, manger, petit).
| Champ | Description | Exemple |
|---|---|---|
| lemme | Forme canonique du mot | chat |
| cgram | Catégorie grammaticale | NOM |
| genre | Genre grammatical | m |
| freq_composite | Fréquence composite (par million) | 62.3 |
| etymologie | Origine du mot | Du latin cattus |
Forme fléchie
Chaque lemme possède une ou plusieurs formes fléchies (pluriel, féminin, conjugaison, etc.).
| Champ | Description | Exemple |
|---|---|---|
| ortho | Graphie | chats |
| phone | Transcription phonétique IPA | /ʃa/ |
| syllabes | Découpage syllabique | ʃa |
| multext | Tag morphosyntaxique MULTEXT | Ncmp |
| orthocode | Code orthographique syllabique | cha° |
Définition
Les définitions sont issues du Wiktionnaire et peuvent inclure un registre de langue et un domaine thématique.
| Champ | Description | Exemple |
|---|---|---|
| definition | Texte de la définition | Petit mammifère domestique... |
| registre | Niveau de langue | familier, soutenu, vieilli |
| theme | Domaine thématique | zoologie, cuisine, droit |
Exemple : le mot "chat"
Lemme : chat (NOM, masculin)
Formes : chat /ʃa/, chats /ʃa/, chatte /ʃat/, chattes /ʃat/
Définition : Petit mammifère carnivore domestique de la famille des Felidae.
5. Catégories grammaticales
Chaque lemme est associé à une catégorie grammaticale (champ cgram).
Le lexique utilise les catégories suivantes :
| Code | Catégorie | Exemples |
|---|---|---|
NOM | Nom commun | chat, maison, idée |
NOM PROPRE | Nom propre | Paris, Victor, Sahara |
VER | Verbe | manger, être, courir |
AUX | Auxiliaire | avoir, être |
ADJ | Adjectif | grand, bleu, ancien |
ADV | Adverbe | très, bien, rapidement |
DET | Déterminant | le, un, mon, ce |
PRO | Pronom | je, celui, lequel |
PRE | Préposition | de, à, dans, pour |
CON | Conjonction | et, mais, que, si |
ONO | Onomatopée / Interjection | oh, hélas, boum |
6. Tags MULTEXT
Chaque forme fléchie porte un tag MULTEXT (champ multext)
qui encode la catégorie grammaticale et les traits flexionnels dans une chaîne positionnelle.
Ce système est basé sur le standard MULTEXT-GRACE / EAGLES.
Principe
Chaque caractère du tag correspond à un trait, selon sa position. Le premier caractère indique toujours la catégorie majeure :
| Position 0 | Catégorie |
|---|---|
N | Nom |
V | Verbe |
A | Adjectif |
D | Déterminant |
P | Pronom |
R | Adverbe |
S | Préposition |
C | Conjonction |
Noms (N)
Format : N + sous-type + genre + nombre
| Position | Trait | Valeurs |
|---|---|---|
| 1 | Sous-type | c commun, p propre |
| 2 | Genre | m masculin, f féminin |
| 3 | Nombre | s singulier, p pluriel |
Ncms = Nom commun masculin singulier (ex. chat)
Ncfp = Nom commun féminin pluriel (ex. maisons)
Np = Nom propre (ex. Paris)
Verbes (V)
Format : V + sous-type + mode + temps + personne + nombre + genre
| Position | Trait | Valeurs |
|---|---|---|
| 1 | Sous-type | m principal, a auxiliaire |
| 2 | Mode | i indicatif, s subjonctif, m impératif, c conditionnel, n infinitif, p participe, g gérondif |
| 3 | Temps | p présent, i imparfait, f futur, s passé simple |
| 4 | Personne | 1, 2, 3 |
| 5 | Nombre | s singulier, p pluriel |
| 6 | Genre | m masculin, f féminin (participes) |
Vmip3s = Verbe principal, indicatif présent, 3e personne singulier (ex. mange)
Vmii1p = Verbe principal, indicatif imparfait, 1re personne pluriel (ex. mangions)
Vmps--m = Verbe principal, participe passé, masculin (ex. mangé)
Vmn = Verbe principal, infinitif (ex. manger)
Adjectifs (A)
Format : A + sous-type + degré + genre + nombre
| Position | Trait | Valeurs |
|---|---|---|
| 1 | Sous-type | f qualificatif, o ordinal, i indéfini |
| 2 | Degré | p positif, c comparatif, s superlatif |
| 3 | Genre | m masculin, f féminin |
| 4 | Nombre | s singulier, p pluriel |
Afpms = Adjectif qualificatif positif masculin singulier (ex. grand)
Afpfp = Adjectif qualificatif positif féminin pluriel (ex. grandes)
7. Orthocode
L'orthocode est un système de codage syllabique orthographique développé pour Lectura. Il permet de découper un mot en syllabes en se basant sur sa graphie (et non sur la phonétique seule), tout en marquant les lettres muettes et les particularités orthographiques.
Marqueurs
| Marqueur | Signification | Exemple |
|---|---|---|
. | Séparateur de syllabes | pe.ti° → pe / ti |
° | Lettre(s) muette(s) en fin de syllabe | cha° → le t est muet |
(y) | Lettre-pont (appartient aux deux syllabes) | ba.la(y).yer → le y fait liaison |
² | Consonne doublée non séparée | a.l²u.mer → les deux l restent ensemble |
Exemples
| Mot | Orthocode | Syllabes IPA |
|---|---|---|
| chat | cha° | /ʃa/ |
| petit | pe.ti° | /pə.ti/ |
| balayer | ba.la(y).yer | /ba.le.je/ |
| maison | mai.son | /mɛ.zɔ̃/ |
| allumer | a.l²u.mer | /a.ly.me/ |
8. Fréquences
Le lexique intègre quatre sources de fréquence complémentaires, couvrant différents registres d'usage. Toutes les valeurs sont exprimées en occurrences par million de mots.
| Champ | Source | Registre | Description |
|---|---|---|---|
freq_opensubs |
OpenSubtitles | Oral / informel | Sous-titres de films et séries francophones |
freq_frantext |
Frantext | Littéraire | Corpus de textes littéraires français |
freq_lm10 |
LM10 | Livres modernes | Corpus de livres contemporains |
freq_frwac |
FrWaC | Web | Corpus de pages web francophones |
Score composite
Le champ freq_composite combine les quatre sources en un score unique,
calculé par moyenne géométrique des sources disponibles :
composite = exp( (log(f1) + log(f2) + ... + log(fn)) / max(n, 2) )
Le dénominateur est plafonné à min 2 : si un mot n'apparaît que dans une seule source, la formule prend la racine carrée plutôt que la valeur brute, pénalisant les mots attestés dans un seul corpus. Le résultat est également exprimé en occurrences par million.
Par exemple, un mot très courant comme de a un composite d'environ 30 000 par million, tandis qu'un terme technique rare aura un composite inférieur à 1.
9. Relations sémantiques
Le lexique contient cinq types de relations entre lemmes :
| Relation | Description | Exemple |
|---|---|---|
| Synonymes | Mots de sens proche ou identique | maison → habitation, demeure, logis |
| Antonymes | Mots de sens contraire | grand → petit |
| Hyperonymes | Terme plus général (relation "est un") | chat → mammifère → animal |
| Dérivés | Mots formés à partir du même radical | terre → terrestre, atterrir, enterrer |
| Apparentés | Mots sémantiquement liés sans lien morphologique direct | école → enseignant, élève, classe |
Ces relations proviennent de trois sources principales : Kaikki (extraction du Wiktionnaire), WOLF (WordNet français) et JeuxDeMots.
10. Entités nommées
Le lexique intègre 2 483 597 entités nommées issues de Wikidata, organisées en 873 catégories hiérarchiques.
Types d'entités
- Personne : personnalités, artistes, scientifiques, sportifs...
- Lieu : villes, pays, régions, monuments, cours d'eau...
- Organisation : entreprises, institutions, associations...
- Oeuvre : livres, films, albums, tableaux...
- Événement : batailles, festivals, compétitions...
- Taxon : espèces animales et végétales...
Propriétés
Chaque entité peut posséder des propriétés enrichies :
- Image : photo ou illustration (Wikimedia Commons)
- Dates : naissance, décès, fondation...
- Coordonnées : latitude, longitude (pour les lieux)
- Extrait : résumé de l'article Wikipédia
- Notoriété et Popularité : deux mesures d'importance (voir ci-dessous)
Notoriété et Popularité
Le lexique fournit deux métriques complémentaires pour évaluer l'importance d'une entité. Elles servent notamment à trier les résultats de recherche et à prioriser l'affichage.
| Métrique | Source | Signification |
|---|---|---|
| Notoriété | Wikidata (sitelinks) | Nombre d'éditions linguistiques de Wikipédia possédant un article sur cette entité. Par exemple, « France » a un article dans plus de 300 Wikipédias (notoriété ≈ 300), tandis qu'une commune rurale n'en aura que quelques-uns. C'est une mesure internationale et stable dans le temps. |
| Popularité | Wikipédia francophone (pageviews) | Nombre moyen de consultations quotidiennes de l'article Wikipédia en français. Calculé par échantillonnage stratifié sur plusieurs années de dumps Wikimedia (dates réparties sur toutes les saisons et jours de semaine pour éliminer les biais de périodicité). C'est une mesure francophone et dynamique, reflétant l'intérêt du public français. |
Exemple : Victor Hugo a une notoriété élevée (~300 sitelinks) et une forte popularité (~1 500 vues/jour en français). Une ville américaine peu connue en France peut avoir une notoriété correcte (article dans 50 Wikipédias) mais une popularité faible (quelques vues par jour sur le Wikipédia francophone).
Les entités sont liées aux lemmes du lexique, permettant de naviguer du vocabulaire courant vers les connaissances encyclopédiques et inversement. Explorez les entités par catégories.
11. Licence et attribution
Le Lexique Lectura est un assemblage de sources ouvertes. La licence dominante est CC BY-SA (versions 3.0 et 4.0). Les entités Wikidata sont sous CC0 (domaine public). WOLF est sous licence CeCILL-C (compatible LGPL).
Les données sont redistribuées conformément aux termes de chaque source. Si vous utilisez le lexique dans un projet, merci de citer les sources pertinentes (voir le tableau dans la section Sources de données).
Le code source du projet Lectura est disponible sur lec-tu-ra.com.