Glossaire PDF
Définitions claires des termes techniques que vous croisez dans le monde du PDF — PDF/A, OCR, RGPD, signatures, compression.
PDF/A
Format PDF standardisé pour l'archivage longue durée (ISO 19005).
Le PDF/A est une variante du PDF conçue pour garantir la lisibilité d'un document à 10, 20 ou 50 ans. Toutes les polices doivent être embarquées, aucun contenu externe n'est autorisé, et le fichier est auto-suffisant. Trois familles existent : PDF/A-1 (le plus strict), PDF/A-2 (avec transparence et calques), PDF/A-3 (avec embarquement de fichiers).
Dans plusieurs contextes européens (archives publiques, marchés publics dématérialisés, factures électroniques Factur-X/ZUGFeRD), le PDF/A est obligatoire. Pour 95 % des cas, PDF/A-2b suffit.
OCR (Reconnaissance Optique de Caractères)
Conversion d'une image de texte en texte numérique cherchable et copiable.
L'OCR (Optical Character Recognition) transforme une image contenant du texte (scan, photo) en données texte exploitables — recherchables, copiables, indexables.
Les moteurs modernes (Tesseract 5+, Google Vision, AWS Textract) utilisent des réseaux de neurones convolutifs entraînés sur des dizaines de millions de pages, atteignant 99,5 %+ de précision sur des scans propres en français/anglais. Sur des manuscrits libres, la précision tombe à 60-80 % — toujours le talon d'Achille de la technologie.
RGPD (Règlement Général sur la Protection des Données)
Règlement européen sur la protection des données personnelles, en vigueur depuis 2018.
Le RGPD impose à toute entreprise traitant des données de citoyens européens de respecter des principes de minimisation, de transparence, de droit d'accès et d'effacement. Il s'applique indépendamment du pays où l'entreprise est basée.
Être conforme RGPD ne suffit cependant pas pour les transferts vers les États-Unis : depuis Schrems II (2020) et le Cloud Act (2018), la conformité réelle exige soit un hébergement européen, soit des garanties supplémentaires (chiffrement de bout en bout, anonymisation préalable).
Cloud Act (CLOUD Act)
Loi US de 2018 qui permet aux autorités d'accéder aux données des entreprises US, où qu'elles soient stockées.
Le CLOUD Act (Clarifying Lawful Overseas Use of Data Act) autorise toute agence fédérale américaine à exiger d'une entreprise sous juridiction US — y compris ses filiales européennes — la communication de données stockées n'importe où dans le monde, sans information préalable de l'utilisateur.
Concrètement : un PDF traité par iLovePDF, Adobe ou tout service utilisant AWS / Google Cloud / Azure est techniquement accessible aux autorités US. Pour les données sensibles européennes (contrats, RH, juridique), c'est un risque de non-conformité au RGPD via Schrems II.
eIDAS
Règlement européen sur l'identification électronique et les services de confiance.
Le règlement eIDAS (Electronic IDentification, Authentication and trust Services), en vigueur depuis 2014, harmonise la signature électronique en Europe. Il définit trois niveaux : signature simple (SES), avancée (AES) et qualifiée (QES).
La QES est la seule strictement équivalente à la signature manuscrite devant la loi. Elle exige un dispositif certifié (carte à puce, eID nationale, app certifiée). La SES (dessiner sa signature avec la souris) est valide juridiquement mais faiblement probante — réservée aux usages sans enjeu fort.
DPI (Dots Per Inch)
Unité de résolution d'image — nombre de points par pouce.
Le DPI mesure la densité de pixels d'une image numérique ou imprimée. Plus le DPI est élevé, plus l'image est détaillée — mais plus elle pèse en termes de fichier.
Valeurs courantes : - 300 DPI : standard d'impression professionnelle - 150 DPI : suffisant pour lecture écran - 96 DPI : invisible à l'œil nu sur écran (limite humaine de perception)
La compression PDF tire parti du DPI : downsampler de 300 à 150 DPI divise typiquement le poids des images par 4, sans perte visible à l'écran.
Font subsetting
Inclure dans un PDF uniquement les caractères réellement utilisés d'une police.
Quand un PDF embarque une police, la police entière est intégrée par défaut — y compris des milliers de caractères jamais utilisés (idéogrammes chinois, alphabets cyrilliques, glyphes mathématiques). Le subsetting ne conserve que les caractères réellement présents dans le document.
Gain typique : 30 à 200 Ko par police embarquée. Sur un document avec 5 polices, c'est 1 Mo économisé sans aucune perte fonctionnelle. Quasiment tous les bons compresseurs PDF font du subsetting automatiquement.
Factur-X / ZUGFeRD
Standard franco-allemand de facture électronique : PDF visuel + XML structuré.
Factur-X (France) et ZUGFeRD (Allemagne) sont deux noms du même standard de facture électronique. Une facture Factur-X est techniquement un PDF/A-3 contenant un fichier XML embarqué selon le format CII (Cross Industry Invoice).
Le PDF reste lisible humainement, le XML est lisible par les logiciels de comptabilité. C'est devenu obligatoire en France pour les transactions B2B depuis 2024 (selon le calendrier de déploiement).
pdf-lib
Bibliothèque JavaScript open-source pour manipuler des PDF dans le navigateur.
pdf-lib est une bibliothèque MIT-licensed permettant de créer, lire, fusionner, splitter, modifier des PDF directement en JavaScript — sans serveur. C'est ce qui rend possible le traitement "100% navigateur" de PDFly pour les outils gratuits.
Performance typique : fusionner 10 PDF de 5 Mo prend 2-3 secondes sur un Macbook récent. Au-delà de 50 Mo, le navigateur consomme beaucoup de RAM, c'est pourquoi PDFly bascule sur traitement serveur pour les fichiers Premium.
Schrems II
Décision de la CJUE (2020) invalidant le Privacy Shield US-UE.
L'arrêt Schrems II de la Cour de Justice de l'Union Européenne (juillet 2020) a invalidé le Privacy Shield, l'accord encadrant les transferts de données entre l'UE et les États-Unis. La raison : les programmes de surveillance US (FISA 702, EO 12333) permettent l'accès aux données européennes sans recours juridique pour les Européens.
Depuis cet arrêt, le transfert de données personnelles vers les États-Unis n'est légal qu'avec des garanties supplémentaires (Standard Contractual Clauses + chiffrement, anonymisation, etc.). En pratique, beaucoup de services US passent en zone grise, et les autorités de contrôle européennes durcissent progressivement leur position.
Caviardage / Redaction
Suppression définitive d'informations sensibles dans un PDF.
Le caviardage (redaction en anglais) consiste à masquer définitivement des informations sensibles dans un PDF — texte, images, zones — de manière irréversible. Contrairement à un simple rectangle noir dessiné par-dessus, une vraie redaction supprime les données du fichier source.
Utilisé pour : la conformité RGPD avant partage, la transmission de jugements anonymisés, la protection des données médicales / juridiques. Une redaction mal faite (juste un rectangle noir) est un risque majeur : les données restent accessibles via copier-coller du PDF.
AES-256
Algorithme de chiffrement symétrique standard utilisé pour protéger les PDF par mot de passe.
AES-256 (Advanced Encryption Standard, clé 256 bits) est l'algorithme de chiffrement symétrique le plus utilisé pour la protection des PDF avec mot de passe. Considéré comme inviolable par force brute avec les ordinateurs actuels.
Un PDF protégé par AES-256 ne peut être ouvert qu'avec le mot de passe correct. Si vous le perdez, le contenu est définitivement inaccessible (sauf attaque par dictionnaire si le mot de passe est faible). Privilégiez les mots de passe de 12+ caractères avec mixage majuscules/chiffres/symboles.
Tagged PDF
PDF avec structure d'accessibilité pour les lecteurs d'écran.
Un Tagged PDF contient une structure logique (titres, paragraphes, tableaux, alt-text d'images) en plus du rendu visuel. Cette structure permet aux lecteurs d'écran (JAWS, NVDA, VoiceOver) de naviguer le document dans l'ordre logique, sautent les images décoratives, lire les tableaux correctement.
Obligatoire pour la conformité accessibilité (WCAG 2.1 AA, RGAA, EN 301 549). Les conversions PDFly Premium produisent du Tagged PDF par défaut quand l'option d'accessibilité est activée.
Linéarisation (Fast Web View)
Optimisation d'un PDF pour qu'il s'affiche dès le téléchargement de la première page.
Un PDF linéarisé ("Fast Web View") est restructuré pour que la première page apparaisse avant le téléchargement complet du fichier. C'est essentiel pour les PDF gros (>10 Mo) servis sur le web — un visiteur n'attendra pas 30 secondes que tout se télécharge.
La linéarisation est invisible pour l'utilisateur final, mais elle change l'ordre des objets dans le fichier. Tous les outils PDFly génèrent du PDF linéarisé par défaut.
Métadonnées PDF
Informations techniques attachées à un PDF (auteur, date, logiciel, etc.).
Les métadonnées PDF incluent l'auteur, la date de création, le logiciel d'origine, des mots-clés, parfois la géolocalisation (sur PDF généré depuis un mobile). Elles sont stockées dans le fichier mais peu visibles — accessibles via Fichier → Propriétés dans un lecteur PDF.
Avant de partager un PDF, il peut être utile de retirer ces métadonnées si elles révèlent des informations sensibles (nom interne d'un projet, version d'un logiciel propriétaire, fuseau horaire de création). Adobe Acrobat et certains outils permettent un "sanitize" du fichier.