How-to
Comment traduire un fichier PDF scanné (Scanné)
Les PDF scannés sont des images de texte et non du vrai texte ; c'est pourquoi la majorité des outils de traduction — y compris Google Traduction (Google Translate) — les refusent, renvoient un fichier vide ou affichent l'erreur "impossible de traduire ce fichier". Pour traduire un PDF scanné, vous avez besoin de la technologie de reconnaissance optique de caractères (OCR) pour extraire le texte avant la traduction. DocTranslating lance automatiquement l'OCR dans son processus de traduction, prend en charge plus de 100 langues et reconstruit le texte traduit dans une version identique au PDF d'origine. Pour garantir la précision des documents importants, vérifiez d'abord le rendu de l'OCR sur PDFEquips afin que les erreurs d'extraction de texte ne s'ajoutent pas aux erreurs de traduction.
Mis à jour 5 juin 2026 · 8 min de lecture
Si vous avez déjà téléversé un PDF scanné sur un traducteur en ligne gratuit et que vous avez obtenu un fichier vide, une erreur du type "impossible de traduire ce fichier", ou une copie traduite totalement dépourvue de texte — rassurez-vous, l'erreur ne vient nicht de vous. La plupart des outils de traduction en ligne, y compris la fonctionnalité gratuite de téléversement de documents de Google Traduction, ne lancent pas d'OCR sur le contenu scanné. Ce guide vous explique pourquoi cela se produit, ce dont vous avez réellement besoin pour traduire un PDF scanné et comment y parvenir sans perdre la mise en page d'origine du document.
Pourquoi les fichiers PDF scannés ne se traduisent-ils pas normalement ?
Un fichier PDF normal — comme celui exporté depuis Word, un éditeur de texte ou un navigateur — contient une couche de texte invisible que les outils de traduction lisent directement. En revanche, un PDF scanné n'en possède pas. Lorsque vous numérisez un document, le scanner ou l'appareil photo de votre téléphone capture une photo de chaque page. Le résultat ressemble à du texte, mais pour l'ordinateur, il s'agit simplement d'une image — il n'y a rien en dessous qui puisse être extrait. C'est pourquoi la sélection de texte ne fonctionne généralement pas sur les PDF scannés ; il n'y a pas de caractères à sélectionner, seulement des pixels.
La plupart des outils de traduction partent du principe que la couche de texte est déjà présente. Lorsqu'ils ne la trouvent pas, ils échouent de manière déroutante. Les symptômes courants incluent :
- Le traducteur renvoie un fichier vide ou une copie identique au document d'origine sans aucune traduction.
- Un message s'affiche indiquant "impossible de traduire ce fichier" ou "impossible de traduire ce document".
- Seuls les éléments intégrés numériquement (numéros de page, filigranes ou champs de formulaire) sont traduits.
- Le bouton de téléchargement reste grisé (inactif), ou le processus semble terminé mais sans rien produire d'exploitable.
- Le même fichier fonctionne sur un outil et échoue sur un autre sans explication claire.
Ce dont vous avez réellement besoin : technologie OCR + Traduction
La traduction d'un PDF scanné repose sur un processus en deux étapes en arrière-plan, même si un seul outil s'occupe des deux :
- L'OCR lit l'image de chaque page et extrait le texte reconnaissable — les mots, les chiffres et la mise en page de base.
- La traduction prend ce texte extrait, le traduit, puis le réintègre à l'intérieur d'une nouvelle copie du document.
DocTranslating effectue ces deux étapes automatiquement lorsque vous téléversez un PDF scanné — vous n'avez pas besoin de le traiter vous-même par OCR au préalable. Cependant, il y a une réalité essentielle à comprendre : la qualité de la traduction dépend entièrement de la qualité du texte extrait par l'OCR. Une numérisation floue produit un texte OCR altéré, et un texte altéré entraîne une multiplication des erreurs de traduction. Le résultat peut sembler fluide mais peut contenir des erreurs de sens subtiles, c'est pourquoi les documents importants méritent une vérification minutieuse avant d'être utilisés.
Étape par étape : comment traduire un PDF scanné
- 1
Ouvrez DocTranslating et téléversez votre PDF scanné
Glissez-déposez le fichier dans la zone de téléversement ou cliquez pour parcourir et le sélectionner. L'outil détectera automatiquement qu'il s'agit d'un PDF ; vous n'avez aucune action à faire pour spécifier qu'il est scanné — l'OCR se déclenche automatiquement en cas de besoin.
- 2
Sélectionnez la langue d'origine et la langue cible
Choisissez la langue dans laquelle le document est écrit et la langue vers laquelle vous souhaitez le traduire. Pour les PDF scannés, il est préférable de définir la langue source avec précision plutôt que de compter sur l'option de détection automatique (Auto-detect) — la détection automatique est moins précise sur du texte extrait par OCR que sur du texte numérique propre.
- 3
Choisissez le moteur de traduction Gemini
Le moteur Gemini est le choix le plus performant pour les PDF scannés. En tant que grand modèle de langage (LLM), il s'appuie sur le contexte global pour comprendre le sens et déduire la logique lorsque l'OCR produit des mots partiellement altérés, là où des moteurs traduisant phrase par phrase comme DeepL transmettent les mots altérés tels quels sans modification. Vous pouvez également rédiger des instructions personnalisées (Custom Instructions) pour maintenir la cohérence des termes dans tout le document.
- 4
Lancez la traduction, puis examinez le résultat avec soin
Démarrez le processus de traduction, téléchargez le fichier lorsqu'il est prêt, puis comparez-le page par page avec le document d'origine. Portez une attention particulière aux chiffres, aux dates, aux noms propres, aux adresses et à tous les détails juridiques importants — c'est dans ces zones que se cachent généralement les erreurs d'OCR, car elles manquent de contexte linguistique pour aider le traducteur à s'autocorriger.
Quel est le meilleur moteur de traduction pour les fichiers PDF scannés ?
Tous les moteurs de traduction disponibles sur DocTranslating qui acceptent les fichiers PDF exécutent la technologie OCR sur le contenu scanné, mais ils gèrent les résultats d'un OCR imparfait de manières totalement différentes. Aucune technologie OCR n'est précise à 100 % — la vraie question est de savoir comment se comporte le traducteur lorsqu'il rencontre un mot partiellement altéré.
| Moteur | Comportement avec le texte issu de l'OCR | Quand est-il conseillé de l'utiliser |
|---|---|---|
| Gemini | Basé sur les modèles de langage (LLM) ; utilise le contexte pour comprendre le sens en cas d'OCR imparfait. | Le choix par défaut et le plus adapté pour tout PDF scanné. |
| DeepL | Traduction au niveau de la phrase ; les mots altérés ressortent altérés tels quels. | Uniquement pour les numérisations propres et de haute qualité. |
| Google Cloud | Performant face au bruit visuel, mais ajoute un petit filigrane sur les PDF traduits. | Pour la plus large couverture linguistique ; et les fichiers de moins de 10 Mo. |
| Microsoft Azure | N'accepte pas du tout les fichiers PDF. | Convertir le fichier PDF en Word au préalable (voir ci-dessous). |
Optimiser la qualité de l'OCR avant de commencer la traduction
La qualité de l'OCR dépend presque entièrement de la qualité du fichier source. Une numérisation propre, droite et en haute résolution produit un texte OCR proche de la perfection ; tandis qu'un scan pâle, incliné ou en basse résolution génère des textes OCR peu fiables, quel que soit l'outil utilisé. Voici quelques étapes à suivre avant de téléverser votre fichier :
- Numérisez à nouveau le document à 300 DPI ou plus si vous avez accès au document papier d'origine. Une basse résolution rend les caractères flous et illisibles, ce qui entraîne des erreurs de lecture.
- Redressez les pages inclinées — les moteurs d'OCR s'attendent à ce que les textes soient alignés sur des lignes horizontales droites.
- Augmentez le contraste sur les fichiers pâles ou gris pour faire ressortir les caractères et les détacher clairement du fond.
- Assurez-vous que le fichier n'est pas protégé par un mot de passe — les PDF chiffrés ne peuvent pas être lus tant qu'ils ne sont pas déverrouillés.
- Définissez manuellement la langue source, en particulier pour les écritures non latines (comme l'arabe, le chinois, le cyrillique ou le devanagari). La détection automatique sur les textes extraits par OCR est beaucoup moins fiable que sur du texte numérique propre.
Cas exceptionnels et limites actuelles
Les documents manuscrits
La technologie OCR pour les textes imprimés est désormais mature et très fiable. En revanche, l'OCR pour les textes manuscrits (écrits à la main) est beaucoup plus complexe, et ses résultats sont irréguliers dans tout ce domaine — ce n'est pas le fait d'un seul outil. Si votre PDF provient d'un écrit manuel, attendez-vous à devoir effectuer de nombreuses corrections manuelles. Pour tout document à sensibilité juridique, préférez une transcription manuelle plutôt qu'un OCR automatisé.
Les fichiers scannés volumineux ou longs
Le moteur Gemini impose une limite maximale de 25 pages et de 100 Mo par fichier. Les fichiers plus longs ou plus volumineux nécessitent une solution alternative :
Fichiers PDF scannés dans des langues s'écrivant de droite à gauche (RTL)
Si vous traduisez un PDF scanné écrit en arabe, en hébreu ou en persan, il existe une limite actuelle importante à connaître : la couche d'extraction de texte du PDF peut renvoyer le contenu des langues s'écrivant de droite à gauche selon l'ordre visuel des tracés plutôt que selon l'ordre logique de lecture, ce qui signifie que les mots extraits par l'OCR peuvent se retrouver mélangés ou inversés avant même que la traduction ne commence. Les fichiers Word et PowerPoint écrits de droite à gauche fonctionnent parfaitement, et la traduction vers une langue s'écrivant de droite à gauche fonctionne également très bien — le problème se pose uniquement lorsque les fichiers PDF sources sont écrits de droite à gauche. Si vous avez accès au fichier d'origine modifiable, traduisez-le plutôt que le PDF. Autrement, nous travaillons actuellement à la résolution de ce problème, mais il n'est pas encore totalement corrigé.
Foire aux questions
Pourquoi Google Traduction ne parvient-il pas à traduire mon PDF scanné ?
La fonctionnalité de téléversement de documents de Google Traduction lit la couche de texte existante du PDF — elle n'exécute pas d'OCR sur les pages basées sur des images. Étant donné qu'un PDF scanné ne possède pas de couche de texte, il n'y a rien à lire, c'est pourquoi Google Traduction renvoie soit un fichier vide, soit le message "impossible de traduire ce fichier". La solution consiste à utiliser un traducteur qui intègre l'OCR, ou à traiter le PDF par OCR séparément au préalable puis à téléverser la copie interrogeable.
Comment savoir si mon PDF est scanné ou s'il contient une vraie couche de texte ?
Ouvrez le fichier PDF et essayez de sélectionner une phrase avec le curseur de votre souris. Si le texte se surligne et que vous pouvez le copier, le PDF contient une vraie couche de texte et n'importe quel traducteur pourra le traiter. Si rien ne se produit — ou si la page entière est sélectionnée comme s'il s'agissait d'une seule grande image — le fichier est scanné et nécessite un OCR avant la traduction.
Puis-je traduire un PDF scanné gratuitement ?
La plupart des traducteurs gratuits, y compris le téléversement de documents sur Google Traduction, ne lancent pas d'OCR sur les PDF scannés, ils renverront donc un résultat vide ou une erreur. Les outils gratuits qui prennent en charge l'OCR imposent souvent des limites de taille très strictes et couvrent un nombre limité de langues. DocTranslating lance l'OCR automatiquement et prend en charge plus de 100 langues avec une tarification basée sur l'utilisation réelle, vous payez donc uniquement ce que vous traduisez sans abonnement récurrent.
Quel est le meilleur moteur de traduction pour les fichiers PDF scannés ?
Gemini est le choix le plus performant sur DocTranslating. En tant que moteur basé sur les LLM, il utilise le contexte global pour interpréter le sens même lorsque l'OCR commet de petites erreurs, tandis que les moteurs traduisant phrase par phrase comme DeepL transmettent les mots altérés sans modification. Google Cloud est également performant avec les scans, mais il ajoute un petit filigrane sur les PDF traduits.
Puis-je traduire un document scanné écrit à la main ?
L'OCR sur du texte manuscrit est beaucoup moins fiable que l'OCR sur du texte imprimé — c'est une réalité dans tout le secteur technologique, pas seulement sur un outil en particulier. Pour tout document sensible sur le plan juridique ou exigeant une grande précision, la transcription manuelle avant la traduction est la voie la plus sûre. Pour des notes manuscrites informelles, l'OCR combiné à la traduction peut produire un brouillon utile que vous pourrez corriger manuellement par la suite.
Que faire si mon PDF scanné dépasse la limite de taille autorisée ?
Compressez le fichier PDF à l'aide de l'outil de compression de PDF sur PDFEquips — il peut généralement réduire la taille d'un scan de moitié sans perte visuelle notable de qualité. Si le fichier est également long, divisez-le en segments de 25 pages ou moins avec l'outil de découpe de PDFEquips, traduisez chaque partie séparément, puis fusionnez-les à nouveau en un seul document.
Le PDF traduit conservera-t-il la mise en page d'origine ?
Oui — DocTranslating reconstruit le texte traduit à l'intérieur d'une copie du document d'origine, préservant ainsi les paragraphes, les tableaux, les en-têtes et les images. Pour les PDF scannés spécifiquement, la fidélité de la mise en page dépend de la clarté de la structure du fichier d'origine : les documents simples ressortent presque identiques ; les scans dotés de formats très denses et complexes peuvent présenter de légers décalages d'éléments.
Comment vérifier la précision de l'OCR avant de lancer la traduction ?
Utilisez l'outil d'OCR disponible sur le site PDFEquips séparément au préalable. Il générera un PDF interrogeable à partir duquel vous pourrez copier le texte reconnu et le relire. Si des noms, des dates ou des phrases cruciales comportent des erreurs, corrigez-les à la source avant d'envoyer le fichier à la traduction — les erreurs d'OCR se cumulent avec les erreurs de traduction, et il est beaucoup plus facile de les intercepter au début.
Je traduis à partir d'un PDF arabe scanné — cela fonctionne-t-il ?
La traduction vers l'arabe fonctionne parfaitement. En revanche, la traduction depuis un PDF scanné écrit en arabe (ou hébreu, persan) présente actuellement une limite : la couche d'extraction de texte du PDF peut renvoyer le texte de droite à gauche dans l'ordre visuel plutôt que dans l'ordre logique de lecture, ce qui peut inverser les mots. Les fichiers Word et PowerPoint en RTL ne posent pas de problème ; seules les sources PDF en RTL sont concernées, une limite connue en cours de résolution.
Le PDF scanné traduit sera-t-il modifiable ?
Le format de sortie correspond exactement au format d'entrée, ainsi un fichier PDF scanné en entrée vous donnera un PDF traduit. Si vous souhaitez obtenir un fichier modifiable à la fin, convertissez le PDF scanné d'origine au format Word à l'aide du convertisseur PDF en Word de PDFEquips (qui lance l'OCR dans le cadre de la conversion), puis traduisez le fichier .docx obtenu — vous recevrez ainsi un document Word modifiable au lieu d'un PDF.