How-to

Cómo traducir un archivo PDF escaneado

Los PDFs escaneados son imágenes de texto, no texto real; por eso, la mayoría de los traductores, incluido Google Translate, los rechazan, devuelven un archivo vacío o muestran el error "no se puede traducir este archivo". Para traducir un PDF escaneado necesitas OCR (extracción de texto) antes de la traducción. DocTranslating ejecuta OCR automáticamente como parte del proceso de traducción, admite más de 100 idiomas y reconstruye el texto traducido en una copia idéntica del PDF original. Para garantizar la precisión en documentos importantes, verifica primero el resultado del OCR en PDFEquips para que los errores de extracción no se sumen a los errores de traducción.

Actualizado 5 de junio de 2026 · 8 min de lectura

Si alguna vez has subido un PDF escaneado a un traductor gratuito y has recibido un archivo vacío, un error de "no se puede traducir este archivo" o una copia traducida sin nada de texto, no estás haciendo nada malo. La mayoría de los traductores en línea, incluida la opción gratuita de subir documentos en Google Translate, no ejecutan OCR en contenidos escaneados. Esta guía explica por qué ocurre esto, qué necesitas realmente para traducir un PDF escaneado y cómo hacerlo sin perder el diseño original.

Por qué los PDFs escaneados no se traducen normalmente

Un PDF normal (exportado desde Word, un editor o un navegador) tiene una capa de texto oculta que los traductores leen directamente. Un PDF escaneado no la tiene. Cuando escaneas un documento, tu escáner o la cámara de tu teléfono capturan una foto de cada página. El resultado parece texto, pero para un ordenador es solo una imagen: no hay nada extraíble debajo. Por eso, seleccionar texto en un PDF escaneado no suele funcionar: no hay caracteres que seleccionar, solo píxeles.

La mayoría de las herramientas de traducción asumen que la capa de texto ya está ahí. Cuando no la encuentran, fallan de formas confusas. Los síntomas comunes incluyen:

El traductor devuelve un archivo vacío o una copia idéntica al original sin traducir.
Aparece el mensaje "no se puede traducir este archivo" o "imposible traducir este documento".
Solo se traducen los elementos integrados digitalmente (números de página, marcas de agua, campos de formulario).
El botón de descarga permanece gris o el proceso parece terminar pero no produce nada utilizable.
El mismo archivo funciona en una herramienta pero falla en otra, sin ninguna explicación clara.

Lo que realmente necesitas: OCR + traducción

Traducir un PDF escaneado es un proceso de dos pasos de forma interna, incluso cuando una sola herramienta se encarga de ambos:

El OCR lee la imagen de cada página y extrae el texto reconocible: palabras, números y el diseño básico.
La traducción toma ese texto extraído, lo traduce y lo vuelve a escribir en una copia del documento.

DocTranslating ejecuta ambos pasos automáticamente cuando subes un PDF escaneado; no necesitas aplicar el OCR tú mismo primero. Lo que vale la pena entender de antemano: la calidad de la traducción solo puede ser tan buena como el OCR que la alimenta. Un escaneo borroso produce un OCR borroso, y un OCR borroso combinado con la traducción multiplica los errores. El resultado puede parecer fluido y, aun así, tener errores sutiles de significado, por lo que vale la pena verificar los documentos importantes antes de confiar en ellos.

Paso a paso: cómo traducir un PDF escaneado

1
Abre DocTranslating y sube tu PDF escaneado
Arrastra el archivo al área de carga o haz clic para buscarlo. La herramienta detecta automáticamente que el archivo es un PDF; no necesitas hacer nada especial para marcarlo como escaneado: el OCR se ejecuta automáticamente cuando es necesario.
2
Configura los idiomas de origen y destino
Elige el idioma en el que está escrito el documento y el idioma al que deseas traducirlo. Para PDFs escaneados, define el idioma de origen explícitamente en lugar de confiar en la detección automática (Auto-detect), ya que la detección automática es menos fiable en textos procesados por OCR que en textos digitales limpios.
3
Elige el motor Gemini
Para PDFs escaneados, Gemini es la opción más sólida. Al estar basado en un modelo lingüístico grande (LLM), utiliza el contexto circundante para deducir el significado cuando el OCR produce palabras parcialmente distorsionadas, mientras que los motores a nivel de frase como DeepL transmiten las palabras distorsionadas sin cambios. También puedes escribir instrucciones personalizadas (Custom Instructions) para mantener la coherencia terminológica en todo el documento.
4
Traduce y luego revisa el resultado cuidadosamente
Inicia la traducción, descarga el archivo cuando esté listo y compáralo página por página con el original. Presta especial atención a los números, las fechas, los nombres propios, las direcciones y cualquier contenido legalmente importante; aquí es donde suelen ocultarse los errores de OCR porque el traductor no dispone de contexto lingüístico circundante para autocorregirse.

¿Qué motor de traducción es mejor para PDFs escaneados?

Todos los motores de DocTranslating que aceptan PDFs ejecutan OCR en el contenido escaneado, pero manejan los resultados de un OCR imperfecto de manera muy diferente. Ningún OCR es 100 % preciso; la verdadera pregunta es cómo se las arregla el traductor cuando encuentra una palabra parcialmente ilegible.

Motor	Comportamiento con el resultado del OCR	Cuándo usarlo
Gemini	Basado en LLM; utiliza el contexto para deducir el significado cuando el OCR es imperfecto.	Opción predeterminada e ideal para cualquier PDF escaneado.
DeepL	Traducción a nivel de frase; las palabras ilegibles salen ilegibles.	Solo para escaneos limpios y de alta calidad.
Google Cloud	Robusto frente al ruido visual, pero añade una pequeña marca de agua a los PDFs traducidos.	Mayor cobertura de idiomas; archivos de menos de 10 MB.
Microsoft Azure	No acepta archivos PDF en absoluto.	Convierte el PDF a Word primero (ver más abajo).

Motores de traducción en PDFs escaneados

Mejorar el OCR antes de traducir

La calidad del OCR depende casi por completo del archivo de entrada. Un escaneo limpio, correctamente alineado y con una resolución decente produce un OCR casi perfecto; un escaneo tenue, inclinado o de baja resolución produce un OCR poco fiable, sin importar la herramienta que utilices. Unas pocas cosas que vale la pena hacer antes de subir el archivo:

Vuelve a escanear a 300 DPI o más si tienes acceso al documento físico. Las resoluciones más bajas difuminan los caracteres y el OCR los lee de forma incorrecta.
Endereza las páginas inclinadas: los motores de OCR esperan encontrar el texto en líneas horizontales rectas.
Aumenta el contraste en los escaneos tenues o grises para que los caracteres resalten claramente sobre el fondo.
Confirma que el archivo no está protegido por contraseña: los PDFs encriptados no se pueden leer hasta que se descifren.
Configura el idioma de origen explícitamente, especialmente para escrituras no latinas (árabe, chino, cirílico, devanagari). La detección automática en textos procesados por OCR es mucho menos fiable que en textos digitales limpios.

Casos especiales y limitaciones actuales

Documentos escritos a mano

El OCR para texto impreso es una tecnología madura y fiable. El OCR para texto escrito a mano (manuscrito) es mucho más difícil, y los resultados son inconsistentes en toda la industria, no solo en una herramienta. Si tu PDF escaneado está escrito a mano, espera una cantidad significativa de corrección manual, y para cualquier documento legalmente sensible, prefiere la transcripción manual sobre el OCR automático.

Escaneos grandes o largos

El motor Gemini limita cada archivo a un máximo de 25 páginas y 100 MB. Los escaneos más largos o más grandes necesitan una solución alternativa:

PDFs escaneados en idiomas de derecha a izquierda (RTL)

Si vas a traducir un PDF escaneado escrito en árabe, hebreo o persa, hay una limitación actual que debes conocer: la capa de extracción de texto de los PDFs puede devolver el contenido RTL en el orden de dibujo visual en lugar del orden de lectura lógico, lo que significa que las palabras extraídas por el OCR pueden salir desordenadas o invertidas antes de que comience la traducción. Los archivos de Word y PowerPoint en RTL funcionan perfectamente, y traducir hacia un idioma RTL funciona bien; son los archivos PDF de origen en RTL los que se ven afectados. Si tienes acceso al archivo editable original, tradúcelo en su lugar. De lo contrario, se está trabajando en esto, pero aún no se ha resuelto por completo.

Traducir un PDF escaneado ahora

Preguntas frecuentes

¿Por qué Google Translate no puede traducir mi PDF escaneado?

La función de documentos de Google Translate lee la capa de texto existente de un PDF; no ejecuta OCR en páginas basadas en imágenes. Dado que un PDF escaneado no tiene capa de texto, no hay nada que leer, por lo que Google Translate devuelve un archivo vacío o el mensaje "no se puede traducir este archivo". La solución es usar un traductor que incluya OCR, o aplicar OCR al PDF por separado primero y luego subir la copia con opción de búsqueda.

¿Cómo puedo saber si mi PDF está escaneado o tiene una capa de texto real?

Abre el PDF e intenta seleccionar una frase con el cursor. Si el texto se resalta y puedes copiarlo, el PDF tiene una capa de texto real y cualquier traductor debería poder manejarlo. Si no ocurre nada, o si solo puedes seleccionar toda la página como una gran imagen, significa que está escaneado y necesita OCR antes de la traducción.

¿Puedo traducir un PDF escaneado de forma gratuita?

La mayoría de los traductores gratuitos, incluida la carga de documentos en Google Translate, no ejecutan OCR en PDFs escaneados, por lo que devolverán un resultado vacío o un error. Las herramientas gratuitas que sí incluyen OCR suelen tener límites de tamaño muy bajos y una cobertura de idiomas limitada. DocTranslating ejecuta OCR automáticamente y admite más de 100 idiomas con tarifas basadas en el uso real, por lo que pagas por lo que traduces en lugar de una suscripción periódica.

¿Qué motor de traducción es mejor para los PDFs escaneados?

Gemini es la opción más sólida en DocTranslating. Al ser un motor basado en LLM, utiliza el contexto circundante para interpretar el significado incluso cuando el OCR introduce pequeños errores, mientras que los motores a nivel de frase como DeepL transmiten las palabras ilegibles sin cambios. Google Cloud también es robusto en escaneos, pero añade una pequeña marca de agua a los PDFs traducidos.

¿Puedo traducir un documento escaneado escrito a mano?

El OCR en texto manuscrito es mucho menos fiable que el OCR en texto impreso; esto es una realidad en toda la industria, no solo en una herramienta. Para cualquier documento que sea legalmente sensible o requiera una alta precisión, la transcripción manual antes de la traducción es el camino más seguro. Para notas manuscritas informales, el OCR más la traducción pueden producir un borrador útil que podrás limpiar manualmente después.

¿Qué pasa si mi PDF escaneado supera el límite de tamaño de archivo?

Comprime el PDF usando el compresor de PDF en PDFEquips; normalmente puede reducir el tamaño de un escaneo a la mitad sin pérdida de calidad visible. Si el PDF también es largo, divídelo en fragmentos de 25 páginas o menos con el divisor de PDFEquips, traduce cada pieza y luego fusiónalas de nuevo en un solo documento.

¿El PDF traducido mantendrá el diseño original?

Sí, DocTranslating reconstruye el texto traducido en una copia del documento original, conservando párrafos, tablas, encabezados e imágenes. Específicamente para PDFs escaneados, la fidelidad del diseño depende de qué tan claro estuviera estructurado el original: los documentos simples salen casi idénticos; los escaneos con formatos muy densos pueden mostrar un ligero desplazamiento en los elementos.

¿Cómo verifico si el OCR es preciso antes de comprometerme a traducir?

Ejecuta el OCR por separado primero utilizando la herramienta de OCR en PDFEquips. Producirá un PDF con opción de búsqueda del cual podrás copiar el texto reconocido y leerlo. Si algún nombre, fecha o frase crítica salió mal, corrígelos en el origen antes de enviar el archivo a traducción; los errores en la etapa de OCR se acumulan con los de la traducción y son mucho más fáciles de detectar a tiempo.

Estoy traduciendo desde un PDF árabe escaneado, ¿funciona?

Traducir hacia el árabe funciona correctamente. Traducir desde un PDF escaneado en árabe (o hebreo, persa) actualmente tiene una limitación: la capa de extracción de texto del PDF puede devolver el texto de derecha a izquierda en orden visual en lugar de orden de lectura lógico, por lo que las palabras pueden salir desordenadas. Los archivos de Word y PowerPoint en RTL están bien; son las fuentes PDF en RTL específicamente las afectadas, una limitación conocida en la que se está trabajando.

¿El PDF escaneado traducido es editable?

El formato de salida es una copia del formato de entrada, por lo que un archivo PDF escaneado de entrada te devolverá un PDF traducido. Si deseas un archivo editable al final, convierte el PDF escaneado original a Word primero utilizando el convertidor de PDF a Word de PDFEquips (ejecuta OCR como parte de la conversión) y luego traduce el .docx; obtendrás un documento de Word editable en lugar de un PDF.

Por qué los PDFs escaneados no se traducen normalmente

Lo que realmente necesitas: OCR + traducción

Paso a paso: cómo traducir un PDF escaneado

Abre DocTranslating y sube tu PDF escaneado

Configura los idiomas de origen y destino

Elige el motor Gemini

Traduce y luego revisa el resultado cuidadosamente