How-to

Como traduzir um arquivo PDF digitalizado

Traduzir um documento PDF digitalizado para outro idioma mantendo o layout original

Os PDFs digitalizados são imagens de texto, não texto real; por isso, a maioria dos tradutores, incluindo o Google Tradutor, os rejeita, devolve um arquivo vazio ou exibe o erro "não é possível traduzir este arquivo". Para traduzir um PDF digitalizado, você precisa de OCR (extração de texto) antes da tradução. O DocTranslating executa o OCR automaticamente como parte do processo de tradução, suporta mais de 100 idiomas e reconstrói o texto traduzido em uma cópia idêntica do PDF original. Para garantir a precisão em documentos importantes, verifique primeiro o resultado do OCR no PDFEquips para que os erros de extração não se somem aos erros de tradução.

Atualizado em 5 de junho de 2026 · 8 min de leitura

Se você já enviou um PDF digitalizado para um tradutor gratuito e recebeu um arquivo vazio, um erro de "não é possível traduzir este arquivo" ou uma cópia traduzida sem nenhum texto, você não está fazendo nada errado. A maioria dos tradutores online, incluindo a opção gratuita de envio de documentos no Google Tradutor, não executa OCR em conteúdos digitalizados. Este guia explica por que isso acontece, o que você realmente precisa para traduzir um PDF digitalizado e como fazer isso sem perder o layout original.

Por que os PDFs digitalizados não são traduzidos normalmente

Un PDF normal (exportado do Word, de um editor ou navegador) possui uma camada de texto oculta que os tradutores leem diretamente. Um PDF digitalizado não a possui. Quando você digitaliza ou escaneia um documento, o seu scanner ou a câmera do seu celular capturam uma foto de cada página. O resultado parece texto, mas para o computador é apenas uma imagem: não há nada extraível por baixo. Por isso, selecionar texto em um PDF digitalizado geralmente não funciona: não há caracteres para selecionar, apenas pixels.

A maioria das ferramentas de tradução assume que a camada de texto já está lá. Quando não a encontram, falham de formas confusas. Os sintomas comuns incluem:

O que você realmente precisa: OCR + tradução

Traduzir um PDF digitalizado é um processo de duas etapas internamente, mesmo quando uma única ferramenta cuida de ambos:

  1. O OCR lê a imagem de cada página e extrai o texto reconhecível: palavras, números e o layout básico.
  2. A tradução pega esse texto extraído, traduz e o escreve de volta em uma nova cópia do documento.

O DocTranslating executa ambos os passos automaticamente quando você envia um PDF digitalizado; você não precisa aplicar o OCR por conta própria primeiro. O que vale a pena entender de antemão: a qualidade da tradução só será tão boa quanto o OCR que a alimenta. Uma digitalização borrada produz um OCR imperfeito, e um OCR imperfeito combinado com a tradução multiplica os erros. O resultado pode parecer fluido e, ainda assim, conter erros sutis de significado, por isso vale a pena verificar documentos importantes antes de confiar neles.

Passo a passo: como traduzir um PDF digitalizado

  1. 1

    Abra o DocTranslating e envie o seu PDF digitalizado

    Arraste o arquivo para a área de upload ou clique para navegar. A ferramenta detecta automaticamente que o arquivo é um PDF; você não precisa fazer nada especial para marcá-lo como digitalizado: o OCR é executado automaticamente quando necessário.

  2. 2

    Configure os idiomas de origem e destino

    Escolha o idioma em que o documento está escrito e o idioma para o qual deseja traduzi-lo. Para PDFs digitalizados, defina o idioma de origem explicitamente em vez de confiar na detecção automática (Auto-detect), já que a detecção automática é menos confiável em textos processados por OCR do que em textos digitais limpos.

  3. 3

    Escolha o motor Gemini

    Para PDFs digitalizados, o Gemini é a opção mais sólida. Por ser baseado em um grande modelo de linguagem (LLM), ele utiliza o contexto ao redor para deduzir o significado quando o OCR produz palavras parcialmente distorcidas, enquanto motores a nível de frase como o DeepL transmitem as palavras distorcidas sem alterações. Você também pode escrever instruções personalizadas (Custom Instructions) para manter a consistência terminológica em todo o documento.

  4. 4

    Traduza e revise o resultado cuidadosamente

    Inicie a tradução, baixe o arquivo quando estiver pronto e compare-o página por página com o original. Preste atenção especial a números, datas, nomes próprios, endereços e qualquer conteúdo legalmente importante; é aqui que costumam se esconder os erros de OCR, pois o tradutor não dispõe de contexto linguístico ao redor para se autocorrigir.

Qual motor de tradução é melhor para PDFs digitalizados?

Todos os motores do DocTranslating que aceitam PDFs executam OCR no conteúdo digitalizado, mas lidam com os resultados de um OCR imperfeito de maneira muito diferente. Nenhum OCR é 100% preciso; a verdadeira questão é como o tradutor se comporta quando encontra uma palavra parcialmente ilegível.

MotorComportamento com o resultado do OCRQuando usar
GeminiBaseado em LLM; utiliza o contexto para deduzir o significado quando o OCR é imperfeito.Opção padrão e ideal para qualquer PDF digitalizado.
DeepLTradução a nível de frase; palavras ilegíveis saem ilegíveis.Apenas para digitalizações limpas e de alta qualidade.
Google CloudRobusto contra ruídos visuais, mas adiciona uma pequena marca d'água aos PDFs traduzidos.Maior cobertura de idiomas; arquivos com menos de 10 MB.
Microsoft AzureNão aceita arquivos PDF diretamente.Converta o PDF para Word primeiro (veja abaixo).
Motores de tradução em PDFs digitalizados

Melhorar o OCR antes de traduzir

A qualidade do OCR depende quase inteiramente do arquivo de entrada. Uma digitalização limpa, corretamente alinhada e com uma resolução decente produz um OCR quase perfeito; uma digitalização fraca, inclinada ou de baixa resolução gera um OCR pouco confiável, não importa a ferramenta que você use. Algumas coisas que valem a pena fazer antes de enviar o arquivo:

Casos especiais e limitações atuais

Documentos manuscritos

O OCR para texto impresso é uma tecnologia madura e confiável. O OCR para texto manuscrito (escrito à mão) é muito mais difícil, e os resultados são inconsistentes em toda a indústria, não apenas em uma ferramenta. Se o seu PDF digitalizado foi escrito à mão, espere uma quantidade significativa de correção manual e, para qualquer documento legalmente sensível, prefira a transcrição manual em vez do OCR automático.

Digitalizações grandes ou longas

O motor Gemini limita cada arquivo a um máximo de 25 páginas e 100 MB. Digitalizações mais longas ou maiores precisam de uma solução alternativa:

PDFs digitalizados em idiomas da direita para a esquerda (RTL)

Se você vai traduzir um PDF digitalizado escrito em árabe, hebraico ou persa, há uma limitação atual que precisa conhecer: a camada de extração de texto dos PDFs pode devolver o conteúdo RTL na ordem de desenho visual em vez da ordem de leitura lógica, o que significa que as palavras extraídas pelo OCR podem sair desordenadas ou invertidas antes do início da tradução. Arquivos do Word e PowerPoint em RTL funcionam perfeitamente, e traduzir para um idioma RTL também funciona bem; são os arquivos PDF de origem em RTL que são afetados. Se tiver acesso ao arquivo editável original, traduza-o diretamente. Caso contrário, saiba que estamos trabalhando nisso, mas ainda não está totalmente resolvido.

Perguntas frequentes

Por que o Google Tradutor não consegue traduzir meu PDF digitalizado?

A função de documentos do Google Tradutor lê a camada de texto existente de um PDF; ela não executa OCR em páginas baseadas em imagens. Como um PDF digitalizado não possui camada de texto, não há nada para ler, fazendo com que o Google Tradutor devolva um arquivo vazio ou a mensagem "não é possível traduzir este arquivo". A solução é usar um tradutor que inclua OCR ou aplicar o OCR ao PDF separadamente primeiro.

Como posso saber se meu PDF está digitalizado ou se tem uma camada de texto real?

Abra o PDF e tente selecionar uma frase com o cursor. Se o texto for destacado e você conseguir copiá-lo, o PDF possui uma camada de texto real e qualquer tradutor deve ser capaz de lidar com ele. Se nada acontecer, ou se você só conseguir selecionar a página inteira como uma grande imagem, significa que está digitalizado e precisa de OCR antes da tradução.

Posso traduzir um PDF digitalizado gratuitamente?

A maioria dos tradutores gratuitos, incluindo o envio de documentos no Google Tradutor, não executa OCR em PDFs digitalizados, devolvendo um resultado vazio ou um erro. As ferramentas gratuitas que incluem OCR costumam ter limites de tamanho muito baixos e cobertura de idiomas limitada. O DocTranslating executa OCR automaticamente e suporta mais de 100 idiomas com tarifas baseadas no uso real, ou seja, você paga pelo que traduz em vez de uma assinatura recorrente.

Qual motor de tradução é melhor para os PDFs digitalizados?

O Gemini é a opção mais sólida no DocTranslating. Por ser um motor baseado em LLM, ele utiliza o contexto ao redor para interpretar o significado mesmo quando o OCR introduz pequenos erros, enquanto motores a nível de frase como o DeepL transmitem as palavras ilegíveis sem alterações. O Google Cloud também é robusto em digitalizações, mas adiciona uma pequena marca d'água aos PDFs traduzidos.

Posso traduzir um documento digitalizado escrito à mão?

O OCR em texto manuscrito é muito menos confiável do que o OCR em texto impresso; essa é uma realidade em toda a indústria tecnológica, não apenas em uma ferramenta. Para qualquer documento que seja legalmente sensível ou exija alta precisão, a transcrição manual antes da tradução é o caminho mais seguro. Para notas manuscritas informais, o OCR mais a tradução podem produzir um rascunho útil que você poderá ajustar manualmente depois.

O que acontece se meu PDF digitalizado exceder o limite de tamanho do arquivo?

Comprima o PDF usando o compressor de PDF no PDFEquips; ele normalmente pode reduzir o tamanho de uma digitalização pela metade sem perda de qualidade visível. Se o PDF também for longo, divida-o em blocos de 25 páginas ou menos com o divisor do PDFEquips, traduça cada parte e depois junte-as novamente em um único documento.

O PDF traduzido manterá o layout original?

Sim, o DocTranslating reconstrói o texto traduzido em uma cópia do documento original, preservando parágrafos, tabelas, cabeçalhos e imagens. Especificamente para PDFs digitalizados, a fidelidade do layout depende de quão claro o original estava estruturado: documentos simples saem quase idênticos; digitalizações com formatos muito densos podem apresentar um leve deslocamento nos elementos.

Como verifico se o OCR está preciso antes de me comprometer com a tradução?

Execute o OCR separadamente primeiro utilizando a ferramenta de OCR no PDFEquips. Ela produzirá um PDF pesquisável do qual você poderá copiar o texto reconhecido e lê-lo. Se algum nome, data ou frase crítica saiu errado, corrija no arquivo de origem antes de enviar para a tradução; os erros na etapa de OCR se acumulam com os da tradução e são muito mais fáceis de detectar a tempo.

Estou traduzindo a partir de um PDF em árabe digitalizado, funciona?

Traduzir para o árabe funciona corretamente. Traduzir a partir de um PDF digitalizado em árabe (ou hebraico, persa) atualmente tem uma limitação: a camada de extração de texto do PDF pode devolver o texto da direita para a esquerda em ordem visual em vez de ordem de leitura lógica, fazendo com que as palavras saiam desordenadas. Arquivos do Word e PowerPoint em RTL estão bem; são as fontes PDF em RTL especificamente as afetadas, uma limitação conhecida na qual estamos trabalhando.

O PDF digitalizado traduzido é editável?

O formato de saída é uma cópia do formato de entrada, portanto, um arquivo PDF digitalizado de entrada devolverá um PDF traduzido. Se você deseja um arquivo editável no final, converta o PDF digitalizado original para Word primeiro utilizando o conversor de PDF para Word do PDFEquips (que executa OCR como parte da conversão) e depois traduza o .docx; você obterá um documento do Word editável em vez de um PDF.

← Todos os guias