How-to

Как перевести отсканированный PDF-файл

Перевод отсканированного документа PDF на другой язык с сохранением исходного макета

Отсканированные PDF — это изображения текста, а не настоящий текст; именно поэтому большинство переводчиков, включая Google Переводчик, отклоняют их, возвращают пустой файл или выдают ошибку "не удалось перевести этот файл". Чтобы перевести отсканированный PDF, вам нужно распознавание текста (OCR) перед переводом. DocTranslating автоматически запускает OCR в процессе перевода, поддерживает более 100 языков и собирает переведенный текст обратно в копию, идентичную исходному PDF. Для точной работы с важными документами сначала проверьте результат OCR на PDFEquips, чтобы ошибки распознавания текста не накладывались на ошибки перевода.

Обновлено 5 июня 2026 г. · 8 мин чтения

Если вы когда-либо загружали отсканированный PDF в бесплатный онлайн-переводчик и получали пустой файл, ошибку вида "не удалось перевести этот файл" или переведенную копию без единого слова — не волнуйтесь, вы все делали правильно. Большинство онлайн-переводчиков, включая функцию бесплатной загрузки документов в Google Переводчике, не выполняют OCR (распознавание текста) для отсканированного содержимого. Этот гид объяснит, почему так происходит, что именно нужно для перевода отсканированного PDF и как сделать это без потери исходного макета страницы.

Почему отсканированные PDF не переводятся обычным способом

Обычный PDF-файл — например, экспортированный из Word, текстового редактора или браузера — содержит скрытый текстовый слой, который переводчики читают напрямую. В отсканированном PDF такого слоя нет. Когда вы сканируете документ, сканер или камера телефона делают фотографию каждой страницы. Результат выглядит как текст, но для компьютера это просто картинка — под ней нет данных, которые можно извлечь. Вот почему в отсканированном PDF нельзя выделить текст курсором: здесь нет символов для выделения, только пиксели.

Большинство систем перевода предполагают, что текстовый слой уже на месте. Когда они его не находят, процесс завершается сбоем. Типичные симптомы:

Что вам действительно нужно: OCR + Перевод

Перевод отсканированного PDF — это двухэтапный процесс «под капотом», даже если один инструмент выполняет обе задачи одновременно:

  1. OCR считывает изображение каждой страницы и извлекает распознаваемый текст — слова, цифры и базовую структуру макета.
  2. Перевод (Translation) берет этот извлеченный текст, переводит его и вписывает обратно в новую копию документа.

DocTranslating автоматически выполняет оба шага при загрузке отсканированного PDF — вам не нужно предварительно обрабатывать его через OCR самостоятельно. Однако важно понимать главное: качество перевода напрямую зависит от качества распознавания текста (OCR). Размытый скан дает искаженный текст OCR, а искаженный текст в сочетании с переводчиком множит ошибки. Результат может выглядеть связным, но содержать скрытые смысловые неточности, поэтому важные документы всегда стоит перепроверять перед использованием.

Пошаговое руководство: как перевести отсканированный PDF

  1. 1

    Откройте DocTranslating и загрузите отсканированный PDF

    Перетащите файл в зону загрузки или кликните, чтобы выбрать его на устройстве. Инструмент автоматически определит, что файл является PDF; вам не нужно указывать, что это скан — система сама запустит OCR при необходимости.

  2. 2

    Укажите исходный и целевой языки

    Выберите язык, на котором написан документ, и язык, на который его нужно перевести. Для отсканированных PDF лучше указывать исходный язык вручную, а не полагаться на автоопределение (Auto-detect) — автоопределение на тексте после OCR работает менее надежно, чем на чистом цифровом тексте.

  3. 3

    Выберите движок перевода Gemini

    Движок Gemini — самый мощный выбор для отсканированных PDF. Будучи большой языковой моделью (LLM), он использует контекст, чтобы догадаться о значении слов, если OCR распознал их частично неразборчиво. Системы, работающие на уровне отдельных фраз (например, DeepL), передают искаженные слова как есть. Вы также можете написать кастомные инструкции (Custom Instructions) для сохранения терминологии во всем документе.

  4. 4

    Запустите перевод и внимательно проверьте результат

    Начните перевод, скачайте готовый файл и сравните его страницу за страницей с оригиналом. Обратите особое внимание на цифры, даты, имена, адреса и юридически важные данные — именно там чаще всего скрываются ошибки OCR, так как у переводчика нет языкового контекста для их самопроверки.

Какой движок перевода лучше всего подходит для отсканированных PDF?

Все движки на DocTranslating, принимающие файлы PDF, запускают технологию OCR для сканов, но они обрабатывают неидеальный текст из OCR совершенно по-разному. Ни одно распознавание текста не бывает точным на 100% — вопрос в том, как переводчик реагирует на частично искаженное слово.

ДвижокПоведение с текстом из OCRКогда использовать
GeminiНа базе LLM; использует контекст для воссоздания смысла при неидеальном OCR.Основной выбор по умолчанию для любого отсканированного PDF.
DeepLПеревод на уровне предложений; искаженные на входе слова остаются искаженными на выходе.Только для чистых сканов высокого качества.
Google CloudУстойчив к визуальному шуму на сканах, но добавляет небольшой водяной знак на переведенный PDF.Для максимального охвата языков; файлы до 10 МБ.
Microsoft AzureВообще не принимает файлы в формате PDF.Сначала конвертируйте PDF в Word (см. ниже).
Движки перевода для отсканированных PDF

Как улучшить качество OCR перед переводом

Качество работы OCR почти полностью зависит от исходного файла. Чистый, ровный скан в хорошем разрешении дает идеальный текст OCR; блеклый, наклонный или низкокачественный скан приведет к ошибкам распознавания в любом инструменте. Вот что стоит сделать перед загрузкой:

Особые случаи и текущие ограничения

Рукописные документы

Технология OCR для печатного текста сейчас очень развита. Однако OCR для рукописного текста — задача принципиально другого уровня сложности, и результаты нестабильны во всей индустрии, независимо от выбранного софта. Если ваш PDF написан от руки, приготовьтесь к большому количеству ручных правок. Для юридически важных документов ручной перепечатанный текст (транскрибация) гораздо надежнее машинного распознавания.

Большие или многостраничные сканы

Движок Gemini имеет ограничение: максимум 25 страниц и 100 МБ на один файл. Для документов большего объема используйте следующий обходной путь:

Отсканированные PDF на языках с письмом справа налево (RTL)

Если вы переводите отсканированный PDF на арабском, иврите или персидском, важно знать о текущем ограничении: слой извлечения текста в PDF может отдавать RTL-содержимое в порядке визуального отображения, а не в логическом порядке чтения. Это значит, что слова из OCR могут оказаться перепутаны или перевернуты еще до начала перевода. Файлы Word и PowerPoint в формате RTL работают отлично, как и перевод на языки RTL — проблема касается именно исходных файлов PDF на RTL. Если у вас есть доступ к редактируемому оригиналу, переводите его. Мы работаем над решением этой проблемы для PDF, но на данный момент она исправлена не полностью.

Часто задаваемые вопросы

Почему Google Переводчик не переводит мой отсканированный PDF?

Функция перевода документов в Google Переводчике считывает существующий текстовый слой PDF — она не запускает OCR для страниц-картинок. Так как в отсканированном PDF текстового слоя нет, системе нечего читать. В результате Google выдает пустой файл или ошибку "не удалось перевести этот файл". Решение — использовать переводчик со встроенным OCR или предварительно распознать PDF отдельно.

Как узнать, отсканирован ли мой PDF или в нем есть настоящий текстовый слой?

Откройте PDF-файл и попробуйте выделить предложение мышкой. Если текст подсвечивается и его можно скопировать, в PDF есть текстовый слой, и его поймет любой переводчик. Если ничего не происходит или страница выделяется целиком как одна большая картинка — это скан, и перед переводом ему нужно распознавание (OCR).

Можно ли перевести отсканированный PDF бесплатно?

Большинство бесплатных переводчиков (включая Google) не делают OCR для сканов, возвращая ошибку или пустой результат. Бесплатные инструменты с OCR часто имеют жесткие лимиты на размер и мало языков. DocTranslating запускает OCR автоматически и поддерживает 100+ языков по системе оплаты за фактическое использование (pay-as-you-go) — вы платите только за переведенный объем без подписок.

Какой движок перевода лучший для отсканированных PDF?

Gemini — лучший выбор на DocTranslating. Как LLM-движок, он использует контекст для понимания смысла даже при мелких ошибках OCR. Движки уровня предложений (например, DeepL) оставляют ошибки распознавания без изменений. Google Cloud также хорош для сканов, но оставляет небольшой водяной знак на готовом PDF.

Можно ли перевести отсканированный рукописный документ?

OCR для рукописного текста работает гораздо хуже, чем для печатного — это ограничение всей ИТ-индустрии, а не конкретного сайта. Для документов высокой точности или юридических бумаг безопаснее сделать ручную транскрибацию перед переводом. Для простых записей связка OCR + перевод даст черновик, который можно поправить вручную.

Что делать, если отсканированный PDF превышает лимит на размер файла?

Сжмите его с помощью компрессора PDF на PDFEquips — это часто уменьшает вес скана вдвое без потери читаемости. Если файл при этом длинный, разбейте его на части по 25 страниц через сплиттер PDFEquips, переведите их по отдельности и затем склейте обратно.

Сохранит ли переведенный PDF исходное форматирование?

Да, DocTranslating встраивает переведенный текст в копию оригинального документа, сохраняя абзацы, таблицы, заголовки и изображения. Для сканов точность макета зависит от четкости оригинала: простые документы выходят почти идеальными, а сканы со сложной и плотной версткой могут иметь небольшие сдвиги элементов.

Как проверить точность OCR перед запуском перевода?

Запустите процесс отдельно через инструмент OCR на PDFEquips. Вы получите текстовый PDF, где можно скопировать распознанный текст и вычитать его. Если важные имена или даты распознались неверно, исправьте их в исходнике до отправки на перевод — ошибки OCR накладываются на перевод, и их проще перехватить в самом начале.

Я перевожу отсканированный PDF с арабского языка — это сработает?

Перевод НА арабский работает отлично. Перевод С отсканированного PDF на арабском (иврите, персидском) имеет ограничение: из-за специфики PDF текст из скана может извлекаться в визуальном порядке (символы задом наперед), что ломает логику перевода. Файлы Word/PowerPoint на RTL переводятся без проблем; ограничение касается именно RTL PDF-источников, мы работаем над исправлением.

Будет ли переведенный отсканированный PDF редактируемым?

Формат вывода всегда соответствует входу: на входе отсканированный PDF — на выходе тоже PDF. Если вам нужен редактируемый файл, сначала конвертируйте скан в Word через конвертер PDF-в-Word на PDFEquips (он сделает OCR в процессе), а затем переведите полученный .docx файл. На выходе вы получите документ Word, готовый к редактированию.

← Все руководства