How-to

Как перевести отсканированный PDF-файл

Отсканированные PDF — это изображения текста, а не настоящий текст; именно поэтому большинство переводчиков, включая Google Переводчик, отклоняют их, возвращают пустой файл или выдают ошибку "не удалось перевести этот файл". Чтобы перевести отсканированный PDF, вам нужно распознавание текста (OCR) перед переводом. DocTranslating автоматически запускает OCR в процессе перевода, поддерживает более 100 языков и собирает переведенный текст обратно в копию, идентичную исходному PDF. Для точной работы с важными документами сначала проверьте результат OCR на PDFEquips, чтобы ошибки распознавания текста не накладывались на ошибки перевода.

Обновлено 5 июня 2026 г. · 8 мин чтения

Если вы когда-либо загружали отсканированный PDF в бесплатный онлайн-переводчик и получали пустой файл, ошибку вида "не удалось перевести этот файл" или переведенную копию без единого слова — не волнуйтесь, вы все делали правильно. Большинство онлайн-переводчиков, включая функцию бесплатной загрузки документов в Google Переводчике, не выполняют OCR (распознавание текста) для отсканированного содержимого. Этот гид объяснит, почему так происходит, что именно нужно для перевода отсканированного PDF и как сделать это без потери исходного макета страницы.

Почему отсканированные PDF не переводятся обычным способом

Обычный PDF-файл — например, экспортированный из Word, текстового редактора или браузера — содержит скрытый текстовый слой, который переводчики читают напрямую. В отсканированном PDF такого слоя нет. Когда вы сканируете документ, сканер или камера телефона делают фотографию каждой страницы. Результат выглядит как текст, но для компьютера это просто картинка — под ней нет данных, которые можно извлечь. Вот почему в отсканированном PDF нельзя выделить текст курсором: здесь нет символов для выделения, только пиксели.

Большинство систем перевода предполагают, что текстовый слой уже на месте. Когда они его не находят, процесс завершается сбоем. Типичные симптомы:

Переводчик возвращает пустой файл или точную копию оригинала без какого-либо перевода.
Вы получаете сообщение "не удалось перевести этот файл" или "невозможно перевести этот документ".
Переводятся только элементы, добавленные поверх цифровым способом (номера страниц, водяные знаки, поля форм).
Кнопка скачивания остается серой (неактивной), или процесс выглядит завершенным, но не выдает ничего полезного.
Один и тот же файл обрабатывается в одном инструменте, но выдает ошибку в другом без объяснения причин.

Что вам действительно нужно: OCR + Перевод

Перевод отсканированного PDF — это двухэтапный процесс «под капотом», даже если один инструмент выполняет обе задачи одновременно:

OCR считывает изображение каждой страницы и извлекает распознаваемый текст — слова, цифры и базовую структуру макета.
Перевод (Translation) берет этот извлеченный текст, переводит его и вписывает обратно в новую копию документа.

DocTranslating автоматически выполняет оба шага при загрузке отсканированного PDF — вам не нужно предварительно обрабатывать его через OCR самостоятельно. Однако важно понимать главное: качество перевода напрямую зависит от качества распознавания текста (OCR). Размытый скан дает искаженный текст OCR, а искаженный текст в сочетании с переводчиком множит ошибки. Результат может выглядеть связным, но содержать скрытые смысловые неточности, поэтому важные документы всегда стоит перепроверять перед использованием.

Пошаговое руководство: как перевести отсканированный PDF

1
Откройте DocTranslating и загрузите отсканированный PDF
Перетащите файл в зону загрузки или кликните, чтобы выбрать его на устройстве. Инструмент автоматически определит, что файл является PDF; вам не нужно указывать, что это скан — система сама запустит OCR при необходимости.
2
Укажите исходный и целевой языки
Выберите язык, на котором написан документ, и язык, на который его нужно перевести. Для отсканированных PDF лучше указывать исходный язык вручную, а не полагаться на автоопределение (Auto-detect) — автоопределение на тексте после OCR работает менее надежно, чем на чистом цифровом тексте.
3
Выберите движок перевода Gemini
Движок Gemini — самый мощный выбор для отсканированных PDF. Будучи большой языковой моделью (LLM), он использует контекст, чтобы догадаться о значении слов, если OCR распознал их частично неразборчиво. Системы, работающие на уровне отдельных фраз (например, DeepL), передают искаженные слова как есть. Вы также можете написать кастомные инструкции (Custom Instructions) для сохранения терминологии во всем документе.
4
Запустите перевод и внимательно проверьте результат
Начните перевод, скачайте готовый файл и сравните его страницу за страницей с оригиналом. Обратите особое внимание на цифры, даты, имена, адреса и юридически важные данные — именно там чаще всего скрываются ошибки OCR, так как у переводчика нет языкового контекста для их самопроверки.

Какой движок перевода лучше всего подходит для отсканированных PDF?

Все движки на DocTranslating, принимающие файлы PDF, запускают технологию OCR для сканов, но они обрабатывают неидеальный текст из OCR совершенно по-разному. Ни одно распознавание текста не бывает точным на 100% — вопрос в том, как переводчик реагирует на частично искаженное слово.

Движок	Поведение с текстом из OCR	Когда использовать
Gemini	На базе LLM; использует контекст для воссоздания смысла при неидеальном OCR.	Основной выбор по умолчанию для любого отсканированного PDF.
DeepL	Перевод на уровне предложений; искаженные на входе слова остаются искаженными на выходе.	Только для чистых сканов высокого качества.
Google Cloud	Устойчив к визуальному шуму на сканах, но добавляет небольшой водяной знак на переведенный PDF.	Для максимального охвата языков; файлы до 10 МБ.
Microsoft Azure	Вообще не принимает файлы в формате PDF.	Сначала конвертируйте PDF в Word (см. ниже).

Движки перевода для отсканированных PDF

Как улучшить качество OCR перед переводом

Качество работы OCR почти полностью зависит от исходного файла. Чистый, ровный скан в хорошем разрешении дает идеальный текст OCR; блеклый, наклонный или низкокачественный скан приведет к ошибкам распознавания в любом инструменте. Вот что стоит сделать перед загрузкой:

Пересканируйте документ с разрешением 300 DPI или выше, если есть доступ к бумажному оригиналу. Низкое разрешение размывает символы, и OCR считывает их неверно.
Выровняйте наклоненные страницы — движки OCR ожидают, что текст расположен строго по горизонтальным линиям.
Повысьте контрастность на слишком светлых или серых сканах, чтобы символы четко отделялись от фона.
Убедитесь, что на файле нет защиты паролем — зашифрованные PDF невозможно прочитать без снятия защиты.
Задайте исходный язык вручную, особенно для нелатинских шрифтов (арабский, китайский, кириллица, деванагари). Автоопределение на извлеченном из скана тексте работает гораздо хуже, чем на чистом цифровом файле.

Особые случаи и текущие ограничения

Рукописные документы

Технология OCR для печатного текста сейчас очень развита. Однако OCR для рукописного текста — задача принципиально другого уровня сложности, и результаты нестабильны во всей индустрии, независимо от выбранного софта. Если ваш PDF написан от руки, приготовьтесь к большому количеству ручных правок. Для юридически важных документов ручной перепечатанный текст (транскрибация) гораздо надежнее машинного распознавания.

Большие или многостраничные сканы

Движок Gemini имеет ограничение: максимум 25 страниц и 100 МБ на один файл. Для документов большего объема используйте следующий обходной путь:

Отсканированные PDF на языках с письмом справа налево (RTL)

Если вы переводите отсканированный PDF на арабском, иврите или персидском, важно знать о текущем ограничении: слой извлечения текста в PDF может отдавать RTL-содержимое в порядке визуального отображения, а не в логическом порядке чтения. Это значит, что слова из OCR могут оказаться перепутаны или перевернуты еще до начала перевода. Файлы Word и PowerPoint в формате RTL работают отлично, как и перевод на языки RTL — проблема касается именно исходных файлов PDF на RTL. Если у вас есть доступ к редактируемому оригиналу, переводите его. Мы работаем над решением этой проблемы для PDF, но на данный момент она исправлена не полностью.

Перевести отсканированный PDF сейчас

Часто задаваемые вопросы

Почему Google Переводчик не переводит мой отсканированный PDF?

Функция перевода документов в Google Переводчике считывает существующий текстовый слой PDF — она не запускает OCR для страниц-картинок. Так как в отсканированном PDF текстового слоя нет, системе нечего читать. В результате Google выдает пустой файл или ошибку "не удалось перевести этот файл". Решение — использовать переводчик со встроенным OCR или предварительно распознать PDF отдельно.

Как узнать, отсканирован ли мой PDF или в нем есть настоящий текстовый слой?

Откройте PDF-файл и попробуйте выделить предложение мышкой. Если текст подсвечивается и его можно скопировать, в PDF есть текстовый слой, и его поймет любой переводчик. Если ничего не происходит или страница выделяется целиком как одна большая картинка — это скан, и перед переводом ему нужно распознавание (OCR).

Можно ли перевести отсканированный PDF бесплатно?

Большинство бесплатных переводчиков (включая Google) не делают OCR для сканов, возвращая ошибку или пустой результат. Бесплатные инструменты с OCR часто имеют жесткие лимиты на размер и мало языков. DocTranslating запускает OCR автоматически и поддерживает 100+ языков по системе оплаты за фактическое использование (pay-as-you-go) — вы платите только за переведенный объем без подписок.

Какой движок перевода лучший для отсканированных PDF?

Gemini — лучший выбор на DocTranslating. Как LLM-движок, он использует контекст для понимания смысла даже при мелких ошибках OCR. Движки уровня предложений (например, DeepL) оставляют ошибки распознавания без изменений. Google Cloud также хорош для сканов, но оставляет небольшой водяной знак на готовом PDF.

Можно ли перевести отсканированный рукописный документ?

OCR для рукописного текста работает гораздо хуже, чем для печатного — это ограничение всей ИТ-индустрии, а не конкретного сайта. Для документов высокой точности или юридических бумаг безопаснее сделать ручную транскрибацию перед переводом. Для простых записей связка OCR + перевод даст черновик, который можно поправить вручную.

Что делать, если отсканированный PDF превышает лимит на размер файла?

Сжмите его с помощью компрессора PDF на PDFEquips — это часто уменьшает вес скана вдвое без потери читаемости. Если файл при этом длинный, разбейте его на части по 25 страниц через сплиттер PDFEquips, переведите их по отдельности и затем склейте обратно.

Сохранит ли переведенный PDF исходное форматирование?

Да, DocTranslating встраивает переведенный текст в копию оригинального документа, сохраняя абзацы, таблицы, заголовки и изображения. Для сканов точность макета зависит от четкости оригинала: простые документы выходят почти идеальными, а сканы со сложной и плотной версткой могут иметь небольшие сдвиги элементов.

Как проверить точность OCR перед запуском перевода?

Запустите процесс отдельно через инструмент OCR на PDFEquips. Вы получите текстовый PDF, где можно скопировать распознанный текст и вычитать его. Если важные имена или даты распознались неверно, исправьте их в исходнике до отправки на перевод — ошибки OCR накладываются на перевод, и их проще перехватить в самом начале.

Я перевожу отсканированный PDF с арабского языка — это сработает?

Перевод НА арабский работает отлично. Перевод С отсканированного PDF на арабском (иврите, персидском) имеет ограничение: из-за специфики PDF текст из скана может извлекаться в визуальном порядке (символы задом наперед), что ломает логику перевода. Файлы Word/PowerPoint на RTL переводятся без проблем; ограничение касается именно RTL PDF-источников, мы работаем над исправлением.

Будет ли переведенный отсканированный PDF редактируемым?

Формат вывода всегда соответствует входу: на входе отсканированный PDF — на выходе тоже PDF. Если вам нужен редактируемый файл, сначала конвертируйте скан в Word через конвертер PDF-в-Word на PDFEquips (он сделает OCR в процессе), а затем переведите полученный .docx файл. На выходе вы получите документ Word, готовый к редактированию.

Почему отсканированные PDF не переводятся обычным способом

Что вам действительно нужно: OCR + Перевод

Пошаговое руководство: как перевести отсканированный PDF

Откройте DocTranslating и загрузите отсканированный PDF

Укажите исходный и целевой языки

Выберите движок перевода Gemini

Запустите перевод и внимательно проверьте результат