How-to

如何翻译扫描版 PDF 文件

在保持原始排版布局的同时,将扫描版 PDF 文档翻译成另一种语言

扫描版 PDF 本质上是文本的图片,而不是真实的文本。这就是为什么包括谷歌翻译(Google Translate)在内的大多数翻译工具都会拒绝处理它们、返回空白文件,或显示“无法翻译此文件”的错误。要翻译扫描版 PDF,您需要在翻译前通过 OCR(光学字符识别)技术提取文本。DocTranslating 在其翻译流程中会自动运行 OCR,支持 100 多种语言,并将翻译后的文本重新嵌入到与原始 PDF 完全一致的副本中。为了确保重要文档的准确性,建议先在 PDFEquips 上检查 OCR 的识别结果,以免文本提取错误与翻译错误叠加,导致误导性结果。

更新于 2026年6月5日 · 8 分钟阅读

如果您曾将扫描版 PDF 上传到免费的在线翻译器,却只收到一个空白文件、诸如 “无法翻译此文件” 的报错,或者一份完全没有任何文本的翻译副本——请放心,这并不是您的操作问题。大多数在线翻译工具(包括谷歌翻译的免费文档上传功能)并不会对上传的扫描内容运行 OCR。本指南将为您解释其中的原因、翻译扫描版 PDF 真正需要的核心技术,以及如何在不丢失文档原始排版布局的情况下实现完美翻译。

为什么普通的翻译方法对扫描版 PDF 失效?

普通的 PDF 文件(例如从 Word、文本编辑器或浏览器导出的文件)包含一个隐形的文本层,翻译工具可以直接读取它。然而,扫描版 PDF 则完全没有这个文本层。当您扫描一份纸质文档时,扫描仪或手机摄像头捕获的实际上是每一页的照片(图片)。虽然结果看起来是文字,但对计算机而言,它仅仅是一个图像——底层没有任何可提取的数字文本。这就是为什么您通常无法在扫描版 PDF 中用鼠标选中文字:因为根本没有字符可供选择,只有像素。

大多数翻译工具都默认文档已经自带了文本层。当它们找不到文字时,就会以一种令人困惑的方式报错。常见的“症状”包括:

您真正需要的是:OCR 技术 + 智能翻译

翻译扫描版 PDF 在底层其实包含一个两步走的过程,即使由同一个工具同时处理这两个任务:

  1. OCR 步骤:读取每一页的图片,提取出能够识别的文本——包括单词、数字和基本的排版骨架。
  2. 翻译步骤:获取这些提取出的文字,进行语种翻译,然后将翻译好的文本精准地写回到一个全新的文档副本中。

当您上传扫描版 PDF 时,DocTranslating 会在后台自动执行这两个步骤,您无需自己先手动去进行 OCR。但有一个核心事实需要提前知晓:翻译的最终质量完全取决于 OCR 提取出的文本质量。模糊的扫描件会导致 OCR 识别出的文本出现错漏,而带有错漏的文本经过翻译引擎处理后,往往会使错误成倍放大。最终生成的文档读起来可能很通顺,但里面可能隐藏着微妙的词义错误,因此重要文档在投入正式使用前绝对值得仔细核对。

分步指南:如何翻译扫描版 PDF

  1. 1

    打开 DocTranslating 并上传您的扫描版 PDF

    将文件拖放到上传区域,或点击浏览进行选择。工具会自动检测到该文件是 PDF;您不需要做任何特殊的设置来标记它是扫描件——系统会根据需要自动触发 OCR 流程。

  2. 2

    设置您的原始语言(源语言)和目标语言

    选择文档目前所使用的语言以及您希望翻译成的语种。对于扫描版 PDF,建议明确指定源语言,而不是依赖“自动检测(Auto-detect)”——因为与干净的数字文本相比,自动检测功能在面对 OCR 提取出的文本时准确率会有所下降。

  3. 3

    选择 Gemini 翻译引擎

    对于扫描版 PDF,Gemini 是目前最强大的选择。作为基于大语言模型(LLM)的引擎,当 OCR 产生部分文字破损或模糊时,它能够结合整段的上下文语境来推断出合理的词义;而像 DeepL 这种基于句子级别的传统引擎,则会直接把破损的错字照搬进翻译结果中。您还可以编写“自定义指令(Custom Instructions)”来保持整个文档中专业术语的一致性。

  4. 4

    启动翻译,随后务必仔细检查翻译结果

    开始翻译流程,待文件准备就绪后将其下载,并与原文件逐页进行对比。要特别注意数字、日期、人名、地址以及任何关键的法律内容——这些地方通常是 OCR 识别错误的重灾区,因为翻译引擎在这里缺乏足够的语言上下文来进行自我纠错。

针对扫描版 PDF,哪款翻译引擎效果最好?

DocTranslating 上所有支持 PDF 上传的引擎都会对扫描内容运行 OCR 技术,但它们在处理不完美的 OCR 原始数据时,表现却大相径庭。没有任何一项 OCR 技术能保证 100% 的准确率——核心在于,当翻译引擎看到一个残缺不全的单词时会怎么处理。

翻译引擎面对 OCR 残缺文本时的表现何时推荐使用
Gemini基于大语言模型(LLM);即使 OCR 结果不完美,也能利用上下文推断出正确含义。任何扫描版 PDF 的首选和默认选择。
DeepL句子级翻译;输入端文字如果是乱码,输出端的翻译结果大概率也是乱码。仅适用于清晰度极高的高质量扫描件。
Google Cloud对图片噪点和视觉干扰的容错力强,但在翻译后的 PDF 中会添加一个微小的水印。需要最广泛的语种覆盖时;以及大小在 10 MB 以下的文件。
Microsoft Azure完全不接受直接上传 PDF 格式的文件。需提前将 PDF 转换为 Word 文档(参见下文解决方案)。
扫描版 PDF 可选的翻译引擎对比

在翻译前如何尽可能优化 OCR 的识别质量?

OCR 的最终成效几乎完全取决于您输入的原始文件。一份清晰、端正且分辨率足够高的扫描件能带来近乎完美的 OCR 文字;而一份黯淡、歪斜或低清的扫描件,无论用什么神仙工具,其 OCR 结果都会大打折扣。在上载文件前,以下几点优化非常值得一试:

特殊极端案例与当前的局限性

手写体文档(Handwritten Documents)

印刷体文本的 OCR 技术目前已经非常成熟和可靠。然而,针对手写体(Handwritten)文本的 OCR 识别则是一个业界公认的巨大难题,且目前的识别准确率在整个科技行业内普遍参差不齐——这并非单一工具的瓶颈。如果您的扫描版 PDF 属于手写笔记,请做好后期需要进行大量人工手动修正的准备。对于任何敏感的法律或商务文件,手动录入(听写转录)要比依赖机器 OCR 靠谱得多。

体积过大或页数过多的扫描件

Gemini 翻译引擎对单个文件有着最大 25 页和 100 MB 的严格限制。面对超出此限制的长篇扫描大件,您需要采用以下变通工作流:

从右至左书写语言(RTL)的扫描版 PDF

如果您正准备翻译一份由阿拉伯语、希伯来语或波斯语编写的扫描版 PDF,目前有一个已知的技术痛点需要注意:PDF 文本提取层可能会按照视觉渲染顺序(Visual draw order)而非逻辑阅读顺序(Logical reading order)导出 RTL 内容。这意味着,在翻译还没开始前,OCR 提取出的文字顺序就已经是颠倒或混乱的了。RTL 的 Word 和 PowerPoint 文件表现完美,而从其他语言翻译 RTL 语言也完全正常——唯独以 RTL 语言为源文件的扫描版 PDF 会受到此技术限制的影响。如果您能拿到可编辑的原始文件,请尽量翻译原始文件。我们目前正在全力攻克这一 PDF 底层难题,但暂未百分之百完美解决。

常见问题

为什么谷歌翻译无法直接处理我的扫描版 PDF?

谷歌翻译的文档上传功能只能读取 PDF 中已经存在的原生文本层——它不会对基于图片的页面去运行 OCR。因为扫描版 PDF 没有任何文本层,系统进去后空无一物,无法读取。因此,谷歌翻译要么丢回一个空白文件,要么直接报错提示“无法翻译此文件”。解决方案是使用内置了自动 OCR 的翻译器(如 DocTranslating),或者先单独对 PDF 进行 OCR 处理后再行上传。

如何判断我的 PDF 是扫描件还是包含真正的文本层?

用任意 PDF 阅读器打开文件,尝试用鼠标光标长按并拖动去选中一个句子。如果文本能被高亮蓝色显示并且可以复制出来,说明它拥有真正的文本层,任何翻译器都能轻松搞定。如果鼠标怎么拖都没反应,或者一点击就把整页当成一张大图圈起来了——那它就是纯扫描件,翻译前必须要经过 OCR 这一关。

我可以免费翻译扫描版 PDF 吗?

包括谷歌翻译在内的大多数全免费翻译工具由于不带 OCR 模块,处理扫描版 PDF 时都会返回空白或报错。而某些带有免费 OCR 的工具往往会设下极其苛刻的文件大小和页数限制,且支持的语种寥寥无几。DocTranslating 在翻译时免费且自动地调用 OCR 流程,支持 100 多种语言,并采用按需计费(pay-as-you-go)模式,您只需为您真正翻译的文本字数付费,没有任何强制的按月订阅包袱。

针对扫描版 PDF,哪款翻译引擎效果最好?

Gemini 是目前在 DocTranslating 上的标准首选。作为一款大语言模型(LLM)驱动的引擎,它拥有极强的“脑补”能力,能够结合上下文理解意思,即使 OCR 步骤识别出了个别错别字也能顺畅翻译;相比之下,DeepL 这种句子级传统引擎遇到 OCR 错字时往往会陷入卡顿或跟着一起错。Google Cloud 在应对扫描噪点时表现也很硬朗,但会在导出的 PDF 中留下一行微小的官方水印。

手写字体的扫描文档可以翻译吗?

手写体的 OCR 识别率目前在整个科技行业(不限于某一款工具)都普遍远低于印刷体。如果您的文档涉及高精度商务或法律合同,最安全的路径永远是先找人工将其转录为电子版文本再行翻译。如果是日常非正式的手写笔记,OCR 结合智能翻译可以帮您快速生成一份粗略的草稿,供您后续对照着手动微调。

如果我的扫描版 PDF 超过了限制的大小该怎么办?

建议先使用 PDFEquips 的 PDF 压缩工具进行瘦身——它通常能在保留肉眼可见的清晰度的同时,将文件体积缩减 50% 左右。如果文件实在太长,可以先用 PDFEquips 的拆分工具切成每份 25 页以内的小片段,分别上传翻译,最后再通过合并工具(Merge)将翻译好的各部分还原为一份完整的长文档。

翻译出来的 PDF 会保留原来的排版布局吗?

会。DocTranslating 的工作原理是将翻译好的文本精准地写回原文件的图层架构中,从而最大化地保留段落、表格、标题和配图的相对位置。不过针对扫描版 PDF,排版还原的完美程度取决于原文件的清晰和规整度:格式简单的文档几乎可以做到像素级还原;而那些密密麻麻、排版极其复杂的扫描件,偶尔可能会出现微小的排版错位。

如何在正式扣费翻译前,先验证机器 OCR 提取出的文字准不准?

您可以先单独去使用 PDFEquips 提供的 OCR 工具。它会帮您免费把纯图片 PDF 转化成一个“可检索/双层 PDF(Searchable PDF)”,您可以直接在里面自由复制和阅读被机器识别出的文字。如果在人名、财务数据等关键地方发现了机器识别错误,直接在源头改掉它,然后再送去翻译——在源头扼杀 OCR 错误比在翻译完后再满篇找错要省力十倍。

我的源文件是扫描版的阿拉伯语 PDF,能翻译吗?

将其他语言翻译“成”阿拉伯语体验非常完美。但如果是从“扫描版阿拉伯语/希伯来语/波斯语 PDF”翻译成其他语言,目前存在一个行业底层痛点:PDF 的文字提取算法经常会把这种从右往左(RTL)书写的文字按相反的视觉顺序倒序吐出,导致大模型读取到的是完全颠倒的词序。此问题仅针对 RTL 语言的 **PDF 扫描源文件**;如果是 RTL 语言的 Word 或 PowerPoint 文件则完全不受影响。如果能拿到原始可编辑文件请优先使用,PDF 的这一特定局限性我们正在加紧攻关中。

翻译完成后的扫描版 PDF 是可以编辑的吗?

我们的输出格式是严格镜像输入格式的,这意味着您上传扫描版 PDF,下载到的依然是 PDF。如果您希望最终得到一份可以随意编辑的文档,完美的解法是:先去 PDFEquips 使用“PDF 转 Word”功能(该功能在转换时会自动跑一遍深度 OCR 提取),将扫描件变成 .docx 格式,然后再把这个 Word 文件传到 DocTranslating 来翻译——这样您最后拿到手的就是一份完全可编辑的 Word 译文文档了。

← 所有指南