How-to
Cara Menerjemahkan File PDF Hasil Scan
PDF hasil scan sebenarnya merupakan gambar dari teks, bukan teks asli — itulah mengapa sebagian besar alat penerjemah, termasuk Google Translate, menolaknya, menghasilkan file kosong, atau menampilkan error "tidak dapat menerjemahkan file ini". Untuk menerjemahkan PDF hasil scan, Anda memerlukan teknologi OCR (ekstraksi teks) sebelum proses penerjemahan. DocTranslating menjalankan OCR secara otomatis sebagai bagian dari proses penerjemahan, mendukung lebih dari 100 bahasa, dan menyusun kembali teks terjemahan ke dalam salinan yang identik dengan PDF aslinya. Untuk akurasi dokumen penting, disarankan memeriksa hasil output OCR di PDFEquips terlebih dahulu agar kesalahan ekstraksi teks tidak berlanjut menjadi kesalahan terjemahan.
Diperbarui 5 Juni 2026 · 8 menit membaca
Jika Anda pernah mengunggah PDF hasil scan ke alat penerjemah gratis dan menerima file kosong, error bertuliskan "cannot translate this file", atau salinan terjemahan tanpa teks sama sekali — Anda tidak sendirian dan tidak melakukan kesalahan. Sebagian besar penerjemah online, termasuk fitur unggah dokumen gratis di Google Translate, tidak menjalankan proses OCR pada konten hasil scan. Panduan ini akan menjelaskan mengapa hal ini terjadi, apa yang sebenarnya Anda butuhkan untuk menerjemahkan PDF hasil scan, dan bagaimana cara melakukannya tanpa kehilangan tata letak aslinya.
Mengapa PDF Hasil Scan Tidak Bisa Diterjemahkan Secara Normal
PDF normal — yang diekspor dari Word, teks editor, atau browser — memiliki lapisan teks tersembunyi yang dapat dibaca langsung oleh mesin penerjemah. Namun, PDF hasil scan tidak memilikinya. Ketika Anda memindai dokumen, mesin scanner atau kamera ponsel Anda mengambil foto (gambar) dari setiap halaman. Hasilnya memang terlihat seperti teks, tetapi bagi komputer, itu hanyalah sebuah gambar — tidak ada teks yang dapat diekstrak di bawahnya. Itulah mengapa teks pada PDF hasil scan tidak bisa diblok atau disalin: tidak ada karakter yang bisa dipilih, yang ada hanyalah piksel.
Sebagian besar alat penerjemah berasumsi bahwa lapisan teks tersebut sudah tersedia. Ketika mereka tidak menemukannya, sistem akan gagal dan memicu masalah yang membingungkan. Gejala umumnya meliputi:
- Penerjemah mengembalikan file kosong, atau salinan yang persis sama dengan file asli tanpa ada perubahan bahasa.
- Muncul pesan error seperti "cannot translate this file" atau "unable to translate this document".
- Hanya elemen yang dimasukkan secara digital (seperti nomor halaman, watermark, atau bidang formulir) yang diterjemahkan.
- Tombol unduh tetap berwarna abu-abu (tidak aktif), atau prosesnya tampak selesai tetapi tidak menghasilkan apa pun yang dapat digunakan.
- File yang sama dapat diproses di satu alat tetapi gagal di alat lain tanpa alasan yang jelas.
Yang Sebenarnya Anda Butuhkan: OCR + Penerjemahan
Menerjemahkan PDF hasil scan adalah proses dua tahap di balik layar, meskipun satu alat dapat menangani kedua tugas tersebut sekaligus:
- OCR membaca gambar di setiap halaman dan mengekstrak teks yang dapat dikenali — kata, angka, dan tata letak dasar.
- Penerjemahan (Translation) mengambil teks hasil ekstraksi tersebut, menerjemahkannya, dan menulisnya kembali ke dalam salinan dokumen baru.
Saat Anda mengunggah PDF hasil scan, DocTranslating secara otomatis menjalankan kedua tahapan tersebut — Anda tidak perlu melakukan OCR sendiri terlebih dahulu. Namun, satu hal yang perlu dipahami sejak awal: kualitas terjemahan sangat bergantung pada kualitas teks hasil output OCR-nya. Pemindaian yang buram akan menghasilkan teks OCR yang cacat, dan teks OCR yang cacat dikombinasikan dengan mesin penerjemah akan melipatgandakan kesalahan. Hasilnya mungkin terdengar luwes namun tetap menyimpan kesalahan makna yang fatal, oleh karena itu dokumen penting sangat layak untuk diperiksa kembali sebelum digunakan.
Langkah-demi-Langkah: Cara Menerjemahkan PDF Hasil Scan
- 1
Buka DocTranslating dan Unggah PDF Hasil Scan Anda
Seret dan lepas file ke area unggahan, atau klik untuk memilih file dari komputer Anda. Alat ini akan otomatis mendeteksi bahwa file tersebut adalah PDF; Anda tidak perlu melakukan pengaturan khusus untuk menandainya sebagai hasil scan — proses OCR akan berjalan secara otomatis sesuai kebutuhan.
- 2
Atur Bahasa Asal (Source) dan Bahasa Tujuan (Target)
Pilih bahasa dokumen asli Anda dan bahasa tujuan terjemahan yang Anda inginkan. Untuk PDF hasil scan, tentukan bahasa asal secara eksplisit daripada mengandalkan deteksi otomatis (Auto-detect) — karena fitur deteksi otomatis kurang andal pada teks hasil OCR dibandingkan pada teks digital yang bersih.
- 3
Pilih Mesin Penerjemah Gemini
Untuk PDF hasil scan, Gemini adalah pilihan paling tangguh. Karena berbasis LLM (Large Language Model), Gemini menggunakan konteks di sekitarnya untuk menyimpulkan makna ketika proses OCR menghasilkan kata-kata yang sebagian rusak atau buram; sedangkan mesin tingkat kalimat (sentence-level) seperti DeepL akan meneruskan kata-kata yang rusak tersebut apa adanya tanpa perubahan. Anda juga dapat menulis instruksi khusus (Custom Instructions) untuk menjaga konsistensi istilah di seluruh dokumen.
- 4
Terjemahkan, Lalu Tinjau Hasilnya dengan Cermat
Mulai proses penerjemahan, unduh file setelah siap, dan bandingkan halaman demi halaman dengan dokumen asli. Berikan perhatian ekstra pada angka, tanggal, nama, alamat, dan konten penting yang legal — di sinilah kesalahan OCR paling sering tersembunyi karena penerjemah tidak memiliki konteks linguistik di sekitarnya untuk mengoreksi diri secara mandiri.
Mesin Penerjemah Apa yang Terbaik untuk PDF Hasil Scan?
Semua mesin di DocTranslating yang menerima file PDF dapat menjalankan fitur OCR pada konten hasil scan, tetapi mereka menangani hasil output OCR yang tidak sempurna dengan cara yang sangat berbeda. Tidak ada teknologi OCR yang 100% akurat — pertanyaan utamanya adalah bagaimana penerjemah merespons ketika menemukan kata yang rusak sebagian.
| Mesin | Perilaku Terhadap Output OCR | Kapan Harus Digunakan |
|---|---|---|
| Gemini | Berbasis LLM; menggunakan konteks sekitar untuk menyimpulkan makna ketika hasil OCR kurang akurat | Pilihan utama dan default untuk semua PDF hasil scan |
| DeepL | Penerjemahan tingkat kalimat; kata-kata yang rusak akan tetap keluar dalam keadaan rusak | Hanya untuk hasil scan yang bersih dan berkualitas tinggi |
| Google Cloud | Tangguh dalam menangani gangguan visual (noise), tetapi menambahkan watermark kecil pada PDF terjemahan | Untuk cakupan bahasa terluas; file di bawah 10 MB |
| Microsoft Azure | Tidak menerima file PDF sama sekali | Konversikan PDF ke Word terlebih dahulu (lihat di bawah) |
Meningkatkan Kualitas OCR Sebelum Diterjemahkan
Kualitas OCR hampir sepenuhnya bergantung pada file input yang Anda berikan. Hasil pemindaian yang bersih, lurus, dan dengan resolusi yang baik akan menghasilkan OCR yang nyaris sempurna; sedangkan hasil scan yang pudar, miring, atau beresolusi rendah akan menghasilkan OCR yang tidak andal, terlepas dari alat apa pun yang Anda gunakan. Beberapa hal yang layak dilakukan sebelum mengunggah file:
- Jika Anda memiliki akses ke dokumen fisik asli, pindai ulang pada resolusi 300 DPI atau lebih tinggi. Resolusi yang rendah membuat karakter menjadi buram sehingga mesin OCR salah membacanya.
- Luruskan halaman yang miring — mesin OCR mengharapkan teks berada dalam baris horizontal yang lurus.
- Tingkatkan kontras pada hasil scan yang pudar atau keabu-abuan agar karakter teks terlihat kontras dan terpisah jelas dari latar belakang.
- Pastikan file tidak dilindungi kata sandi — PDF yang dienkripsi tidak dapat dibaca sampai enkripsinya dibuka.
- Atur bahasa asal secara manual, khususnya untuk skrip non-Latin (seperti Arab, Mandarin, Sirilik, atau Dewanagari). Fitur deteksi otomatis pada teks hasil OCR jauh kurang andal dibandingkan pada teks digital yang bersih.
Kasus Khusus dan Batasan Saat Ini
Dokumen Tulisan Tangan (Handwritten)
Teknologi OCR untuk teks cetak saat ini sudah sangat matang dan andal. Namun, OCR untuk teks tulisan tangan (Handwritten) jauh lebih sulit, dan hasilnya sering kali tidak konsisten di seluruh industri — ini bukan hanya keterbatasan pada satu alat saja. Jika PDF hasil scan Anda berupa tulisan tangan, bersiaplah untuk melakukan banyak koreksi manual. Untuk dokumen yang sensitif secara hukum, proses transkripsi manual jauh lebih aman daripada mengandalkan OCR mesin.
Hasil Scan yang Besar atau Panjang
Mesin Gemini membatasi setiap file maksimal 25 halaman dan ukuran 100 MB. Untuk hasil scan yang lebih panjang atau lebih besar, Anda bisa menggunakan alur kerja alternatif berikut:
PDF Hasil Scan dengan Bahasa Kanan-ke-Kiri (RTL)
Jika Anda menerjemahkan PDF hasil scan yang ditulis dalam bahasa Arab, Ibrani, atau Persia, ada batasan saat ini yang perlu Anda ketahui: lapisan ekstraksi teks PDF dapat mengembalikan konten RTL dalam urutan tampilan visual (visual draw order) alih-alih urutan membaca logis (logical reading order), yang berarti kata-kata hasil OCR bisa keluar dalam keadaan terbalik atau acak sebelum proses penerjemahan dimulai. File Word dan PowerPoint berformat RTL dapat berfungsi dengan sempurna, begitu pula menerjemahkan ke dalam bahasa RTL — masalah ini hanya terjadi khusus pada file PDF sumber berformat RTL. Jika Anda memiliki akses ke file asli yang dapat diedit, terjemahkan file tersebut sebagai gantinya. Solusi untuk masalah PDF ini sedang dalam pengembangan tetapi belum sepenuhnya teratasi.
Pertanyaan जो sering diajukan
Mengapa Google Translate tidak bisa menerjemahkan PDF hasil scan saya?
Fitur unggah dokumen di Google Translate membaca lapisan teks yang ada pada file PDF — fitur tersebut tidak menjalankan OCR pada halaman yang berbasis gambar. Karena PDF hasil scan tidak memiliki lapisan teks, tidak ada yang bisa dibaca oleh sistem. Akibatnya, Google Translate akan mengembalikan file kosong atau menampilkan pesan "cannot translate this file". Solusinya adalah gunakan alat penerjemah yang menyertakan OCR, atau lakukan proses OCR pada PDF secara terpisah terlebih dahulu kemudian unggah salinan yang dapat dicari tersebut.
Bagaimana cara mengetahui apakah PDF saya hasil scan atau memiliki lapisan teks asli?
Buka file PDF tersebut dan cobalah untuk memblok atau memilih satu kalimat menggunakan kursor Anda. Jika teks dapat disorot (highlight) dan disalin, berarti PDF memiliki lapisan teks asli dan alat penerjemah mana pun dapat memprosesnya. Jika tidak terjadi apa-apa — atau Anda hanya bisa memilih seluruh halaman sebagai satu gambar besar — berarti file tersebut adalah hasil scan dan membutuhkan proses OCR sebelum diterjemahkan.
Apakah saya bisa menerjemahkan PDF hasil scan secara gratis?
Sebagian besar alat penerjemah gratis, termasuk fitur unggah dokumen di Google Translate, tidak menjalankan OCR pada PDF hasil scan sehingga akan menghasilkan error atau file kosong. Alat gratis yang menyertakan fitur OCR biasanya memiliki batasan ukuran file yang sangat rendah dan pilihan bahasa yang terbatas. DocTranslating menjalankan OCR secara otomatis dan mendukung lebih dari 100 bahasa dengan tarif berbasis penggunaan (pay-as-you-go), sehingga Anda hanya membayar untuk teks yang Anda terjemahkan tanpa biaya langganan bulanan.
Mesin penerjemah apa yang terbaik untuk PDF hasil scan?
Gemini adalah pilihan terbaik di DocTranslating. Sebagai mesin berbasis LLM, Gemini menggunakan konteks di sekitarnya untuk menginterpretasikan makna yang benar bahkan ketika proses OCR membuat kesalahan kecil. Sebaliknya, mesin tingkat kalimat seperti DeepL sering kali meneruskan kata-kata yang rusak apa adanya. Google Cloud juga tangguh untuk hasil scan, tetapi menambahkan watermark kecil pada PDF terjemahan.
Dapatkah saya menerjemahkan dokumen scan berupa tulisan tangan?
Proses OCR pada tulisan tangan jauh kurang andal dibandingkan pada teks cetak — hal ini berlaku di seluruh industri teknologi, bukan hanya pada satu alat saja. Untuk dokumen yang sensitif secara hukum atau membutuhkan akurasi tinggi, melakukan transkripsi manual sebelum diterjemahkan adalah langkah yang paling aman. Untuk catatan tulisan tangan informal, kombinasi OCR dan penerjemahan dapat memberikan draf kasar yang cukup membantu untuk Anda perbaiki secara manual nantinya.
Apa yang harus dilakukan jika ukuran file PDF hasil scan saya melebihi batas?
Kompres file PDF tersebut menggunakan fitur kompresor PDF di PDFEquips — alat ini dapat memotong ukuran file scan hingga setengahnya tanpa penurunan kualitas visual yang terlihat. Jika file PDF juga terlalu panjang, bagi menjadi beberapa bagian berisi maksimal 25 halaman menggunakan fitur pemisah PDFEquips, terjemahkan setiap bagian secara terpisah, lalu gabungkan kembali menjadi satu dokumen utuh.
Apakah hasil PDF terjemahan akan tetap mempertahankan tata letak aslinya?
Ya — DocTranslating menyusun kembali teks terjemahan ke dalam salinan dokumen asli, sehingga paragraf, tabel, tajuk (heading), dan gambar tetap berada di posisinya. Khusus untuk PDF hasil scan, akurasi tata letak bergantung pada seberapa jelas struktur dokumen aslinya: dokumen sederhana akan menghasilkan salinan yang nyaris identik; sedangkan dokumen scan dengan format yang sangat padat mungkin menunjukkan sedikit pergeseran elemen.
Bagaimana cara memeriksa akurasi OCR sebelum saya memutuskan untuk menerjemahkannya?
Jalankan proses OCR secara terpisah terlebih dahulu menggunakan alat OCR di PDFEquips. Alat tersebut akan menghasilkan PDF yang dapat dicari (searchable PDF) sehingga Anda dapat menyalin teks hasil pengenalan sistem dan membacanya. Jika ada nama, tanggal, atau frasa krusial yang salah, perbaiki di file sumber sebelum mengirimkannya ke proses penerjemahan — karena kesalahan di tahap OCR akan berlanjut ke tahap terjemahan dan jauh lebih mudah ditangani sejak awal.
Saya menerjemahkan dari PDF hasil scan berbahasa Arab — apakah ini berfungsi?
Menerjemahkan ke dalam bahasa Arab dapat berfungsi dengan baik. Namun, menerjemahkan dari dokumen PDF hasil scan berbahasa Arab (atau Ibrani, Persia) saat ini memiliki batasan: lapisan ekstraksi teks PDF terkadang mengembalikan teks kanan-ke-kiri dalam urutan visual alih-alih urutan logis, sehingga kata-katanya bisa terbalik. File Word dan PowerPoint berformat RTL aman dari masalah ini; kendala ini terjadi khusus pada file PDF sumber, dan solusi untuk masalah ini sedang dalam pengembangan.
Apakah hasil PDF terjemahan dari dokumen scan tersebut dapat diedit?
Format output akan mengikuti format input, yang berarti input PDF hasil scan akan menghasilkan output PDF terjemahan. Jika Anda menginginkan file yang dapat diedit di akhir proses, konversikan PDF hasil scan asli ke format Word terlebih dahulu menggunakan konverter PDF-ke-Word di PDFEquips (yang menjalankan OCR sebagai bagian dari konversi), lalu terjemahkan file .docx tersebut — dengan begitu, Anda akan menerima dokumen Word yang dapat diedit, bukan PDF.