How-to

स्कैन की गई PDF फाइल का अनुवाद कैसे करें

मूल लेआउट को बनाए रखते हुए स्कैन किए गए पीडीएफ दस्तावेज़ का दूसरी भाषा में अनुवाद करना

स्कैन की गई PDF टेक्स्ट की इमेज होती हैं, वास्तविक टेक्स्ट नहीं — यही कारण है कि Google Translate सहित अधिकांश ट्रांसलेटर या तो उन्हें रिजेक्ट कर देते हैं, खाली परिणाम देते हैं, या "फाइल का अनुवाद नहीं किया जा सकता" एरर दिखाते हैं। स्कैन किए गए PDF का अनुवाद करने के लिए आपको अनुवाद से पहले OCR (टेक्स्ट निष्कर्षण) की आवश्यकता होती है। DocTranslating अनुवाद प्रक्रिया के हिस्से के रूप में स्वचालित रूप से OCR चलाता है, 100+ भाषाओं का समर्थन करता है, और अनुवादित टेक्स्ट को मूल PDF की एक कॉपी में वापस सेट कर देता है। महत्वपूर्ण दस्तावेजों पर सटीकता के लिए, पहले PDFEquips पर OCR आउटपुट की जांच कर लें ताकि टेक्स्ट निकालने की गलतियां अनुवाद की गलतियों के साथ मिलकर बड़ी न हो जाएं।

अपडेट किया गया 5 जून 2026 · 8 मिनट पढ़ने का समय

यदि आपने कभी किसी मुफ्त ट्रांसलेटर पर स्कैन की गई PDF अपलोड की है और आपको एक खाली फाइल, "इस फाइल का अनुवाद नहीं किया जा सकता" एरर, या बिना टेक्स्ट वाली अनुवादित कॉपी मिली है — तो आप कुछ भी गलत नहीं कर रहे हैं। Google Translate में मुफ्त दस्तावेज़ अपलोड सहित अधिकांश ऑनलाइन ट्रांसलेटर स्कैन किए गए कंटेंट पर OCR नहीं चलाते हैं। यह गाइड बताती है कि ऐसा क्यों होता है, स्कैन किए गए PDF का अनुवाद करने के लिए आपको वास्तव में किसकी आवश्यकता है, और मूल लेआउट को खोए बिना इसे कैसे किया जाए।

स्कैन की गई PDF का सामान्य रूप से अनुवाद क्यों नहीं होता

एक सामान्य PDF — जो Word, किसी एडिटर या ब्राउज़र से एक्सपोर्ट की गई हो — उसमें एक छिपी हुई टेक्स्ट लेयर होती है जिसे ट्रांसलेटर सीधे पढ़ सकते हैं। स्कैन की गई PDF में ऐसा नहीं होता है। जब आप किसी दस्तावेज़ को स्कैन करते हैं, तो आपका स्कैनर या फोन का कैमरा प्रत्येक पेज की एक तस्वीर (Picture) लेता है। परिणाम टेक्स्ट जैसा दिखता है, लेकिन कंप्यूटर के लिए यह केवल एक इमेज है — इसके नीचे कुछ भी निकालने योग्य टेक्स्ट नहीं होता है। यही कारण है कि स्कैन की गई PDF में टेक्स्ट चुनना (Select करना) भी काम नहीं करता है: चुनने के लिए कोई कैरेक्टर नहीं होते, केवल पिक्सल होते हैं।

अधिकांश अनुवाद टूल यह मान लेते हैं कि टेक्स्ट लेयर पहले से मौजूद है। जब उन्हें यह नहीं मिलती है, तो वे भ्रमित करने वाले तरीकों से फेल हो जाते हैं। सामान्य लक्षणों में शामिल हैं:

आपको वास्तव में क्या चाहिए: OCR + अनुवाद

स्कैन किए गए PDF का अनुवाद करना पर्दे के पीछे एक दो-चरणीय प्रक्रिया है, भले ही एक ही टूल दोनों कामों को संभालता हो:

  1. OCR प्रत्येक पेज की इमेज को पढ़ता है और पहचानने योग्य टेक्स्ट — शब्द, संख्याएं और बुनियादी लेआउट निकालता है।
  2. अनुवाद (Translation) उस निकाले गए टेक्स्ट को लेता है, उसका अनुवाद करता है, और दस्तावेज़ की एक नई कॉपी में उसे वापस लिख देता है।

जब आप स्कैन की गई PDF अपलोड करते हैं, तो DocTranslating स्वचालित रूप से दोनों चरणों को चलाता है — आपको इसे पहले खुद से OCR करने की आवश्यकता नहीं है। लेकिन एक बात पहले से समझ लेना उपयोगी है: अनुवाद की गुणवत्ता केवल उतनी ही अच्छी हो सकती है जितना कि उसे मिलने वाला OCR आउटपुट। एक धुंधला स्कैन खराब OCR टेक्स्ट तैयार करता है, और खराब OCR के साथ अनुवाद जुड़ने से गलतियां और बढ़ जाती हैं। परिणाम देखने में स्वाभाविक लग सकता है और फिर भी उसमें छिपी हुई गलतियां हो सकती हैं, इसलिए महत्वपूर्ण दस्तावेजों का उपयोग करने से पहले उनकी जांच करना सही रहता है।

चरण-दर-चरण: स्कैन की गई PDF का अनुवाद कैसे करें

  1. 1

    DocTranslating खोलें और अपनी स्कैन की गई PDF अपलोड करें

    फाइल को अपलोड एरिया में ड्रैग और ड्रॉप करें, या ब्राउज़ करने के लिए क्लिक करें। टूल खुद ही पहचान लेता है कि फाइल एक PDF है; आपको इसे स्कैन के रूप में चिह्नित करने के लिए कुछ भी विशेष करने की आवश्यकता नहीं है — आवश्यकतानुसार OCR स्वचालित रूप से चलता है।

  2. 2

    अपनी सोर्स (स्रोत) और टारगेट (लक्ष्य) भाषाएं सेट करें

    वह भाषा चुनें जिसमें दस्तावेज़ लिखा गया है और वह भाषा जिसमें आप इसका अनुवाद करना चाहते हैं। स्कैन की गई PDF के लिए, ऑटो-डिटेक्ट पर निर्भर रहने के बजाय सोर्स भाषा को स्पष्ट रूप से सेट करें — क्योंकि साफ टेक्स्ट की तुलना में OCR किए गए टेक्स्ट पर ऑटो-डिटेक्शन कम विश्वसनीय होता है।

  3. 3

    Gemini इंजन चुनें

    स्कैन की गई PDF के लिए Gemini सबसे मजबूत विकल्प है। यह एलएलएम (LLM) आधारित है, इसलिए जब OCR आंशिक रूप से विकृत या धुंधले शब्द तैयार करता है, तो यह सही अर्थ का अनुमान लगाने के लिए आसपास के संदर्भ का उपयोग करता है; जबकि DeepL जैसे सेंटेंस-लेवल इंजन विकृत शब्दों को बिना किसी बदलाव के आगे बढ़ा देते हैं। पूरे दस्तावेज़ में शब्दावली की निरंतरता बनाए रखने के लिए आप कस्टम निर्देश (Custom Instructions) भी लिख सकते हैं।

  4. 4

    अनुवाद करें, फिर परिणाम की सावधानीपूर्वक समीक्षा करें

    अनुवाद शुरू करें, फाइल तैयार होने पर उसे डाउनलोड करें और मूल फाइल के साथ पेज दर पेज इसकी तुलना करें। संख्याओं, तारीखों, नाम, पते और कानूनी रूप से महत्वपूर्ण किसी भी चीज़ पर विशेष ध्यान दें — यहीं पर आमतौर पर OCR की गलतियां छिपी होती हैं क्योंकि ट्रांसलेटर के पास इन्हें खुद से ठीक करने के लिए आसपास का कोई संदर्भ नहीं होता है।

स्कैन की गई PDF के लिए कौन सा अनुवाद इंजन सबसे अच्छा है?

DocTranslating के वे सभी इंजन जो PDF स्वीकार करते हैं, स्कैन किए गए कंटेंट पर OCR चलाते हैं, लेकिन वे अपूर्ण OCR आउटपुट को बहुत अलग तरीकों से संभालते हैं। कोई भी OCR 100% सटीक नहीं होता है — असली सवाल यह है कि ट्रांसलेटर आंशिक रूप से खराब शब्द देखने पर उसे कैसे संभालता है।

इंजनOCR आउटपुट पर व्यवहारइसका उपयोग कब करें
GeminiLLM-आधारित; OCR अपूर्ण होने पर भी अर्थ निकालने के लिए संदर्भ (Context) का उपयोग करता हैकिसी भी स्कैन की गई PDF के लिए प्राथमिक विकल्प
DeepLसेंटेंस-लेवल अनुवाद; खराब शब्द आउटपुट में भी खराब ही आते हैंकेवल साफ और उच्च-गुणवत्ता वाले स्कैन के लिए
Google Cloudखराब क्वालिटी को संभालने में मजबूत है, लेकिन अनुवादित पीडीएफ में एक छोटा वॉटरमार्क जोड़ता हैसबसे व्यापक भाषा कवरेज के लिए; 10 MB से कम की फाइलों के लिए
Microsoft AzurePDF फाइलें बिल्कुल भी स्वीकार नहीं करता हैपहले PDF को Word में बदलें (नीचे देखें)
स्कैन की गई PDF पर अनुवाद इंजन

अनुवाद करने से पहले OCR की गुणवत्ता में सुधार करना

OCR की गुणवत्ता पूरी तरह से इनपुट फाइल पर निर्भर करती है। अच्छे रिज़ॉल्यूशन पर एक साफ, सीधा स्कैन बिल्कुल सटीक OCR तैयार करता है; जबकि एक धुंधला, तिरछा, कम रिज़ॉल्यूशन का स्कैन अविश्वसनीय OCR देता है, चाहे आप किसी भी टूल का उपयोग करें। अपलोड करने से पहले कुछ बातों का ध्यान रखना अच्छा रहता है:

विशेष परिस्थितियां और वर्तमान सीमाएं

हाथ से लिखे दस्तावेज़ (Handwritten Documents)

प्रिंटेड टेक्स्ट के लिए OCR तकनीक अब काफी विकसित और विश्वसनीय है। लेकिन हाथ से लिखे (Handwritten) टेक्स्ट के लिए OCR करना बहुत कठिन है, और इसके परिणाम पूरी इंडस्ट्री में ही असंगत हैं — यह सिर्फ किसी एक टूल की सीमा नहीं है। यदि आपकी स्कैन की गई PDF हाथ से लिखी गई है, तो काफी मैन्युअल सुधार की उम्मीद करें। कानूनी रूप से संवेदनशील किसी भी चीज़ के लिए मशीन OCR के बजाय हाथ से टाइप या ट्रांसक्रिप्शन करवाने को प्राथमिकता दें।

बड़े या लंबे स्कैन

Gemini इंजन प्रत्येक फाइल के लिए अधिकतम 25 पेज और 100 MB की सीमा तय करता है। इससे लंबे या बड़े स्कैन के लिए एक वैकल्पिक तरीका अपनाना होगा:

दाएं-से-बाएं लिखी जाने वाली भाषाओं (RTL) की स्कैन की गई PDF

यदि आप अरबी, हिब्रू या फारसी में लिखी गई स्कैन की गई PDF का अनुवाद कर रहे हैं, तो एक वर्तमान सीमा को जान लेना अच्छा है: PDF टेक्स्ट-निष्कर्षण लेयर लॉजिकल रीडिंग ऑर्डर के बजाय विजुअल ड्रॉ ऑर्डर में RTL कंटेंट दे सकती है, जिसका अर्थ है कि अनुवाद शुरू होने से पहले ही OCR किए गए शब्द उल्टे या उलझे हुए आ सकते हैं। RTL Word और PowerPoint फाइलें ठीक काम करती हैं, और किसी भाषा से RTL भाषा में अनुवाद करना भी ठीक काम करता है — समस्या केवल RTL PDF सोर्स फाइलों के साथ होती है। यदि आपके पास मूल संपादन योग्य (Editable) फाइल है, तो उसका अनुवाद करें। अन्यथा इस पर काम चल रहा है लेकिन अभी तक पूरी तरह से समाधान नहीं हुआ है।

अक्सर पूछे जाने वाले प्रश्न

गूगल ट्रांसलेट मेरी स्कैन की गई PDF का अनुवाद क्यों नहीं कर पा रहा है?

गूगल ट्रांसलेट का दस्तावेज़ अपलोड फीचर एक PDF की मौजूदा टेक्स्ट लेयर को पढ़ता है — यह इमेज-आधारित पेजों पर OCR रन नहीं करता है। चूंकि एक स्कैन की गई PDF में कोई टेक्स्ट लेयर नहीं होती है, इसलिए पढ़ने के लिए कुछ नहीं होता है। नतीजतन गूगल ट्रांसलेट या तो एक खाली फाइल देता है या "इस फाइल का अनुवाद नहीं किया जा सकता" मैसेज दिखाता है। समाधान यह है कि ऐसे ट्रांसलेटर का उपयोग करें जिसमें OCR शामिल हो, या PDF को पहले अलग से OCR करें और फिर सर्च करने योग्य कॉपी अपलोड करें।

मुझे कैसे पता चलेगा कि मेरी PDF स्कैन की गई है या इसमें वास्तविक टेक्स्ट लेयर है?

PDF खोलें और कर्सर से एक वाक्य को चुनने (Select करने) का प्रयास करें। यदि टेक्स्ट हाईलाइट होता है और आप उसे कॉपी कर सकते हैं, तो PDF में वास्तविक टेक्स्ट लेयर है और कोई भी ट्रांसलेटर इसे संभाल सकता है। यदि कुछ नहीं होता है — या आप केवल पूरे पेज को एक इमेज के रूप में ही चुन सकते हैं — तो यह स्कैन की गई है और अनुवाद से पहले इसके लिए OCR की आवश्यकता है।

क्या मैं मुफ्त में स्कैन की गई PDF का अनुवाद कर सकता हूँ?

गूगल ट्रांसलेट में दस्तावेज़ अपलोड सहित अधिकांश मुफ्त ट्रांसलेटर स्कैन की गई PDF पर OCR नहीं चलाते हैं, इसलिए वे एक खाली परिणाम या एरर देंगे। जिन मुफ्त टूल में OCR होता है, उनमें आमतौर पर साइज लिमिट बहुत कम होती है और भाषाओं की संख्या भी सीमित होती है। DocTranslating स्वचालित रूप से OCR चलाता है और उपयोग के आधार पर (Usage-based pricing) 100+ भाषाओं का समर्थन करता है, इसलिए आपको कोई बार-बार होने वाला सब्सक्रिप्शन न देकर केवल उतने के लिए भुगतान करना होता है जितना आप अनुवाद करते हैं।

स्कैन की गई PDF के लिए कौन सा अनुवाद इंजन सबसे अच्छा है?

DocTranslating में Gemini सबसे मजबूत विकल्प है। एक LLM-आधारित इंजन के रूप में यह अर्थ को समझने के लिए आसपास के संदर्भ का उपयोग करता है, भले ही OCR में छोटी-मोटी गलतियाँ हों। दूसरी ओर, DeepL जैसे सेंटेंस-लेवल इंजन खराब शब्दों को बिना किसी बदलाव के छोड़ देते हैं। Google Cloud भी स्कैन के मामलों में काफी प्रभावी है लेकिन अनुवादित पीडीएफ में एक छोटा वॉटरमार्क जोड़ता है।

क्या मैं हाथ से लिखे स्कैन दस्तावेज़ का अनुवाद कर सकता हूँ?

हाथ से लिखी चीजों पर OCR करना प्रिंटेड टेक्स्ट की तुलना में बहुत कम विश्वसनीय है — यह पूरी इंडस्ट्री में सच है, केवल एक टूल के लिए नहीं। कानूनी रूप से संवेदनशील या उच्च सटीकता की आवश्यकता वाली किसी भी चीज़ के लिए, अनुवाद से पहले मैन्युअल ट्रांसक्रिप्शन करवा लेना सुरक्षित रास्ता है। सामान्य हस्तलिखित नोट्स के लिए, OCR प्लस अनुवाद एक कामचलाऊ ड्राफ्ट दे सकता है जिसे आप बाद में ठीक कर सकते हैं।

यदि मेरी स्कैन की गई PDF फाइल साइज सीमा से बड़ी है तो क्या करें?

PDFEquips के PDF कंप्रेसर का उपयोग करके PDF को कंप्रेस करें — यह आमतौर पर बिना किसी दृश्य गुणवत्ता नुकसान के स्कैन के साइज को आधा कर सकता है। यदि PDF लंबा भी है, तो PDFEquips के स्प्लिटर से उसे 25 पेज या उससे कम के हिस्सों में विभाजित करें, प्रत्येक हिस्से का अनुवाद करें और उन्हें फिर से एक दस्तावेज़ में मर्ज करें।

क्या अनुवादित PDF मूल लेआउट को बनाए रखेगा?

हाँ — DocTranslating अनुवादित टेक्स्ट को मूल दस्तावेज़ की एक कॉपी में फिर से तैयार करता है, जिससे पैराग्राफ, टेबल, हेडिंग और इमेज बने रहते हैं। विशेष रूप से स्कैन की गई PDF के लिए, लेआउट की सटीकता इस बात पर निर्भर करती है कि मूल फाइल कितनी स्पष्ट रूप से व्यवस्थित थी: साधारण दस्तावेज़ लगभग हूबहू आते हैं; लेकिन जटिल या घने फॉर्मेट वाले स्कैन फाइलों में थोड़ा बदलाव हो सकता है।

अनुवाद करने से पहले मैं OCR सटीक है या नहीं, यह कैसे जाँचे?

पहले PDFEquips के OCR टूल का उपयोग करके अलग से OCR रन करें। यह एक सर्च करने योग्य PDF तैयार करेगा जहाँ से आप टेक्स्ट कॉपी करके पढ़ सकते हैं। यदि कोई नाम, तारीख या महत्वपूर्ण वाक्यांश गलत आता है, तो फाइल को अनुवाद में भेजने से पहले सोर्स में ही उसे ठीक करें — क्योंकि OCR चरण की गलतियां अनुवाद की गलतियों के साथ मिलकर और जटिल हो जाती हैं और शुरुआत में इन्हें पकड़ना बहुत आसान होता है।

मैं एक स्कैन की गई अरबी PDF से अनुवाद कर रहा हूँ — क्या यह काम करेगा?

अरबी भाषा में अनुवाद करना सही ढंग से काम करता है। हालांकि, स्कैन की गई अरबी (या हिब्रू, फारसी) PDF से अनुवाद करने के मामले में वर्तमान में एक सीमा है: PDF टेक्स्ट-निष्कर्षण लेयर लॉजिकल रीडिंग ऑर्डर के बजाय विजुअल ऑर्डर में दाएं-से-बाएं टेक्स्ट दे सकती है, जिससे शब्द उल्टे हो सकते हैं। RTL Word और PowerPoint फाइलें ठीक रहती हैं; विशेष रूप से RTL PDF सोर्स इससे प्रभावित होते हैं और यह एक जानी-मानी सीमा है जिस पर काम चल रहा है।

क्या अनुवादित स्कैन की गई PDF संपादन योग्य (Editable) है?

आउटपुट इनपुट फॉर्मेट की एक कॉपी होता है, इसलिए स्कैन की गई PDF इनपुट देने पर आपको एक अनुवादित PDF ही मिलेगी। यदि आप अंत में एक एडिटेबल फाइल चाहते हैं, तो पहले PDFEquips के PDF-to-Word कनवर्टर का उपयोग करके मूल स्कैन की गई PDF को Word में बदलें (यह रूपांतरण के हिस्से के रूप में ही OCR चलाता है), फिर .docx फाइल का अनुवाद करें — आपको PDF के बजाय एक संपादन योग्य Word दस्तावेज़ वापस मिलेगा।

शुरुआती गाइड

बिना फॉर्मेटिंग और लेआउट खोए किसी डॉक्यूमेंट का अनुवाद कैसे करें

DocTranslating आपके PDF, Word, PowerPoint, Excel, कोड और सबटाइटल्स फ़ाइलों का 100 से अधिक भाषाओं में अनुवाद करता है, जबकि आपके मूल लेआउट, फ़ॉन्ट, टेबल और इमेज को उनके स्थान पर बनाए रखता है। बस फ़ाइल अपलोड करें, भाषा और चार अनुवाद इंजनों (DeepL, Microsoft Azure, Google Cloud, या Gemini) में से एक चुनें, और फिर एक ऐसी अनुवादित कॉपी डाउनलोड करें जो बिल्कुल मूल जैसी दिखती है। यह गाइड पूरी प्रक्रिया के साथ-साथ वास्तविक दुनिया के विशेष मामलों — स्कैन की गई PDF, फुटनोट और टेक्स्ट बॉक्स, शब्दावली की निरंतरता, फ़ाइल आकार की सीमाएं, और दाएं-से-बाएं लिखी जाने वाली भाषाओं (RTL) को कवर करती है।

11 min read

← सभी गाइड