How-to

स्कैन की गई PDF फाइल का अनुवाद कैसे करें

स्कैन की गई PDF टेक्स्ट की इमेज होती हैं, वास्तविक टेक्स्ट नहीं — यही कारण है कि Google Translate सहित अधिकांश ट्रांसलेटर या तो उन्हें रिजेक्ट कर देते हैं, खाली परिणाम देते हैं, या "फाइल का अनुवाद नहीं किया जा सकता" एरर दिखाते हैं। स्कैन किए गए PDF का अनुवाद करने के लिए आपको अनुवाद से पहले OCR (टेक्स्ट निष्कर्षण) की आवश्यकता होती है। DocTranslating अनुवाद प्रक्रिया के हिस्से के रूप में स्वचालित रूप से OCR चलाता है, 100+ भाषाओं का समर्थन करता है, और अनुवादित टेक्स्ट को मूल PDF की एक कॉपी में वापस सेट कर देता है। महत्वपूर्ण दस्तावेजों पर सटीकता के लिए, पहले PDFEquips पर OCR आउटपुट की जांच कर लें ताकि टेक्स्ट निकालने की गलतियां अनुवाद की गलतियों के साथ मिलकर बड़ी न हो जाएं।

अपडेट किया गया 5 जून 2026 · 8 मिनट पढ़ने का समय

यदि आपने कभी किसी मुफ्त ट्रांसलेटर पर स्कैन की गई PDF अपलोड की है और आपको एक खाली फाइल, "इस फाइल का अनुवाद नहीं किया जा सकता" एरर, या बिना टेक्स्ट वाली अनुवादित कॉपी मिली है — तो आप कुछ भी गलत नहीं कर रहे हैं। Google Translate में मुफ्त दस्तावेज़ अपलोड सहित अधिकांश ऑनलाइन ट्रांसलेटर स्कैन किए गए कंटेंट पर OCR नहीं चलाते हैं। यह गाइड बताती है कि ऐसा क्यों होता है, स्कैन किए गए PDF का अनुवाद करने के लिए आपको वास्तव में किसकी आवश्यकता है, और मूल लेआउट को खोए बिना इसे कैसे किया जाए।

स्कैन की गई PDF का सामान्य रूप से अनुवाद क्यों नहीं होता

एक सामान्य PDF — जो Word, किसी एडिटर या ब्राउज़र से एक्सपोर्ट की गई हो — उसमें एक छिपी हुई टेक्स्ट लेयर होती है जिसे ट्रांसलेटर सीधे पढ़ सकते हैं। स्कैन की गई PDF में ऐसा नहीं होता है। जब आप किसी दस्तावेज़ को स्कैन करते हैं, तो आपका स्कैनर या फोन का कैमरा प्रत्येक पेज की एक तस्वीर (Picture) लेता है। परिणाम टेक्स्ट जैसा दिखता है, लेकिन कंप्यूटर के लिए यह केवल एक इमेज है — इसके नीचे कुछ भी निकालने योग्य टेक्स्ट नहीं होता है। यही कारण है कि स्कैन की गई PDF में टेक्स्ट चुनना (Select करना) भी काम नहीं करता है: चुनने के लिए कोई कैरेक्टर नहीं होते, केवल पिक्सल होते हैं।

अधिकांश अनुवाद टूल यह मान लेते हैं कि टेक्स्ट लेयर पहले से मौजूद है। जब उन्हें यह नहीं मिलती है, तो वे भ्रमित करने वाले तरीकों से फेल हो जाते हैं। सामान्य लक्षणों में शामिल हैं:

ट्रांसलेटर एक खाली फाइल लौटाता है, या एक ऐसी कॉपी देता है जो मूल फाइल के बिल्कुल समान होती है (बिना किसी अनुवाद के)।
आपको "इस फाइल का अनुवाद नहीं किया जा सकता" या "इस दस्तावेज़ का अनुवाद करने में असमर्थ" संदेश मिलता है।
केवल डिजिटली रूप से जुड़े तत्व (पेज नंबर, वॉटरमार्क, फॉर्म फील्ड) ही अनुवादित होते हैं।
डाउनलोड बटन ग्रे (निष्क्रिय) रहता है, या ऐसा लगता है कि काम पूरा हो गया है लेकिन उपयोग करने योग्य कुछ भी नहीं मिलता है।
वही फाइल एक टूल में काम करती है लेकिन दूसरे टूल में बिना किसी स्पष्ट कारण के फेल हो जाती है।

आपको वास्तव में क्या चाहिए: OCR + अनुवाद

स्कैन किए गए PDF का अनुवाद करना पर्दे के पीछे एक दो-चरणीय प्रक्रिया है, भले ही एक ही टूल दोनों कामों को संभालता हो:

OCR प्रत्येक पेज की इमेज को पढ़ता है और पहचानने योग्य टेक्स्ट — शब्द, संख्याएं और बुनियादी लेआउट निकालता है।
अनुवाद (Translation) उस निकाले गए टेक्स्ट को लेता है, उसका अनुवाद करता है, और दस्तावेज़ की एक नई कॉपी में उसे वापस लिख देता है।

जब आप स्कैन की गई PDF अपलोड करते हैं, तो DocTranslating स्वचालित रूप से दोनों चरणों को चलाता है — आपको इसे पहले खुद से OCR करने की आवश्यकता नहीं है। लेकिन एक बात पहले से समझ लेना उपयोगी है: अनुवाद की गुणवत्ता केवल उतनी ही अच्छी हो सकती है जितना कि उसे मिलने वाला OCR आउटपुट। एक धुंधला स्कैन खराब OCR टेक्स्ट तैयार करता है, और खराब OCR के साथ अनुवाद जुड़ने से गलतियां और बढ़ जाती हैं। परिणाम देखने में स्वाभाविक लग सकता है और फिर भी उसमें छिपी हुई गलतियां हो सकती हैं, इसलिए महत्वपूर्ण दस्तावेजों का उपयोग करने से पहले उनकी जांच करना सही रहता है।

चरण-दर-चरण: स्कैन की गई PDF का अनुवाद कैसे करें

1
DocTranslating खोलें और अपनी स्कैन की गई PDF अपलोड करें
फाइल को अपलोड एरिया में ड्रैग और ड्रॉप करें, या ब्राउज़ करने के लिए क्लिक करें। टूल खुद ही पहचान लेता है कि फाइल एक PDF है; आपको इसे स्कैन के रूप में चिह्नित करने के लिए कुछ भी विशेष करने की आवश्यकता नहीं है — आवश्यकतानुसार OCR स्वचालित रूप से चलता है।
2
अपनी सोर्स (स्रोत) और टारगेट (लक्ष्य) भाषाएं सेट करें
वह भाषा चुनें जिसमें दस्तावेज़ लिखा गया है और वह भाषा जिसमें आप इसका अनुवाद करना चाहते हैं। स्कैन की गई PDF के लिए, ऑटो-डिटेक्ट पर निर्भर रहने के बजाय सोर्स भाषा को स्पष्ट रूप से सेट करें — क्योंकि साफ टेक्स्ट की तुलना में OCR किए गए टेक्स्ट पर ऑटो-डिटेक्शन कम विश्वसनीय होता है।
3
Gemini इंजन चुनें
स्कैन की गई PDF के लिए Gemini सबसे मजबूत विकल्प है। यह एलएलएम (LLM) आधारित है, इसलिए जब OCR आंशिक रूप से विकृत या धुंधले शब्द तैयार करता है, तो यह सही अर्थ का अनुमान लगाने के लिए आसपास के संदर्भ का उपयोग करता है; जबकि DeepL जैसे सेंटेंस-लेवल इंजन विकृत शब्दों को बिना किसी बदलाव के आगे बढ़ा देते हैं। पूरे दस्तावेज़ में शब्दावली की निरंतरता बनाए रखने के लिए आप कस्टम निर्देश (Custom Instructions) भी लिख सकते हैं।
4
अनुवाद करें, फिर परिणाम की सावधानीपूर्वक समीक्षा करें
अनुवाद शुरू करें, फाइल तैयार होने पर उसे डाउनलोड करें और मूल फाइल के साथ पेज दर पेज इसकी तुलना करें। संख्याओं, तारीखों, नाम, पते और कानूनी रूप से महत्वपूर्ण किसी भी चीज़ पर विशेष ध्यान दें — यहीं पर आमतौर पर OCR की गलतियां छिपी होती हैं क्योंकि ट्रांसलेटर के पास इन्हें खुद से ठीक करने के लिए आसपास का कोई संदर्भ नहीं होता है।

महत्वपूर्ण दस्तावेजों के लिए पहले OCR की जांच करें

अनुबंधों (Contracts), प्रमाणपत्रों, मेडिकल रिपोर्ट या कानूनी रूप से संवेदनशील किसी भी चीज़ के लिए, पहले PDFEquips पर अलग से OCR चलाएं और अनुवाद करने से पहले निकाले गए टेक्स्ट को पढ़ लें। यदि OCR ने किसी नाम, तारीख या धारा को गलत पढ़ा है, तो आप उस गलती को दूसरी भाषा में अनुवाद होने से पहले ही पकड़ लेंगे — अनुवाद के बाद की तुलना में OCR चरण में इसे ठीक करना कहीं अधिक आसान है।

स्कैन की गई PDF के लिए कौन सा अनुवाद इंजन सबसे अच्छा है?

DocTranslating के वे सभी इंजन जो PDF स्वीकार करते हैं, स्कैन किए गए कंटेंट पर OCR चलाते हैं, लेकिन वे अपूर्ण OCR आउटपुट को बहुत अलग तरीकों से संभालते हैं। कोई भी OCR 100% सटीक नहीं होता है — असली सवाल यह है कि ट्रांसलेटर आंशिक रूप से खराब शब्द देखने पर उसे कैसे संभालता है।

इंजन	OCR आउटपुट पर व्यवहार	इसका उपयोग कब करें
Gemini	LLM-आधारित; OCR अपूर्ण होने पर भी अर्थ निकालने के लिए संदर्भ (Context) का उपयोग करता है	किसी भी स्कैन की गई PDF के लिए प्राथमिक विकल्प
DeepL	सेंटेंस-लेवल अनुवाद; खराब शब्द आउटपुट में भी खराब ही आते हैं	केवल साफ और उच्च-गुणवत्ता वाले स्कैन के लिए
Google Cloud	खराब क्वालिटी को संभालने में मजबूत है, लेकिन अनुवादित पीडीएफ में एक छोटा वॉटरमार्क जोड़ता है	सबसे व्यापक भाषा कवरेज के लिए; 10 MB से कम की फाइलों के लिए
Microsoft Azure	PDF फाइलें बिल्कुल भी स्वीकार नहीं करता है	पहले PDF को Word में बदलें (नीचे देखें)

स्कैन की गई PDF पर अनुवाद इंजन

अनुवाद करने से पहले OCR की गुणवत्ता में सुधार करना

OCR की गुणवत्ता पूरी तरह से इनपुट फाइल पर निर्भर करती है। अच्छे रिज़ॉल्यूशन पर एक साफ, सीधा स्कैन बिल्कुल सटीक OCR तैयार करता है; जबकि एक धुंधला, तिरछा, कम रिज़ॉल्यूशन का स्कैन अविश्वसनीय OCR देता है, चाहे आप किसी भी टूल का उपयोग करें। अपलोड करने से पहले कुछ बातों का ध्यान रखना अच्छा रहता है:

यदि आपके पास मूल कागजी दस्तावेज़ तक पहुंच है, तो 300 DPI या उससे अधिक पर फिर से स्कैन करें। कम रिज़ॉल्यूशन कैरेक्टर्स को धुंधला कर देता है और OCR उन्हें गलत पढ़ता है।
तिरछे पेजों को सीधा करें — OCR इंजन टेक्स्ट के क्षैतिज (Horizontal) लाइनों में होने की उम्मीद करते हैं।
धुंधले या ग्रे स्कैन पर कांट्रास्ट (Contrast) बढ़ाएं ताकि अक्षर बैकग्राउंड से स्पष्ट रूप से अलग दिखें।
पुष्टि करें कि फाइल पासवर्ड-सुरक्षित नहीं है — एन्क्रिप्टेड PDF को डिक्रिप्ट होने तक नहीं पढ़ा जा सकता है।
विशेष रूप से गैर-लैटिन लिपियों (अरबी, चीनी, सिरिलिक, देवनागरी) के लिए सोर्स भाषा स्पष्ट रूप से सेट करें। साफ टेक्स्ट की तुलना में OCR किए गए टेक्स्ट पर ऑटो-डिटेक्शन बहुत कम विश्वसनीय होता है।

विशेष परिस्थितियां और वर्तमान सीमाएं

हाथ से लिखे दस्तावेज़ (Handwritten Documents)

प्रिंटेड टेक्स्ट के लिए OCR तकनीक अब काफी विकसित और विश्वसनीय है। लेकिन हाथ से लिखे (Handwritten) टेक्स्ट के लिए OCR करना बहुत कठिन है, और इसके परिणाम पूरी इंडस्ट्री में ही असंगत हैं — यह सिर्फ किसी एक टूल की सीमा नहीं है। यदि आपकी स्कैन की गई PDF हाथ से लिखी गई है, तो काफी मैन्युअल सुधार की उम्मीद करें। कानूनी रूप से संवेदनशील किसी भी चीज़ के लिए मशीन OCR के बजाय हाथ से टाइप या ट्रांसक्रिप्शन करवाने को प्राथमिकता दें।

बड़े या लंबे स्कैन

Gemini इंजन प्रत्येक फाइल के लिए अधिकतम 25 पेज और 100 MB की सीमा तय करता है। इससे लंबे या बड़े स्कैन के लिए एक वैकल्पिक तरीका अपनाना होगा:

विभाजित करें, अनुवाद करें, मर्ज करें (Split, Translate, Merge)

PDFEquips के PDF स्प्लिटर से PDF को 25 पेज या उससे कम के हिस्सों में बांट लें, प्रत्येक हिस्से का अनुवाद करें, और फिर अनुवादित हिस्सों को वापस एक साथ जोड़ दें। यदि केवल फाइल साइज की समस्या है, तो PDFEquips का PDF कंप्रेसर आमतौर पर बिना किसी दृश्य गुणवत्ता नुकसान के स्कैन के साइज को आधा कर सकता है।

दाएं-से-बाएं लिखी जाने वाली भाषाओं (RTL) की स्कैन की गई PDF

यदि आप अरबी, हिब्रू या फारसी में लिखी गई स्कैन की गई PDF का अनुवाद कर रहे हैं, तो एक वर्तमान सीमा को जान लेना अच्छा है: PDF टेक्स्ट-निष्कर्षण लेयर लॉजिकल रीडिंग ऑर्डर के बजाय विजुअल ड्रॉ ऑर्डर में RTL कंटेंट दे सकती है, जिसका अर्थ है कि अनुवाद शुरू होने से पहले ही OCR किए गए शब्द उल्टे या उलझे हुए आ सकते हैं। RTL Word और PowerPoint फाइलें ठीक काम करती हैं, और किसी भाषा से RTL भाषा में अनुवाद करना भी ठीक काम करता है — समस्या केवल RTL PDF सोर्स फाइलों के साथ होती है। यदि आपके पास मूल संपादन योग्य (Editable) फाइल है, तो उसका अनुवाद करें। अन्यथा इस पर काम चल रहा है लेकिन अभी तक पूरी तरह से समाधान नहीं हुआ है।

अभी स्कैन की गई PDF का अनुवाद करें

अक्सर पूछे जाने वाले प्रश्न

गूगल ट्रांसलेट मेरी स्कैन की गई PDF का अनुवाद क्यों नहीं कर पा रहा है?

गूगल ट्रांसलेट का दस्तावेज़ अपलोड फीचर एक PDF की मौजूदा टेक्स्ट लेयर को पढ़ता है — यह इमेज-आधारित पेजों पर OCR रन नहीं करता है। चूंकि एक स्कैन की गई PDF में कोई टेक्स्ट लेयर नहीं होती है, इसलिए पढ़ने के लिए कुछ नहीं होता है। नतीजतन गूगल ट्रांसलेट या तो एक खाली फाइल देता है या "इस फाइल का अनुवाद नहीं किया जा सकता" मैसेज दिखाता है। समाधान यह है कि ऐसे ट्रांसलेटर का उपयोग करें जिसमें OCR शामिल हो, या PDF को पहले अलग से OCR करें और फिर सर्च करने योग्य कॉपी अपलोड करें।

मुझे कैसे पता चलेगा कि मेरी PDF स्कैन की गई है या इसमें वास्तविक टेक्स्ट लेयर है?

PDF खोलें और कर्सर से एक वाक्य को चुनने (Select करने) का प्रयास करें। यदि टेक्स्ट हाईलाइट होता है और आप उसे कॉपी कर सकते हैं, तो PDF में वास्तविक टेक्स्ट लेयर है और कोई भी ट्रांसलेटर इसे संभाल सकता है। यदि कुछ नहीं होता है — या आप केवल पूरे पेज को एक इमेज के रूप में ही चुन सकते हैं — तो यह स्कैन की गई है और अनुवाद से पहले इसके लिए OCR की आवश्यकता है।

क्या मैं मुफ्त में स्कैन की गई PDF का अनुवाद कर सकता हूँ?

गूगल ट्रांसलेट में दस्तावेज़ अपलोड सहित अधिकांश मुफ्त ट्रांसलेटर स्कैन की गई PDF पर OCR नहीं चलाते हैं, इसलिए वे एक खाली परिणाम या एरर देंगे। जिन मुफ्त टूल में OCR होता है, उनमें आमतौर पर साइज लिमिट बहुत कम होती है और भाषाओं की संख्या भी सीमित होती है। DocTranslating स्वचालित रूप से OCR चलाता है और उपयोग के आधार पर (Usage-based pricing) 100+ भाषाओं का समर्थन करता है, इसलिए आपको कोई बार-बार होने वाला सब्सक्रिप्शन न देकर केवल उतने के लिए भुगतान करना होता है जितना आप अनुवाद करते हैं।

स्कैन की गई PDF के लिए कौन सा अनुवाद इंजन सबसे अच्छा है?

DocTranslating में Gemini सबसे मजबूत विकल्प है। एक LLM-आधारित इंजन के रूप में यह अर्थ को समझने के लिए आसपास के संदर्भ का उपयोग करता है, भले ही OCR में छोटी-मोटी गलतियाँ हों। दूसरी ओर, DeepL जैसे सेंटेंस-लेवल इंजन खराब शब्दों को बिना किसी बदलाव के छोड़ देते हैं। Google Cloud भी स्कैन के मामलों में काफी प्रभावी है लेकिन अनुवादित पीडीएफ में एक छोटा वॉटरमार्क जोड़ता है।

क्या मैं हाथ से लिखे स्कैन दस्तावेज़ का अनुवाद कर सकता हूँ?

हाथ से लिखी चीजों पर OCR करना प्रिंटेड टेक्स्ट की तुलना में बहुत कम विश्वसनीय है — यह पूरी इंडस्ट्री में सच है, केवल एक टूल के लिए नहीं। कानूनी रूप से संवेदनशील या उच्च सटीकता की आवश्यकता वाली किसी भी चीज़ के लिए, अनुवाद से पहले मैन्युअल ट्रांसक्रिप्शन करवा लेना सुरक्षित रास्ता है। सामान्य हस्तलिखित नोट्स के लिए, OCR प्लस अनुवाद एक कामचलाऊ ड्राफ्ट दे सकता है जिसे आप बाद में ठीक कर सकते हैं।

यदि मेरी स्कैन की गई PDF फाइल साइज सीमा से बड़ी है तो क्या करें?

PDFEquips के PDF कंप्रेसर का उपयोग करके PDF को कंप्रेस करें — यह आमतौर पर बिना किसी दृश्य गुणवत्ता नुकसान के स्कैन के साइज को आधा कर सकता है। यदि PDF लंबा भी है, तो PDFEquips के स्प्लिटर से उसे 25 पेज या उससे कम के हिस्सों में विभाजित करें, प्रत्येक हिस्से का अनुवाद करें और उन्हें फिर से एक दस्तावेज़ में मर्ज करें।

क्या अनुवादित PDF मूल लेआउट को बनाए रखेगा?

हाँ — DocTranslating अनुवादित टेक्स्ट को मूल दस्तावेज़ की एक कॉपी में फिर से तैयार करता है, जिससे पैराग्राफ, टेबल, हेडिंग और इमेज बने रहते हैं। विशेष रूप से स्कैन की गई PDF के लिए, लेआउट की सटीकता इस बात पर निर्भर करती है कि मूल फाइल कितनी स्पष्ट रूप से व्यवस्थित थी: साधारण दस्तावेज़ लगभग हूबहू आते हैं; लेकिन जटिल या घने फॉर्मेट वाले स्कैन फाइलों में थोड़ा बदलाव हो सकता है।

अनुवाद करने से पहले मैं OCR सटीक है या नहीं, यह कैसे जाँचे?

पहले PDFEquips के OCR टूल का उपयोग करके अलग से OCR रन करें। यह एक सर्च करने योग्य PDF तैयार करेगा जहाँ से आप टेक्स्ट कॉपी करके पढ़ सकते हैं। यदि कोई नाम, तारीख या महत्वपूर्ण वाक्यांश गलत आता है, तो फाइल को अनुवाद में भेजने से पहले सोर्स में ही उसे ठीक करें — क्योंकि OCR चरण की गलतियां अनुवाद की गलतियों के साथ मिलकर और जटिल हो जाती हैं और शुरुआत में इन्हें पकड़ना बहुत आसान होता है।

मैं एक स्कैन की गई अरबी PDF से अनुवाद कर रहा हूँ — क्या यह काम करेगा?

अरबी भाषा में अनुवाद करना सही ढंग से काम करता है। हालांकि, स्कैन की गई अरबी (या हिब्रू, फारसी) PDF से अनुवाद करने के मामले में वर्तमान में एक सीमा है: PDF टेक्स्ट-निष्कर्षण लेयर लॉजिकल रीडिंग ऑर्डर के बजाय विजुअल ऑर्डर में दाएं-से-बाएं टेक्स्ट दे सकती है, जिससे शब्द उल्टे हो सकते हैं। RTL Word और PowerPoint फाइलें ठीक रहती हैं; विशेष रूप से RTL PDF सोर्स इससे प्रभावित होते हैं और यह एक जानी-मानी सीमा है जिस पर काम चल रहा है।

क्या अनुवादित स्कैन की गई PDF संपादन योग्य (Editable) है?

आउटपुट इनपुट फॉर्मेट की एक कॉपी होता है, इसलिए स्कैन की गई PDF इनपुट देने पर आपको एक अनुवादित PDF ही मिलेगी। यदि आप अंत में एक एडिटेबल फाइल चाहते हैं, तो पहले PDFEquips के PDF-to-Word कनवर्टर का उपयोग करके मूल स्कैन की गई PDF को Word में बदलें (यह रूपांतरण के हिस्से के रूप में ही OCR चलाता है), फिर .docx फाइल का अनुवाद करें — आपको PDF के बजाय एक संपादन योग्य Word दस्तावेज़ वापस मिलेगा।

स्कैन की गई PDF का सामान्य रूप से अनुवाद क्यों नहीं होता

आपको वास्तव में क्या चाहिए: OCR + अनुवाद

चरण-दर-चरण: स्कैन की गई PDF का अनुवाद कैसे करें

DocTranslating खोलें और अपनी स्कैन की गई PDF अपलोड करें

अपनी सोर्स (स्रोत) और टारगेट (लक्ष्य) भाषाएं सेट करें

Gemini इंजन चुनें

अनुवाद करें, फिर परिणाम की सावधानीपूर्वक समीक्षा करें

स्कैन की गई PDF के लिए कौन सा अनुवाद इंजन सबसे अच्छा है?

अनुवाद करने से पहले OCR की गुणवत्ता में सुधार करना

विशेष परिस्थितियां और वर्तमान सीमाएं

हाथ से लिखे दस्तावेज़ (Handwritten Documents)

बड़े या लंबे स्कैन

दाएं-से-बाएं लिखी जाने वाली भाषाओं (RTL) की स्कैन की गई PDF

अक्सर पूछे जाने वाले प्रश्न

संबंधित गाइड

बिना फॉर्मेटिंग और लेआउट खोए किसी डॉक्यूमेंट का अनुवाद कैसे करें