पीडीएफ फाइल में टेक्स्ट पेज निकालें

यह ट्यूटोरियल .NET के लिए Aspose.PDF का उपयोग करके पीडीएफ फ़ाइल में एक विशिष्ट पृष्ठ से टेक्स्ट निकालने की प्रक्रिया में आपका मार्गदर्शन करेगा। प्रदान किया गया C# स्रोत कोड आवश्यक चरणों को दर्शाता है।

आवश्यकताएं

शुरू करने से पहले, सुनिश्चित करें कि आपके पास निम्नलिखित हैं:

  • विजुअल स्टूडियो या आपकी मशीन पर कोई अन्य C# कंपाइलर स्थापित।
  • .NET लाइब्रेरी के लिए Aspose.PDF। आप इसे आधिकारिक Aspose वेबसाइट से डाउनलोड कर सकते हैं या इसे इंस्टॉल करने के लिए NuGet जैसे पैकेज मैनेजर का उपयोग कर सकते हैं।

चरण 1: प्रोजेक्ट सेट करें

  1. अपने पसंदीदा विकास परिवेश में एक नया C# प्रोजेक्ट बनाएं।
  2. .NET लाइब्रेरी के लिए Aspose.PDF का संदर्भ जोड़ें।

चरण 2: आवश्यक नामस्थान आयात करें

कोड फ़ाइल में जहां आप टेक्स्ट निकालना चाहते हैं, फ़ाइल के शीर्ष पर निर्देशों का उपयोग करके निम्नलिखित जोड़ें:

using Aspose.Pdf;
using System.IO;

चरण 3: दस्तावेज़ निर्देशिका सेट करें

कोड में, उस पंक्ति का पता लगाएं जो कहती हैstring dataDir = "YOUR DOCUMENT DIRECTORY"; और बदलें"YOUR DOCUMENT DIRECTORY" उस निर्देशिका के पथ के साथ जहां आपके दस्तावेज़ संग्रहीत हैं।

चरण 4: पीडीएफ दस्तावेज़ खोलें

का उपयोग करके मौजूदा पीडीएफ दस्तावेज़ खोलेंDocumentकंस्ट्रक्टर और इनपुट पीडीएफ फाइल के लिए पथ पास करना।

Document pdfDocument = new Document(dataDir + "ExtractTextPage.pdf");

चरण 5: किसी विशिष्ट पृष्ठ से पाठ निकालें

एक बनाने केTextAbsorber दस्तावेज़ से पाठ निकालने के लिए ऑब्जेक्ट। वांछित पृष्ठ के लिए अवशोषक को इसके माध्यम से एक्सेस करके स्वीकार करेंPages का संग्रहpdfDocument.

TextAbsorber textAbsorber = new TextAbsorber();
pdfDocument.Pages[1].Accept(textAbsorber);

चरण 6: निकाला गया टेक्स्ट प्राप्त करें

से निकाले गए टेक्स्ट तक पहुंचेंTextAbsorber वस्तु।

string extractedText = textAbsorber.Text;

चरण 7: निकाले गए टेक्स्ट को सहेजें

एक बनाने केTextWriter और वह फ़ाइल खोलें जहाँ आप निकाले गए टेक्स्ट को सहेजना चाहते हैं। निकाले गए टेक्स्ट को फ़ाइल में लिखें और स्ट्रीम बंद करें।

dataDir = dataDir + "extracted-text_out.txt";
TextWriter tw = new StreamWriter(dataDir);
tw.WriteLine(extractedText);
tw. Close();

.NET के लिए Aspose.PDF का उपयोग करके टेक्स्ट पेज निकालने के लिए नमूना स्रोत कोड

// दस्तावेज़ निर्देशिका का पथ.
string dataDir = "YOUR DOCUMENT DIRECTORY";
// दस्तावेज़ खोलें
Document pdfDocument = new Document(dataDir + "ExtractTextPage.pdf");
// टेक्स्ट निकालने के लिए टेक्स्टएब्जॉर्बर ऑब्जेक्ट बनाएं
TextAbsorber textAbsorber = new TextAbsorber();
//किसी विशेष पृष्ठ के लिए अवशोषक स्वीकार करें
pdfDocument.Pages[1].Accept(textAbsorber);
// निकाला गया पाठ प्राप्त करें
string extractedText = textAbsorber.Text;
dataDir = dataDir + "extracted-text_out.txt";
// एक लेखक बनाएं और फ़ाइल खोलें
TextWriter tw = new StreamWriter(dataDir);
// फ़ाइल में पाठ की एक पंक्ति लिखें
tw.WriteLine(extractedText);
// स्ट्रीम बंद करें
tw.Close();
Console.WriteLine("\nText extracted successfully from Pages of PDF Document.\nFile saved at " + dataDir);

निष्कर्ष

आपने .NET के लिए Aspose.PDF का उपयोग करके PDF दस्तावेज़ के एक विशिष्ट पृष्ठ से पाठ को सफलतापूर्वक निकाला है। निकाले गए पाठ को निर्दिष्ट आउटपुट फ़ाइल में सहेजा गया है।

अक्सर पूछे जाने वाले प्रश्न

प्रश्न: इस ट्यूटोरियल का उद्देश्य क्या है?

उ: यह ट्यूटोरियल .NET के लिए Aspose.PDF का उपयोग करके एक पीडीएफ फ़ाइल में एक विशिष्ट पृष्ठ से पाठ निकालने की प्रक्रिया में आपका मार्गदर्शन करता है। संलग्न C# स्रोत कोड इस कार्य को प्राप्त करने के लिए आवश्यक चरणों को दर्शाता है।

प्रश्न: मुझे कौन से नामस्थान आयात करने चाहिए?

ए: कोड फ़ाइल में जहां आप टेक्स्ट निकालने की योजना बना रहे हैं, फ़ाइल की शुरुआत में निर्देशों का उपयोग करके निम्नलिखित शामिल करें:

using Aspose.Pdf;
using System.IO;

प्रश्न: मैं दस्तावेज़ निर्देशिका कैसे निर्दिष्ट करूं?

उ: कोड में, वह पंक्ति ढूंढें जो कहती हैstring dataDir = "YOUR DOCUMENT DIRECTORY"; और बदलें"YOUR DOCUMENT DIRECTORY" आपकी दस्तावेज़ निर्देशिका के वास्तविक पथ के साथ।

प्रश्न: मैं मौजूदा पीडीएफ दस्तावेज़ कैसे खोलूं?

उ: चरण 4 में, आप इसका उपयोग करके एक मौजूदा पीडीएफ दस्तावेज़ खोलेंगेDocument कंस्ट्रक्टर और इनपुट पीडीएफ फाइल के लिए पथ प्रदान करना।

प्रश्न: मैं किसी विशिष्ट पृष्ठ से टेक्स्ट कैसे निकालूं?

ए: चरण 5 में ए बनाना शामिल हैTextAbsorber पीडीएफ दस्तावेज़ से पाठ निकालने के लिए ऑब्जेक्ट। फिर आप वांछित पृष्ठ के लिए अवशोषक को इसके माध्यम से एक्सेस करके स्वीकार करेंगेPages का संग्रहpdfDocument.

प्रश्न: मैं निकाले गए पाठ तक कैसे पहुँच सकता हूँ?

उ: चरण 6 आपको निकाले गए पाठ तक पहुँचने में मार्गदर्शन करता हैTextAbsorber वस्तु।

प्रश्न: मैं निकाले गए टेक्स्ट को फ़ाइल में कैसे सहेजूँ?

उ: चरण 7 में, आप एक बनाएंगेTextWriter, वह फ़ाइल खोलें जहाँ आप निकाले गए टेक्स्ट को सहेजना चाहते हैं, निकाले गए टेक्स्ट को फ़ाइल में लिखें, और फिर स्ट्रीम को बंद करें।

प्रश्न: इस ट्यूटोरियल से मुख्य निष्कर्ष क्या है?

उ: इस ट्यूटोरियल का अनुसरण करके, आपने सीखा है कि .NET के लिए Aspose.PDF का उपयोग करके पीडीएफ दस्तावेज़ के एक विशिष्ट पृष्ठ से टेक्स्ट कैसे निकाला जाता है। निकाले गए पाठ को एक निर्दिष्ट आउटपुट फ़ाइल में सहेजा गया है, जो आपको विशिष्ट पृष्ठों से पाठ सामग्री को लक्षित और विश्लेषण करने में सक्षम बनाता है।