पीडीएफ फाइल में टेक्स्ट पेज खोजें और प्राप्त करें
परिचय
क्या आपको कभी किसी PDF दस्तावेज़ में किसी खास टेक्स्ट को खोजने और आगे के उपयोग के लिए उसे निकालने की ज़रूरत महसूस हुई है? हो सकता है कि आप कोई ऐसा ऐप बना रहे हों जो दस्तावेज़ों को प्रोसेस करता हो और जिसके लिए सटीक डेटा एक्सट्रैक्शन की ज़रूरत हो, या शायद आपको सिर्फ़ PDF को कुशलता से पार्स करने की ज़रूरत हो। आपका मामला चाहे जो भी हो, आप सही जगह पर हैं! इस ट्यूटोरियल में, हम .NET के लिए Aspose.PDF का उपयोग करके PDF फ़ाइल में किसी पेज से टेक्स्ट को खोजने और प्राप्त करने के तरीके के बारे में जानेंगे। चाहे आप शुरुआती हों या अनुभवी डेवलपर, यह गाइड आपको बातचीत और आकर्षक तरीके से प्रत्येक चरण से गुज़ारेगा। तैयार हो? चलिए शुरू करते हैं!
आवश्यक शर्तें
इससे पहले कि हम कोडिंग शुरू करें, आइए सुनिश्चित करें कि आपके पास वह सब कुछ है जो आपको चाहिए:
- .NET लाइब्रेरी के लिए Aspose.PDF: आप इसे यहाँ से डाउनलोड कर सकते हैंयहाँ या उसी लिंक से निःशुल्क परीक्षण संस्करण प्राप्त करें। खरीदने के लिए, यहाँ जाएँएस्पोज स्टोर.
- .NET फ्रेमवर्क: आपको विजुअल स्टूडियो जैसे कार्यशील .NET विकास वातावरण की आवश्यकता होगी।
- एक पीडीएफ फाइल: आपको एक सैंपल पीडीएफ फाइल की जरूरत होगी, जहां हम टेक्स्ट को खोज और निकाल सकें। इस ट्यूटोरियल के लिए, मान लें कि फाइल का नाम है
SearchAndGetTextPage.pdf
.
पैकेज आयात करें
सबसे पहले, हमें .NET के लिए Aspose.PDF के साथ काम करने के लिए आवश्यक नेमस्पेस को आयात करना होगा। सुनिश्चित करें कि ये आपके कोड के शीर्ष पर शामिल हैं।
using System.IO;
using Aspose.Pdf;
using Aspose.Pdf.Text;
using System
अब जबकि हमने पूर्वापेक्षाएँ कवर कर ली हैं, तो चलिए कोड को चरण दर चरण तोड़ते हैं। प्रत्येक चरण को स्पष्ट रूप से रेखांकित किया गया है ताकि उसका पालन करना आसान हो।
चरण 1: अपने दस्तावेज़ निर्देशिका का पथ सेट करें
अपने PDF के साथ इंटरैक्ट करने से पहले, आपको अपने PDF दस्तावेज़ को संग्रहीत करने के लिए पथ को परिभाषित करना होगा। यह सुनिश्चित करता है कि प्रोग्राम फ़ाइल तक पहुँच सकता है।
string dataDir = "YOUR DOCUMENT DIRECTORY";
- dataDir: यह उस फ़ोल्डर का पथ है जहाँ आपकी PDF फ़ाइलें संग्रहीत हैं। बदलें
"YOUR DOCUMENT DIRECTORY"
वास्तविक पथ के साथ जहां पीडीएफ स्थित है।
चरण 2: पीडीएफ दस्तावेज़ लोड करें
अगला चरण पीडीएफ दस्तावेज़ को मेमोरी में लोड करना है ताकि आप इसके साथ काम कर सकें। यहाँ बताया गया है कि कैसे:
Document pdfDocument = new Document(dataDir + "SearchAndGetTextPage.pdf");
- दस्तावेज़: यह Aspose.PDF वर्ग है जो PDF फ़ाइल को लोड करता है।
- pdfDocument: वह वेरिएबल जहां आपकी PDF फ़ाइल लोड होने के बाद संग्रहीत की जाती है।
चरण 3: टेक्स्ट एब्जॉर्बर ऑब्जेक्ट बनाएँ
TextFragmentAbsorber
क्लास आपको पीडीएफ के भीतर विशिष्ट पाठ खोजने की अनुमति देता है। आइए किसी दिए गए खोज वाक्यांश के सभी उदाहरणों को खोजने के लिए इस क्लास का एक उदाहरण बनाएं।
TextFragmentAbsorber textFragmentAbsorber = new TextFragmentAbsorber("Figure");
- TextFragmentAbsorber: यह वर्ग पीडीएफ से पाठ ढूंढने और निकालने के लिए जिम्मेदार है।
- “चित्र”: इसे किसी भी पाठ से बदलें जिसे आप पीडीएफ में खोजना चाहते हैं।
चरण 4: संपूर्ण PDF पर टेक्स्ट एब्जॉर्बर लागू करें
एक बार टेक्स्ट अवशोषक स्थापित हो जाने के बाद, आपको प्रोग्राम को पीडीएफ के सभी पृष्ठों में खोज करने के लिए कहना होगा।
pdfDocument.Pages.Accept(textFragmentAbsorber);
- Accept(): यह विधि पीडीएफ पर टेक्स्ट अवशोषक को लागू करती है, तथा आपके द्वारा निर्दिष्ट टेक्स्ट के लिए प्रत्येक पृष्ठ को स्कैन करती है।
चरण 5: निकाले गए पाठ को पुनः प्राप्त करें और उसमें पुनरावृत्ति करें
अब जबकि हमने पीडीएफ को स्कैन कर लिया है, अब परिणाम प्राप्त करने और उन्हें प्रदर्शित करने का समय आ गया है। हम निकाले गए टेक्स्ट अंशों के माध्यम से लूप करेंगे।
TextFragmentCollection textFragmentCollection = textFragmentAbsorber.TextFragments;
- टेक्स्टफ़्रेगमेंटसंग्रह: यह संग्रह पाठ अवशोषक द्वारा पाए गए पाठ खंडों के सभी उदाहरणों को रखता है।
चरण 6: प्रत्येक खंड को लूप करें और डेटा निकालें
अब हम लूप से गुजरेंगेtextFragmentCollection
और प्रत्येक पाठ खंड के विभिन्न गुण, जैसे उसकी स्थिति, फ़ॉन्ट विवरण और रंग, निकालें।
foreach (TextFragment textFragment in textFragmentCollection)
{
foreach (TextSegment textSegment in textFragment.Segments)
{
Console.WriteLine("Text : {0} ", textSegment.Text);
Console.WriteLine("Position : {0} ", textSegment.Position);
Console.WriteLine("XIndent : {0} ", textSegment.Position.XIndent);
Console.WriteLine("YIndent : {0} ", textSegment.Position.YIndent);
Console.WriteLine("Font - Name : {0}", textSegment.TextState.Font.FontName);
Console.WriteLine("Font - IsAccessible : {0} ", textSegment.TextState.Font.IsAccessible);
Console.WriteLine("Font - IsEmbedded : {0} ", textSegment.TextState.Font.IsEmbedded);
Console.WriteLine("Font - IsSubset : {0} ", textSegment.TextState.Font.IsSubset);
Console.WriteLine("Font Size : {0} ", textSegment.TextState.FontSize);
Console.WriteLine("Foreground Color : {0} ", textSegment.TextState.ForegroundColor);
}
}
- टेक्स्ट फ़्रैगमेंट: प्रत्येक फ़्रैगमेंट में पाए गए टेक्स्ट के अंश होते हैं।
- पाठखंड: प्रत्येक खंड में कई खंड हो सकते हैं, जो पाठ के विभिन्न भागों का प्रतिनिधित्व करते हैं।
- टेक्स्टस्टेट: यह पाठ के फ़ॉन्ट, आकार और रंग के बारे में विस्तृत जानकारी प्रदान करता है।
इस लूप में, हम वास्तविक पाठ, उसकी स्थिति (X और Y निर्देशांक), फ़ॉन्ट, फ़ॉन्ट PDF में सन्निहित है या नहीं, तथा पाठ के अग्रभूमि रंग जैसे विवरण प्रिंट कर रहे हैं।
निष्कर्ष
और अब आपका काम हो गया! अब आपने .NET के लिए Aspose.PDF का उपयोग करके PDF फ़ाइल से सफलतापूर्वक टेक्स्ट खोज लिया है और निकाल लिया है। यह अविश्वसनीय है कि इस लाइब्रेरी के साथ आपके पास कितना लचीलापन है। चाहे आपको किसी बड़े दस्तावेज़ में विशिष्ट टेक्स्ट खोजना हो, उसे निकालना हो या उसके गुणों का विश्लेषण करना हो, Aspose.PDF इसे आसान बनाता है। साथ ही, हमारे द्वारा कवर किए गए कोड के साथ, आप इसे अपनी आवश्यकताओं के अनुसार अनुकूलित करने के लिए अच्छी तरह से सुसज्जित हैं।
अक्सर पूछे जाने वाले प्रश्न
क्या मैं एक साथ कई वाक्यांशों की खोज कर सकता हूँ?
हां, आप कई वाक्यांशों की खोज करने के लिए कई कोड बनाकर कोड को संशोधित कर सकते हैंTextFragmentAbsorber
वस्तुएं.
मैं किसी विशिष्ट पृष्ठ से पाठ कैसे निकाल सकता हूँ?
आप किसी विशिष्ट पृष्ठ को लक्षित करने के लिए निम्न विकल्प लागू कर सकते हैं:TextFragmentAbsorber
पूरे दस्तावेज़ के बजाय एक ही पृष्ठ पर। उदाहरण के लिए:pdfDocument.Pages[1].Accept(textFragmentAbsorber);
.
क्या .NET के लिए Aspose.PDF निःशुल्क है?
Aspose.PDF एक वाणिज्यिक उत्पाद है, लेकिन आप इसे एक के साथ उपयोग कर सकते हैंमुफ्त परीक्षण.
क्या मैं Aspose.PDF का उपयोग करके PDF से छवियाँ निकाल सकता हूँ?
हां, Aspose.PDF आपको टेक्स्ट के अलावा इमेज भी निकालने की सुविधा देता है।प्रलेखन अधिक जानकारी के लिए.
यदि मुझे अधिक सहायता या समर्थन की आवश्यकता हो तो क्या होगा?
आप हमेशा से सहायता प्राप्त कर सकते हैंAspose समर्थन मंच.