डॉट नेट रेगेक्स के साथ टेक्स्ट खोजें

यह ट्यूटोरियल बताता है कि PDF दस्तावेज़ में .NET रेगुलर एक्सप्रेशन का उपयोग करके टेक्स्ट खोजने के लिए .NET के लिए Aspose.PDF का उपयोग कैसे करें। प्रदान किया गया C# स्रोत कोड चरण दर चरण प्रक्रिया को प्रदर्शित करता है।

आवश्यक शर्तें

ट्यूटोरियल के साथ आगे बढ़ने से पहले, सुनिश्चित करें कि आपके पास निम्नलिखित हैं:

  • C# प्रोग्रामिंग भाषा का बुनियादी ज्ञान।
  • .NET लाइब्रेरी के लिए Aspose.PDF स्थापित। आप इसे Aspose वेबसाइट से प्राप्त कर सकते हैं या इसे अपने प्रोजेक्ट में इंस्टॉल करने के लिए NuGet का उपयोग कर सकते हैं।

चरण 1: प्रोजेक्ट सेट करें

अपने पसंदीदा एकीकृत विकास परिवेश (आईडीई) में एक नया सी# प्रोजेक्ट बनाकर शुरुआत करें और .NET लाइब्रेरी के लिए Aspose.PDF का एक संदर्भ जोड़ें।

चरण 2: आवश्यक नामस्थान आयात करें

आवश्यक नामस्थान आयात करने के लिए अपनी C# फ़ाइल की शुरुआत में निम्नलिखित निर्देशों का उपयोग करके जोड़ें:

using Aspose.Pdf;
using Aspose.Pdf.Text;

चरण 3: दस्तावेज़ निर्देशिका के लिए पथ सेट करें

का उपयोग करके अपनी दस्तावेज़ निर्देशिका के लिए पथ सेट करेंdataDir चर:

string dataDir = "YOUR DOCUMENT DIRECTORY";

प्रतिस्थापित करें"YOUR DOCUMENT DIRECTORY" आपकी दस्तावेज़ निर्देशिका के वास्तविक पथ के साथ।

चरण 4: एक .NET रेगेक्स ऑब्जेक्ट बनाएं

एक बनाने के.NET Regex खोज पैटर्न को परिभाषित करने के लिए ऑब्जेक्ट:

System.Text.RegularExpressions.Regex regex = new System.Text.RegularExpressions.Regex(@"[\S]+");

प्रतिस्थापित करें@"[\S]+" अपने वांछित नियमित अभिव्यक्ति पैटर्न के साथ।

चरण 5: पीडीएफ दस्तावेज़ लोड करें

का उपयोग करके पीडीएफ दस्तावेज़ लोड करेंDocument कक्षा:

Aspose.Pdf.Document document = new Aspose.Pdf.Document(dataDir + "SearchTextRegex.pdf");

प्रतिस्थापित करें"SearchTextRegex.pdf" आपकी पीडीएफ फाइल के वास्तविक नाम के साथ।

चरण 6: एक विशिष्ट पृष्ठ प्राप्त करें

दस्तावेज़ का वांछित पृष्ठ प्राप्त करें:

Page page = document.Pages[1];

प्रतिस्थापित करें1 वांछित पृष्ठ संख्या (1-आधारित सूचकांक) के साथ।

चरण 7: एक टेक्स्टफ्रैगमेंटएब्जॉर्बर बनाएं

एक बनाने केTextFragmentAbsorber इनपुट रेगुलर एक्सप्रेशन के सभी उदाहरण खोजने के लिए ऑब्जेक्ट:

TextFragmentAbsorber textFragmentAbsorber = new TextFragmentAbsorber(regex);
textFragmentAbsorber.TextSearchOptions.IsRegularExpressionUsed = true;

चरण 8: पृष्ठ के लिए अवशोषक स्वीकार करें

पृष्ठ के लिए अवशोषक स्वीकार करें:

page.Accept(textFragmentAbsorber);

चरण 9: निकाले गए पाठ अंशों को पुनः प्राप्त करें

का उपयोग करके निकाले गए पाठ अंश प्राप्त करेंTextFragments की संपत्तिTextFragmentAbsorber वस्तु:

TextFragmentCollection textFragmentCollection = textFragmentAbsorber.TextFragments;

चरण 10: पाठ के टुकड़ों को लूप करें

पुनर्प्राप्त पाठ अंशों के माध्यम से लूप करें और वांछित क्रियाएं करें:

foreach (TextFragment textFragment in textFragmentCollection)
{
	Console.WriteLine(textFragment.Text);
}

यदि आवश्यक हो तो प्रत्येक पाठ खंड पर आगे की कार्रवाई करने के लिए लूप के भीतर कोड को संशोधित करें।

.NET के लिए Aspose.PDF का उपयोग करके डॉट नेट रेगेक्स के साथ टेक्स्ट खोजने के लिए नमूना स्रोत कोड

string dataDir = "YOUR DOCUMENT DIRECTORY";
// सभी शब्द ढूंढने के लिए रेगेक्स ऑब्जेक्ट बनाएं
System.Text.RegularExpressions.Regex regex = new System.Text.RegularExpressions.Regex(@"[\S]+");
// दस्तावेज़ खोलें
Aspose.Pdf.Document document = new Aspose.Pdf.Document(dataDir + "SearchTextRegex.pdf");
// एक विशेष पृष्ठ प्राप्त करें
Page page = document.Pages[1];
// इनपुट रेगेक्स के सभी उदाहरण खोजने के लिए टेक्स्टएब्जॉर्बर ऑब्जेक्ट बनाएं
TextFragmentAbsorber textFragmentAbsorber = new TextFragmentAbsorber(regex);
textFragmentAbsorber.TextSearchOptions.IsRegularExpressionUsed = true;
// पृष्ठ के लिए अवशोषक स्वीकार करें
page.Accept(textFragmentAbsorber);
// निकाले गए पाठ अंश प्राप्त करें
TextFragmentCollection textFragmentCollection = textFragmentAbsorber.TextFragments;
// टुकड़ों के माध्यम से लूप करें
foreach (TextFragment textFragment in textFragmentCollection)
{
	Console.WriteLine(textFragment.Text);
}

निष्कर्ष

बधाई हो! आपने .NET के लिए Aspose.PDF का उपयोग करके PDF दस्तावेज़ में .NET रेगुलर एक्सप्रेशन का उपयोग करके टेक्स्ट को खोजना सफलतापूर्वक सीख लिया है। इस ट्यूटोरियल ने प्रोजेक्ट स्थापित करने से लेकर निकाले गए पाठ अंशों तक पहुंचने तक चरण-दर-चरण मार्गदर्शिका प्रदान की। अब आप पीडीएफ फाइलों में उन्नत टेक्स्ट खोज करने के लिए इस कोड को अपने सी# प्रोजेक्ट में शामिल कर सकते हैं।

अक्सर पूछे जाने वाले प्रश्न

प्रश्न: “सर्च टेक्स्ट विद डॉट नेट रेगेक्स” ट्यूटोरियल का उद्देश्य क्या है?

उत्तर: “सर्च टेक्स्ट विद डॉट नेट रेगेक्स” ट्यूटोरियल का उद्देश्य उपयोगकर्ताओं को .NET के लिए Aspose.PDF लाइब्रेरी का उपयोग करके .NET रेगुलर एक्सप्रेशन का उपयोग करके एक पीडीएफ दस्तावेज़ के भीतर टेक्स्ट की खोज करने के लिए मार्गदर्शन करना है। ट्यूटोरियल प्रक्रिया को प्रदर्शित करने के लिए चरण-दर-चरण निर्देश और C# कोड नमूने प्रदान करता है।

प्रश्न: यह ट्यूटोरियल पीडीएफ में .NET रेगुलर एक्सप्रेशन का उपयोग करके टेक्स्ट खोजने में कैसे मदद करता है?

उ: यह ट्यूटोरियल उपयोगकर्ताओं को यह समझने में मदद करता है कि पीडीएफ दस्तावेज़ के भीतर .NET रेगुलर एक्सप्रेशन का उपयोग करके टेक्स्ट की खोज करने के लिए .NET के लिए Aspose.PDF की क्षमताओं का लाभ कैसे उठाया जाए। दिए गए चरणों और कोड उदाहरणों का पालन करके, उपयोगकर्ता प्रभावी ढंग से उन टेक्स्ट पैटर्न की खोज कर सकते हैं जो उनके निर्दिष्ट नियमित अभिव्यक्तियों से मेल खाते हैं।

प्रश्न: इस ट्यूटोरियल का पालन करने के लिए किन पूर्वावश्यकताओं की आवश्यकता है?

उत्तर: ट्यूटोरियल शुरू करने से पहले, आपको C# प्रोग्रामिंग भाषा की बुनियादी समझ होनी चाहिए। इसके अतिरिक्त, आपको .NET लाइब्रेरी के लिए Aspose.PDF स्थापित करना होगा। आप इसे Aspose वेबसाइट से प्राप्त कर सकते हैं या NuGet का उपयोग करके इसे अपने प्रोजेक्ट में इंस्टॉल कर सकते हैं।

प्रश्न: मैं इस ट्यूटोरियल का अनुसरण करने के लिए अपना प्रोजेक्ट कैसे सेट करूँ?

उ: आरंभ करने के लिए, अपने पसंदीदा एकीकृत विकास परिवेश (आईडीई) में एक नया सी# प्रोजेक्ट बनाएं और .NET लाइब्रेरी के लिए Aspose.PDF का एक संदर्भ जोड़ें। यह आपको पीडीएफ दस्तावेज़ों को खोजने और उनके साथ काम करने के लिए लाइब्रेरी की सुविधाओं का उपयोग करने में सक्षम करेगा।

प्रश्न: क्या मैं .NET रेगुलर एक्सप्रेशन का उपयोग करके किसी विशिष्ट प्रकार के टेक्स्ट को खोजने के लिए इस ट्यूटोरियल का उपयोग कर सकता हूं?

उ: हां, यह ट्यूटोरियल एक पीडीएफ दस्तावेज़ के भीतर .NET रेगुलर एक्सप्रेशन का उपयोग करके टेक्स्ट की खोज कैसे करें, इस पर निर्देश प्रदान करता है। आप इसे अनुकूलित कर सकते हैं.NET Regex उस विशिष्ट खोज पैटर्न को परिभाषित करने के लिए ऑब्जेक्ट का उपयोग करें जिसका आप उपयोग करना चाहते हैं।

प्रश्न: मैं इस ट्यूटोरियल में खोजने के लिए .NET रेगुलर एक्सप्रेशन पैटर्न कैसे निर्दिष्ट करूं?

उ: आप जिस .NET रेगुलर एक्सप्रेशन पैटर्न को खोजना चाहते हैं उसे निर्दिष्ट करने के लिए, एक बनाएं.NET Regex ऑब्जेक्ट बनाएं और उचित रेगुलर एक्सप्रेशन सिंटैक्स का उपयोग करके उसका पैटर्न सेट करें। डिफ़ॉल्ट बदलें@"[\S]+" अपने इच्छित रेगुलर एक्सप्रेशन के साथ ट्यूटोरियल के कोड में।

प्रश्न: मैं निकाले गए पाठ अंशों के गुणों को कैसे पुनः प्राप्त करूं?

उत्तर: स्वीकार करने के बादTextFragmentAbsorber पीडीएफ के एक विशिष्ट पृष्ठ के लिए, आप इसका उपयोग करके निकाले गए पाठ अंशों को पुनः प्राप्त कर सकते हैंTextFragments अवशोषक वस्तु की संपत्ति. यह निर्दिष्ट .NET नियमित अभिव्यक्ति से मेल खाने वाले पाठ अंशों के संग्रह तक पहुंच प्रदान करता है।

प्रश्न: क्या मैं प्रत्येक निकाले गए पाठ खंड पर अतिरिक्त क्रियाएं करने के लिए कोड को अनुकूलित कर सकता हूं?

ए: निश्चित रूप से. ट्यूटोरियल के नमूना कोड में पुनर्प्राप्त पाठ अंशों के माध्यम से पुनरावृत्त करने के लिए एक लूप शामिल है। आप अपनी प्रोजेक्ट आवश्यकताओं के आधार पर प्रत्येक निकाले गए टेक्स्ट टुकड़े पर अतिरिक्त क्रियाएं करने के लिए इस लूप के भीतर कोड को कस्टमाइज़ कर सकते हैं।

प्रश्न: मैं पाठ के टुकड़े निकालने के बाद संशोधित पीडीएफ दस्तावेज़ को कैसे सहेज सकता हूँ?

उत्तर: यह ट्यूटोरियल मुख्य रूप से .NET रेगुलर एक्सप्रेशन का उपयोग करके टेक्स्ट की खोज करने और टेक्स्ट के टुकड़े पुनर्प्राप्त करने पर केंद्रित है। यदि आप पीडीएफ में संशोधन करने का इरादा रखते हैं, तो आप अपनी विशिष्ट आवश्यकताओं के आधार पर दस्तावेज़ में हेरफेर करने और सहेजने का तरीका जानने के लिए अन्य Aspose.PDF दस्तावेज़ का संदर्भ ले सकते हैं।