Metin Aygıtını Kullanarak Metni Çıkarma
Bu eğitim, Aspose.PDF for .NET’teki Metin Aygıtını kullanarak bir PDF belgesinden metin çıkarma sürecinde size rehberlik edecektir. Sağlanan C# kaynak kodu gerekli adımları gösterir.
Gereksinimler
Başlamadan önce aşağıdakilere sahip olduğunuzdan emin olun:
- Makinenizde kurulu Visual Studio veya başka herhangi bir C# derleyicisi.
- Aspose.PDF for .NET kitaplığı. Resmi Aspose web sitesinden indirebilir veya yüklemek için NuGet gibi bir paket yöneticisi kullanabilirsiniz.
1. Adım: Projeyi ayarlayın
- Tercih ettiğiniz geliştirme ortamında yeni bir C# projesi oluşturun.
- Aspose.PDF for .NET kitaplığına bir referans ekleyin.
2. Adım: Gerekli ad alanlarını içe aktarın
Metni çıkarmak istediğiniz kod dosyasında, dosyanın en üstüne aşağıdaki kullanma yönergelerini ekleyin:
using Aspose.Pdf;
using Aspose.Pdf.Devices;
using System.IO;
using System.Text;
3. Adım: Belge dizinini ayarlayın
Kodda yazan satırı bulunstring dataDir = "YOUR DOCUMENT DIRECTORY";
ve değiştir"YOUR DOCUMENT DIRECTORY"
belgelerinizin saklandığı dizinin yolu ile birlikte.
4. Adım: PDF belgesini açın
Mevcut bir PDF belgesini kullanarak açın.Document
yapıcı ve yolu giriş PDF dosyasına geçirme.
Document pdfDocument = new Document(dataDir + "input.pdf");
Adım 5: Metin Aygıtını kullanarak metni çıkarın
OluşturmakStringBuilder
Çıkarılan metni tutacak nesne. Belgenin her sayfasını yineleyin ve birTextDevice
Metni her sayfadan çıkarmak için.
StringBuilder builder = new StringBuilder();
string extractedText = "";
foreach(Page pdfPage in pdfDocument.Pages)
{
using (MemoryStream textStream = new MemoryStream())
{
TextDevice textDevice = new TextDevice();
TextExtractionOptions textExtOptions = new TextExtractionOptions(TextExtractionOptions.TextFormattingMode.Pure);
textDevice.ExtractionOptions = textExtOptions;
textDevice.Process(pdfPage, textStream);
textStream. Close();
extractedText = Encoding.Unicode.GetString(textStream.ToArray());
}
builder. Append(extractedText);
}
6. Adım: Çıkarılan metni kaydedin
Çıktı dosyası yolunu belirtin ve çıkartılan metni kullanarak bir metin dosyasına kaydedin.File.WriteAllText
yöntem.
dataDir = dataDir + "input_Text_Extracted_out.txt";
File.WriteAllText(dataDir, builder.ToString());
Aspose.PDF for .NET kullanarak Metin Aygıtını Kullanarak Metin Çıkarma için örnek kaynak kodu
// Belgeler dizininin yolu.
string dataDir = "YOUR DOCUMENT DIRECTORY";
// Belgeyi aç
Document pdfDocument = new Document( dataDir + "input.pdf");
System.Text.StringBuilder builder = new System.Text.StringBuilder();
//Çıkarılan metni tutacak dize
string extractedText = "";
foreach (Page pdfPage in pdfDocument.Pages)
{
using (MemoryStream textStream = new MemoryStream())
{
// Metin cihazı oluştur
TextDevice textDevice = new TextDevice();
// Metin çıkarma seçeneklerini ayarlayın - metin çıkarma modunu ayarlayın (Ham veya Saf)
TextExtractionOptions textExtOptions = new
TextExtractionOptions(TextExtractionOptions.TextFormattingMode.Pure);
textDevice.ExtractionOptions = textExtOptions;
// Belirli bir sayfayı dönüştürün ve metni akışa kaydedin
textDevice.Process(pdfPage, textStream);
// Belirli bir sayfayı dönüştürün ve metni akışa kaydedin
textDevice.Process(pdfDocument.Pages[1], textStream);
// Bellek akışını kapat
textStream.Close();
// Bellek akışından metin alın
extractedText = Encoding.Unicode.GetString(textStream.ToArray());
}
builder.Append(extractedText);
}
dataDir = dataDir + "input_Text_Extracted_out.txt";
// Çıkarılan metni metin dosyasına kaydedin
File.WriteAllText(dataDir, builder.ToString());
Console.WriteLine("\nText extracted successfully using text device from page of PDF Document.\nFile saved at " + dataDir);
Çözüm
Aspose.PDF for .NET’teki Metin Aygıtını kullanarak bir PDF belgesinden metni başarıyla çıkardınız. Çıkarılan metin belirtilen çıktı dosyasına kaydedildi.
SSS’ler
S: Bu eğitimin amacı nedir?
C: Bu eğitim, Aspose.PDF for .NET’teki Metin Aygıtı özelliğini kullanarak bir PDF belgesinden metin çıkarma konusunda rehberlik sağlar. Ekteki C# kaynak kodu, bu görevi gerçekleştirmek için gerekli adımları gösterir.
S: Hangi ad alanlarını içe aktarmalıyım?
C: Metni çıkarmayı planladığınız kod dosyasında, dosyanın başına aşağıdaki kullanma yönergelerini ekleyin:
using Aspose.Pdf;
using Aspose.Pdf.Devices;
using System.IO;
using System.Text;
S: Belge dizinini nasıl belirlerim?
C: Kodda şunu yazan satırı bulun:string dataDir = "YOUR DOCUMENT DIRECTORY";
ve değiştir"YOUR DOCUMENT DIRECTORY"
belge dizininizin gerçek yolu ile.
S: Mevcut bir PDF belgesini nasıl açarım?
C: 4. Adımda, mevcut bir PDF belgesini aşağıdaki komutu kullanarak açacaksınız:Document
yapıcı ve giriş PDF dosyasının yolunu sağlama.
S: Metin Aygıtını kullanarak nasıl metin ayıklayabilirim?
C: Adım 5, birStringBuilder
Çıkarılan metni tutacak nesne. Daha sonra belgenin her sayfasını yineleyecek ve birTextDevice
ile birlikteTextExtractionOptions
Her sayfadan metin çıkarmak için.
S: Çıkarılan metni bir dosyaya nasıl kaydederim?
C: 6. Adımda çıktı dosyasının yolunu belirleyecek veFile.WriteAllText
Çıkarılan metni bir metin dosyasına kaydetme yöntemi.
S: Bu eğitimden çıkarılacak önemli sonuç nedir?
C: Bu eğitimi takip ederek Aspose.PDF for .NET’teki Metin Aygıtı özelliğinden yararlanarak bir PDF belgesinden metin çıkarmayı öğrendiniz. Çıkarılan metin, belirtilen çıktı dosyasına kaydedilerek, çıkarılan içeriği gerektiği gibi değiştirmenize ve kullanmanıza olanak tanır.