Cari dan Dapatkan Halaman Teks Dalam File PDF

Perkenalan

Pernahkah Anda merasa perlu mencari teks tertentu dalam dokumen PDF dan mengekstraknya untuk penggunaan lebih lanjut? Mungkin Anda sedang membangun aplikasi yang memproses dokumen dan memerlukan ekstraksi data yang tepat, atau mungkin Anda hanya perlu mengurai PDF secara efisien. Apa pun kasus Anda, Anda berada di tempat yang tepat! Dalam tutorial ini, kita akan membahas cara mencari dan mendapatkan teks dari halaman dalam file PDF menggunakan Aspose.PDF untuk .NET. Baik Anda seorang pemula atau pengembang berpengalaman, panduan ini akan memandu Anda melalui setiap langkah dengan cara yang komunikatif dan menarik. Siap untuk memulai? Mari kita mulai!

Prasyarat

Sebelum kita mulai coding, mari pastikan Anda memiliki semua yang dibutuhkan:

  1. Aspose.PDF untuk Pustaka .NET: Anda dapat mengunduhnya dariDi Sini atau dapatkan versi uji coba gratis dari tautan yang sama. Untuk pembelian, kunjungiToko Aspose.
  2. .NET Framework: Anda memerlukan lingkungan pengembangan .NET yang berfungsi seperti Visual Studio.
  3. File PDF: Anda memerlukan contoh file PDF tempat kita dapat mencari dan mengekstrak teks. Untuk tutorial ini, mari kita asumsikan file tersebut diberi namaSearchAndGetTextPage.pdf.

Paket Impor

Pertama-tama, kita perlu mengimpor namespace yang diperlukan untuk bekerja dengan Aspose.PDF untuk .NET. Pastikan namespace ini disertakan di bagian atas kode Anda.

using System.IO;
using Aspose.Pdf;
using Aspose.Pdf.Text;
using System

Setelah kita membahas prasyaratnya, mari kita uraikan kodenya langkah demi langkah. Setiap langkah telah dijelaskan dengan jelas agar mudah diikuti.

Langkah 1: Tetapkan Jalur ke Direktori Dokumen Anda

Sebelum berinteraksi dengan PDF Anda, Anda perlu menentukan jalur penyimpanan dokumen PDF Anda. Ini memastikan bahwa program dapat mengakses berkas tersebut.

string dataDir = "YOUR DOCUMENT DIRECTORY";
  • dataDir: Ini adalah jalur ke folder tempat file PDF Anda disimpan. Ganti"YOUR DOCUMENT DIRECTORY" dengan jalur sebenarnya tempat PDF berada.

Langkah 2: Muat Dokumen PDF

Langkah selanjutnya adalah memuat dokumen PDF ke dalam memori sehingga Anda dapat menggunakannya. Berikut caranya:

Document pdfDocument = new Document(dataDir + "SearchAndGetTextPage.pdf");
  • Dokumen: Ini adalah kelas Aspose.PDF yang memuat berkas PDF.
  • pdfDocument: Variabel tempat berkas PDF Anda disimpan setelah dimuat.

Langkah 3: Buat Objek Penyerap Teks

ItuTextFragmentAbsorberKelas ini memungkinkan Anda mencari teks tertentu dalam PDF. Mari buat contoh kelas ini untuk menemukan semua contoh frasa pencarian tertentu.

TextFragmentAbsorber textFragmentAbsorber = new TextFragmentAbsorber("Figure");
  • TextFragmentAbsorber: Kelas ini bertanggung jawab untuk menemukan dan mengekstrak teks dari PDF.
  • “Gambar”: Ganti ini dengan teks apa pun yang ingin Anda cari dalam PDF.

Langkah 4: Terapkan Text Absorber ke Seluruh PDF

Setelah penyerap teks disiapkan, Anda perlu memberi tahu program untuk mencari melalui semua halaman PDF.

pdfDocument.Pages.Accept(textFragmentAbsorber);
  • Accept(): Metode ini menerapkan penyerap teks ke PDF, memindai setiap halaman untuk teks yang Anda tentukan.

Langkah 5: Ambil dan Ulangi Teks yang Diekstrak

Setelah kita memindai PDF, saatnya mengambil hasil dan menampilkannya. Kita akan mengulang fragmen teks yang diekstrak.

TextFragmentCollection textFragmentCollection = textFragmentAbsorber.TextFragments;
  • TextFragmentCollection: Koleksi ini menampung semua contoh fragmen teks yang ditemukan oleh penyerap teks.

Langkah 6: Ulangi Setiap Fragmen dan Ekstrak Data

Sekarang kita akan mengulang melaluitextFragmentCollection dan mengekstrak berbagai properti setiap segmen teks, seperti posisinya, detail font, dan warna.

foreach (TextFragment textFragment in textFragmentCollection)
{
	foreach (TextSegment textSegment in textFragment.Segments)
	{
		Console.WriteLine("Text : {0} ", textSegment.Text);
		Console.WriteLine("Position : {0} ", textSegment.Position);
		Console.WriteLine("XIndent : {0} ", textSegment.Position.XIndent);
		Console.WriteLine("YIndent : {0} ", textSegment.Position.YIndent);
		Console.WriteLine("Font - Name : {0}", textSegment.TextState.Font.FontName);
		Console.WriteLine("Font - IsAccessible : {0} ", textSegment.TextState.Font.IsAccessible);
		Console.WriteLine("Font - IsEmbedded : {0} ", textSegment.TextState.Font.IsEmbedded);
		Console.WriteLine("Font - IsSubset : {0} ", textSegment.TextState.Font.IsSubset);
		Console.WriteLine("Font Size : {0} ", textSegment.TextState.FontSize);
		Console.WriteLine("Foreground Color : {0} ", textSegment.TextState.ForegroundColor);
	}
}
  • TextFragment: Setiap fragmen berisi bagian teks yang ditemukan.
  • TextSegment: Setiap fragmen dapat memiliki beberapa segmen, yang mewakili bagian teks yang berbeda.
  • TextState: Ini menyediakan informasi terperinci tentang font, ukuran, dan warna teks.

Dalam loop ini, kami mencetak detail seperti teks sebenarnya, posisinya (koordinat X dan Y), font, apakah font tertanam dalam PDF, dan warna latar depan teks.

Kesimpulan

Nah, itu dia! Anda sekarang telah berhasil mencari dan mengekstrak teks dari file PDF menggunakan Aspose.PDF untuk .NET. Sungguh luar biasa betapa banyak fleksibilitas yang Anda miliki dengan pustaka ini. Baik Anda perlu mencari teks tertentu dalam dokumen besar, mengekstraknya, atau menganalisis propertinya, Aspose.PDF memudahkannya. Ditambah lagi, dengan kode yang kami bahas, Anda diperlengkapi dengan baik untuk menyesuaikannya dengan kebutuhan Anda.

Pertanyaan yang Sering Diajukan

Bisakah saya mencari beberapa frasa sekaligus?

Ya, Anda dapat mengubah kode untuk mencari beberapa frasa dengan membuat beberapaTextFragmentAbsorber objek.

Bagaimana cara mengekstrak teks dari halaman tertentu?

Anda dapat menargetkan halaman tertentu dengan menerapkanTextFragmentAbsorber ke satu halaman saja, bukan ke seluruh dokumen. Misalnya:pdfDocument.Pages[1].Accept(textFragmentAbsorber);.

Apakah Aspose.PDF untuk .NET gratis?

Aspose.PDF adalah produk komersial, tetapi Anda dapat menggunakannya denganuji coba gratis.

Bisakah saya mengekstrak gambar dari PDF menggunakan Aspose.PDF?

Ya, Aspose.PDF memungkinkan Anda untuk mengekstrak gambar selain teks. Periksadokumentasi untuk lebih jelasnya.

Bagaimana jika saya membutuhkan bantuan atau dukungan lebih lanjut?

Anda selalu bisa mendapatkan bantuan dariForum Dukungan Aspose.