Wyodrębnij cały tekst z pliku PDF

Wstęp

W tej cyfrowej erze radzenie sobie z dokumentami PDF stało się powszechnym zadaniem. Niezależnie od tego, czy jesteś programistą, który chce zbudować aplikację do przetwarzania dokumentów, czy profesjonalistą biznesowym, który musi wyodrębnić ważne dane, wiedza o tym, jak wydajnie wyodrębniać tekst z plików PDF, może zaoszczędzić mnóstwo czasu i energii. W tym artykule zagłębimy się w korzystanie z biblioteki Aspose.PDF dla .NET — potężnego narzędzia, które może pomóc Ci szybko i łatwo wyciągać tekst z plików PDF.

Wymagania wstępne

Zanim przejdziemy do szczegółów dotyczących wyodrębniania tekstu z plików PDF, musisz spełnić kilka podstawowych wymagań:

.NET Framework: Upewnij się, że masz zainstalowany .NET Framework na swoim komputerze deweloperskim. Aspose.PDF działa bezproblemowo z .NET, więc posiadanie najnowszej wersji jest plusem.
Biblioteka Aspose.PDF: Będziesz potrzebować biblioteki Aspose.PDF dla .NET, aby obsługiwać manipulacje PDF. Możeszpobierz tutaj.
Środowisko programistyczne: Zdecydowanie zalecane jest IDE, takie jak Visual Studio. Zapewnia przyjazny dla użytkownika interfejs do pisania, budowania i debugowania kodu.
Podstawowa znajomość języka C#: Znajomość języka programowania C# pomoże Ci lepiej zrozumieć fragmenty kodu, które zaraz omówimy.

Teraz, gdy spełniliśmy już wszystkie wymagania wstępne, możemy zaimportować niezbędne pakiety!

Importuj pakiety

Aby rozpocząć nasz proces ekstrakcji, najpierw musisz zaimportować wymagane przestrzenie nazw do swojego projektu C#. Oto, jak możesz to zrobić:

using System.IO;
using Aspose.Pdf;
using Aspose.Pdf.Text;
using System;

Te przestrzenie nazw zapewnią dostęp do klas i metod wymaganych do operacji PDF.

Podzielmy proces ekstrakcji na łatwe do wykonania kroki. Pod koniec tego przewodnika będziesz w stanie bezproblemowo wyodrębnić tekst z dowolnego pliku PDF.

Krok 1: Skonfiguruj katalog dokumentów

Pierwszą rzeczą, którą chcesz zrobić, jest określenie katalogu, w którym znajduje się plik PDF. Jest to niezbędne do zlokalizowania pliku, z którym chcesz pracować.

Przykład kodu:

// Ścieżka do katalogu dokumentów.
string dataDir = "YOUR DOCUMENT DIRECTORY";

W tym fragmencie kodu wystarczy zastąpić"YOUR DOCUMENT DIRECTORY" z rzeczywistą ścieżką, w której znajduje się Twój plik PDF. Na przykład, jeśli Twój plik znajduje się wC:\Documents , ustawiszdataDir do tej ścieżki.

Krok 2: Otwórz dokument PDF

Po ustawieniu katalogu należy otworzyć dokument PDF, z którego chcesz wyodrębnić tekst. Można to zrobić za pomocąDocument klasa z przestrzeni nazw Aspose.PDF.

Przykład kodu:

// Otwórz dokument
Document pdfDocument = new Document(dataDir + "ExtractTextAll.pdf");

Tutaj upewnij się, że nazwa plikuExtractTextAll.pdf jest poprawne. To jest plik, z którym będziesz pracować, aby wyodrębnić tekst.

Krok 3: Utwórz obiekt pochłaniacza tekstu

Następnym krokiem jest utworzenieTextAbsorber obiekt. To magiczne narzędzie, które pomoże Ci wchłonąć cały tekst obecny w pliku PDF.

Przykład kodu:

// Utwórz obiekt TextAbsorber, aby wyodrębnić tekst
TextAbsorber textAbsorber = new TextAbsorber();

Poprzez inicjalizacjęTextAbsorber, możesz przygotować się do wyodrębnienia całej zawartości tekstowej ze stron pliku PDF.

Krok 4: Akceptuj Absorber dla wszystkich stron

Teraz, gdy masz już gotowy absorber tekstu, musisz sprawić, by działał na wszystkich stronach dokumentu PDF. Dzięki temu tekst z każdej strony zostanie przechwycony.

Przykład kodu:

// Zaakceptuj absorber dla wszystkich stron
pdfDocument.Pages.Accept(textAbsorber);

Wykonując ten krok, mówisz w zasadzie: „Hej, pochłaniaczu tekstu, zbierz cały tekst z każdej strony tego dokumentu!”

Krok 5: Pobierz wyodrębniony tekst

Gdy tekst zostanie wchłonięty, czas go wyciągnąć. Możesz uzyskać dostęp do wyodrębnionego tekstu za pomocą prostej właściwości.

Przykład kodu:

// Pobierz wyodrębniony tekst
string extractedText = textAbsorber.Text;

Teraz zmiennaextractedText zawiera cały tekst zebrany z twojego pliku PDF. Jakie to fajne?

Krok 6: Zapisz wyodrębniony tekst do pliku

Na koniec prawdopodobnie chcesz zapisać wyodrębniony tekst w nowym pliku tekstowym, aby mieć do niego łatwy dostęp później. Oto jak to zrobić.

Przykład kodu:

// Utwórz pisarza i otwórz plik
TextWriter tw = new StreamWriter(dataDir + "extracted-text.txt");
// Napisz wiersz tekstu do pliku
tw.WriteLine(extractedText);
// Zamknij strumień
tw.Close();

Ten kod otwiera nowy plik o nazwieextracted-text.txtzapisuje do niego całą wyodrębnioną zawartość, a następnie zamyka plik. Więc teraz, kiedykolwiek chcesz zobaczyć wyodrębniony tekst, po prostu spójrz do swojego katalogu dokumentów!

Wniosek

Oto i masz! W kilku prostych krokach możesz wyodrębnić tekst z dowolnego pliku PDF za pomocą Aspose.PDF dla .NET. Niezależnie od tego, czy tworzysz aplikację do analizowania dokumentów, czy po prostu potrzebujesz pobrać kilka notatek z pliku PDF, Aspose.PDF zapewnia solidne, łatwe w użyciu API, które ułatwia Ci życie. Pamiętaj, aby sprawdzićdokumentacja aby poznać więcej funkcji i możliwości oferowanych przez tę potężną bibliotekę.

Najczęściej zadawane pytania

Czy mogę używać Aspose.PDF dla .NET bezpłatnie?

Tak, Aspose oferuje bezpłatną wersję próbną. Możesz ją pobraćTutaj.

A co jeśli mój plik PDF zawiera obrazy i grafiki?

Aspose.PDF koncentruje się na ekstrakcji tekstu. Jeśli Twój plik PDF zawiera obrazy, możesz potrzebować innego podejścia do ich obsługi.

Czy jest dostępna licencja tymczasowa?

Oczywiście! Możesz otrzymać tymczasową licencjęTutaj.

Gdzie mogę uzyskać pomoc dotyczącą Aspose.PDF?

Wsparcie i dyskusje społecznościowe można znaleźć na stronieForum Aspose.

W jakich formatach mogę zapisać wyodrębniony tekst?

Możesz zapisać tekst w różnych formatach, takich jak:.txt, .docxlub bezpośrednio do bazy danych.

Wyodrębnij akapity w pliku PDF Wyodrębnij tekst z obszaru strony w pliku PDF