Εξαγωγή κειμένου από την περιοχή της σελίδας σε αρχείο PDF

Αυτό το σεμινάριο θα σας καθοδηγήσει στη διαδικασία εξαγωγής κειμένου από μια συγκεκριμένη περιοχή σε μια σελίδα σε αρχείο PDF χρησιμοποιώντας το Aspose.PDF για .NET. Ο παρεχόμενος πηγαίος κώδικας C# δείχνει τα απαραίτητα βήματα.

Απαιτήσεις

Πριν ξεκινήσετε, βεβαιωθείτε ότι έχετε τα ακόλουθα:

  • Visual Studio ή οποιοσδήποτε άλλος μεταγλωττιστής C# είναι εγκατεστημένος στον υπολογιστή σας.
  • Aspose.PDF για τη βιβλιοθήκη .NET. Μπορείτε να το κατεβάσετε από τον επίσημο ιστότοπο του Aspose ή να χρησιμοποιήσετε έναν διαχειριστή πακέτων όπως το NuGet για να το εγκαταστήσετε.

Βήμα 1: Ρύθμιση του έργου

  1. Δημιουργήστε ένα νέο έργο C# στο περιβάλλον ανάπτυξης που προτιμάτε.
  2. Προσθέστε μια αναφορά στη βιβλιοθήκη Aspose.PDF για .NET.

Βήμα 2: Εισαγάγετε τους απαιτούμενους χώρους ονομάτων

Στο αρχείο κώδικα όπου θέλετε να εξαγάγετε κείμενο, προσθέστε τα ακόλουθα χρησιμοποιώντας οδηγίες στο επάνω μέρος του αρχείου:

using Aspose.Pdf;
using System.IO;

Βήμα 3: Ορίστε τον κατάλογο εγγράφων

Στον κώδικα, εντοπίστε τη γραμμή που λέειstring dataDir = "YOUR DOCUMENT DIRECTORY"; και αντικαταστήστε"YOUR DOCUMENT DIRECTORY" με τη διαδρομή προς τον κατάλογο όπου είναι αποθηκευμένα τα έγγραφά σας.

Βήμα 4: Ανοίξτε το έγγραφο PDF

Ανοίξτε ένα υπάρχον έγγραφο PDF χρησιμοποιώντας τοDocumentκατασκευαστή και περνώντας τη διαδρομή προς το αρχείο εισόδου PDF.

Document pdfDocument = new Document(dataDir + "ExtractTextAll.pdf");

Βήμα 5: Εξαγωγή κειμένου από μια περιοχή σελίδας

Δημιουργώ έναTextAbsorber αντικείμενο για εξαγωγή κειμένου από το έγγραφο. Ρυθμίστε τοTextSearchOptions για να περιορίσετε την αναζήτηση σε μια συγκεκριμένη περιοχή σελίδας που ορίζεται από ένα ορθογώνιο.

TextAbsorber absorb = new TextAbsorber();
absorb.TextSearchOptions.LimitToPageBounds = true;
absorb.TextSearchOptions.Rectangle = new Aspose.Pdf.Rectangle(100, 200, 250, 350);
pdfDocument.Pages[1].Accept(absorb);

Βήμα 6: Λάβετε το εξαγόμενο κείμενο

Πρόσβαση στο εξαγόμενο κείμενο από τοTextAbsorber αντικείμενο.

string extractedText = absorb.Text;

Βήμα 7: Αποθηκεύστε το εξαγόμενο κείμενο

Δημιουργώ έναTextWriter και ανοίξτε το αρχείο στο οποίο θέλετε να αποθηκεύσετε το εξαγόμενο κείμενο. Γράψτε το εξαγόμενο κείμενο στο αρχείο και κλείστε τη ροή.

TextWriter tw = new StreamWriter(dataDir + "extracted-text.txt");
tw.WriteLine(extractedText);
tw. Close();

Δείγμα πηγαίου κώδικα για εξαγωγή κειμένου από την περιοχή σελίδας χρησιμοποιώντας το Aspose.PDF για .NET

// Η διαδρομή προς τον κατάλογο εγγράφων.
string dataDir = "YOUR DOCUMENT DIRECTORY";
// Άνοιγμα εγγράφου
Document pdfDocument = new Document(dataDir + "ExtractTextAll.pdf");
// Δημιουργήστε αντικείμενο TextAbsorber για εξαγωγή κειμένου
TextAbsorber absorber = new TextAbsorber();
absorber.TextSearchOptions.LimitToPageBounds = true;
absorber.TextSearchOptions.Rectangle = new Aspose.Pdf.Rectangle(100, 200, 250, 350);
// Αποδεχτείτε τον απορροφητήρα για την πρώτη σελίδα
pdfDocument.Pages[1].Accept(absorber);
// Λάβετε το εξαγόμενο κείμενο
string extractedText = absorber.Text;
// Δημιουργήστε ένα πρόγραμμα εγγραφής και ανοίξτε το αρχείο
TextWriter tw = new StreamWriter(dataDir + "extracted-text.txt");
// Γράψτε μια γραμμή κειμένου στο αρχείο
tw.WriteLine(extractedText);
// Κλείστε τη ροή
tw.Close();

συμπέρασμα

Έχετε εξαγάγει με επιτυχία κείμενο από μια συγκεκριμένη περιοχή σε μια σελίδα ενός εγγράφου PDF χρησιμοποιώντας το Aspose.PDF για .NET. Το εξαγόμενο κείμενο έχει αποθηκευτεί στο καθορισμένο αρχείο εξόδου.

Συχνές ερωτήσεις

Ε: Ποιος είναι ο σκοπός αυτού του σεμιναρίου;

Α: Αυτό το σεμινάριο στοχεύει να σας καθοδηγήσει στη διαδικασία εξαγωγής κειμένου από μια συγκεκριμένη περιοχή σε μια σελίδα σε ένα αρχείο PDF χρησιμοποιώντας το Aspose.PDF για .NET. Ο συνοδευτικός πηγαίος κώδικας C# παρέχει οδηγίες βήμα προς βήμα για την ολοκλήρωση αυτής της εργασίας.

Ε: Ποιους χώρους ονομάτων πρέπει να εισάγω;

Α: Στο αρχείο κώδικα όπου σκοπεύετε να εξαγάγετε κείμενο, συμπεριλάβετε τα ακόλουθα χρησιμοποιώντας οδηγίες στην αρχή του αρχείου:

using Aspose.Pdf;
using System.IO;

Ε: Πώς καθορίζω τον κατάλογο εγγράφων;

Α: Εντοπίστε τη γραμμήstring dataDir = "YOUR DOCUMENT DIRECTORY"; στον κωδικό και αντικαταστήστε"YOUR DOCUMENT DIRECTORY" με την πραγματική διαδρομή προς τον κατάλογο εγγράφων σας.

Ε: Πώς μπορώ να ανοίξω ένα υπάρχον έγγραφο PDF;

Α: Στο Βήμα 4, θα ανοίξετε ένα υπάρχον έγγραφο PDF χρησιμοποιώντας τοDocument κατασκευαστή και παρέχοντας τη διαδρομή προς το αρχείο εισόδου PDF.

Ε: Πώς μπορώ να εξαγάγω κείμενο από μια συγκεκριμένη περιοχή σελίδας;

Α: Το βήμα 5 περιλαμβάνει τη δημιουργία αTextAbsorberαντικείμενο για εξαγωγή κειμένου από το έγγραφο PDF. Στη συνέχεια, θα διαμορφώσετε τοTextSearchOptions για να ορίσετε μια συγκεκριμένη ορθογώνια περιοχή στη σελίδα χρησιμοποιώντας συντεταγμένες.

Ε: Πώς μπορώ να αποκτήσω πρόσβαση στο εξαγόμενο κείμενο;

Α: Το βήμα 6 σας καθοδηγεί στην πρόσβαση στο εξαγόμενο κείμενο από τοTextAbsorber αντικείμενο.

Ε: Πώς μπορώ να αποθηκεύσω το εξαγόμενο κείμενο σε ένα αρχείο;

Α: Στο Βήμα 7, θα δημιουργήσετε έναTextWriter, ανοίξτε το αρχείο όπου θέλετε να αποθηκεύσετε το εξαγόμενο κείμενο, γράψτε το εξαγόμενο κείμενο στο αρχείο και, στη συνέχεια, κλείστε τη ροή.

Ε: Ποιο είναι το βασικό στοιχείο από αυτό το σεμινάριο;

Α: Ακολουθώντας αυτό το σεμινάριο, μάθατε πώς να εξάγετε κείμενο από μια συγκεκριμένη περιοχή σε μια σελίδα ενός εγγράφου PDF χρησιμοποιώντας το Aspose.PDF για .NET. Το εξαγόμενο κείμενο έχει αποθηκευτεί σε ένα καθορισμένο αρχείο εξόδου, επιτρέποντάς σας να στοχεύσετε και να αναλύσετε με ακρίβεια το επιθυμητό περιεχόμενο κειμένου.