Αναζήτηση κειμένου και σχεδίαση ορθογωνίου

Εισαγωγή

Ψάχνετε να βελτιώσετε τις δεξιότητες χειρισμού PDF; Θέλετε να μάθετε πώς να αναζητάτε συγκεκριμένο κείμενο σε αρχεία PDF και να το επισημαίνετε με ένα ορθογώνιο; Καταλήξατε στον τέλειο οδηγό! Σήμερα, θα σας καθοδηγήσω πώς να χρησιμοποιήσετε το Aspose.PDF για .NET για να αναζητήσετε κείμενο σε ένα έγγραφο PDF και να σχεδιάσετε ορθογώνια γύρω του. Αυτό το άρθρο θα παρέχει έναν οδηγό βήμα προς βήμα σχεδιασμένο με γνώμονα τη σαφήνεια και τη χρησιμότητα, διασφαλίζοντας ότι μπορείτε να ακολουθήσετε και να εφαρμόσετε αυτές τις τεχνικές στα έργα σας.

Προαπαιτούμενα

Πριν ξεκινήσετε το σεμινάριο, ας προετοιμάσουμε τι χρειάζεστε για να εξασφαλίσετε μια ομαλή ροή εργασίας:

  1. Βασική κατανόηση του .NET: Θα πρέπει να είστε εξοικειωμένοι με τον προγραμματισμό C# και το πλαίσιο .NET για να ακολουθήσετε αποτελεσματικά αυτό το σεμινάριο.

  2. Εγκαταστάθηκε το Visual Studio: Θα χρειαστείτε ένα ολοκληρωμένο περιβάλλον ανάπτυξης (IDE) για να γράψετε και να δοκιμάσετε τον κώδικά σας. Το Visual Studio Community είναι μια εξαιρετική επιλογή και είναι δωρεάν.

  3. Aspose.PDF για .NET: Πρέπει να έχετε εγκατεστημένη τη βιβλιοθήκη Aspose.PDF στο έργο σας. Μπορείτε να το κατεβάσετεεδώ ή θεωρήστε απροσωρινή άδεια για εκτεταμένες δυνατότητες.

  4. Δείγμα εγγράφου PDF: Για αυτό το σεμινάριο, θα χρειαστείτε ένα δείγμα αρχείου PDF με το όνομαSearchAndGetTextFromAll.pdf αποθηκευμένο στον κατάλογο του έργου σας.

Εισαγωγή πακέτων

Για να ξεκινήσετε, θα πρέπει πρώτα να εισαγάγετε τα απαραίτητα πακέτα στο έργο σας .NET. Ακολουθήστε αυτά τα βήματα:

Ανοίξτε το Visual Studio

Εκκινήστε το Visual Studio και δημιουργήστε μια νέα εφαρμογή κονσόλας ή χρησιμοποιήστε μια υπάρχουσα όπου θέλετε να εφαρμόσετε τις λειτουργίες PDF.

Προσθέστε Aspose.PDF στο έργο σας

  1. Κάντε δεξί κλικ στο έργο σας στην Εξερεύνηση λύσεων.
  2. Επιλέξτε “Διαχείριση πακέτων NuGet”.
  3. Αναζήτηση γιαAspose.PDF και εγκαταστήστε την πιο πρόσφατη έκδοση.

Κάνοντας αυτό, θέτετε τις βάσεις για όλους τους καταπληκτικούς χειρισμούς PDF που πρόκειται να εκτελέσετε.

Εισαγωγή χώρων ονομάτων

Στην κορυφή του αρχείου του προγράμματός σας, θα θέλετε να εισαγάγετε τους σχετικούς χώρους ονομάτων από τη βιβλιοθήκη Aspose:

using System.IO;
using Aspose.Pdf;
using Aspose.Pdf.Text;
using System;
using Aspose.Pdf.Facades;

Αυτό διευκολύνει την πρόσβαση σε κλάσεις και μεθόδους στη βιβλιοθήκη Aspose.PDF για τις εργασίες σας.

Τώρα που έχετε ρυθμίσει τα πάντα, ας αναλύσουμε τη διαδικασία αναζήτησης κειμένου σε PDF και σχεδίασης ενός ορθογωνίου γύρω από αυτό σε διαχειρίσιμα βήματα.

Βήμα 1: Ορίστε τη διαδρομή για το έγγραφό σας

Πρώτα, ορίστε τη διαδρομή προς το αρχείο PDF. Φροντίστε να αντικαταστήσετεYOUR DOCUMENT DIRECTORY με την πραγματική διαδρομή όπου σαςSearchAndGetTextFromAll.pdf αποθηκεύεται.

string dataDir = "YOUR DOCUMENT DIRECTORY";

Βήμα 2: Ανοίξτε το έγγραφο PDF

Στη συνέχεια, δημιουργήστε μια παρουσία τουDocument τάξη για να φορτώσετε το PDF σας:

Document document = new Document(dataDir + "SearchAndGetTextFromAll.pdf");

Αυτή η γραμμή κώδικα ανοίγει το καθορισμένο αρχείο PDF, επιτρέποντάς σας να το χειριστείτε περαιτέρω.

Βήμα 3: Δημιουργήστε έναν απορροφητή κειμένου

Τώρα, θα χρειαστείτε έναν τρόπο για να αναζητήσετε κείμενο σε αυτό το έγγραφο. Για αυτό, χρησιμοποιούμε τοTextFragmentAbsorber:

TextFragmentAbsorber textAbsorber = new TextFragmentAbsorber(@"[\S]+");

Η κανονική έκφραση@"[\S]+" έχει σχεδιαστεί για να ταιριάζει με οποιαδήποτε συμβολοσειρά χωρίς κενά στο PDF.

Βήμα 4: Διαμορφώστε τις επιλογές αναζήτησης κειμένου

Στη συνέχεια, θα πρέπει να ρυθμίσετε τις επιλογές αναζήτησης κειμένου:

TextSearchOptions textSearchOptions = new TextSearchOptions(true);
textAbsorber.TextSearchOptions = textSearchOptions;

Εδώ, τοtrue παράμετρος σημαίνει ότι η αναζήτηση θα γίνεται με διάκριση πεζών-κεφαλαίων. Μπορείτε να το ρυθμίσετε σεfalse εάν θέλετε μια αναζήτηση χωρίς διάκριση πεζών-κεφαλαίων.

Βήμα 5: Αποδεχτείτε τον απορροφητή κειμένου στο έγγραφο

Με το δικό σουTextFragmentAbsorber και έτοιμες οι επιλογές αναζήτησης, ήρθε η ώρα να απορροφήσετε κείμενο από το έγγραφο:

document.Pages.Accept(textAbsorber);

Αυτή η μέθοδος εξετάζει κάθε σελίδα στο PDF σας για να βρει τμήματα κειμένου που ταιριάζουν με το καθορισμένο μοτίβο.

Βήμα 6: Δημιουργήστε ένα PdfContentEditor

Για να σχεδιάσετε σχήματα στο έγγραφο, θα χρειαστείτε τοPdfContentEditor:

var editor = new PdfContentEditor(document);

Αυτό το πρόγραμμα επεξεργασίας σάς επιτρέπει να χειρίζεστε και να επεξεργάζεστε εύκολα το περιεχόμενο PDF.

Βήμα 7: Κάντε βρόχο μέσω των τεμαχίων κειμένου που βρέθηκαν

Τώρα, θα θελήσετε να κάνετε κύκλο στα τεμάχια κειμένου που βρέθηκαν για να σχεδιάσετε ορθογώνια γύρω τους:

foreach (TextFragment textFragment in textAbsorber.TextFragments)
{
    foreach (TextSegment textSegment in textFragment.Segments)
    {
        DrawBox(editor, textFragment.Page.Number, textSegment, System.Drawing.Color.Red);
    }
}

Αυτός ο βρόχος επαναλαμβάνεται πάνω από κάθε τμήμα κειμένου και τα τμήματα του, καλώντας aDrawBox μέθοδος σχεδίασης ορθογωνίου.

Βήμα 8: Καθορίστε τη μέθοδο DrawBox

Πρέπει να ορίσετε τοDrawBox μέθοδο, η οποία θα χειριστεί τη λογική σχεδίασης του ορθογωνίου. Εδώ είναι μια απλή υλοποίηση:

private static void DrawBox(PdfContentEditor editor, int pageNumber, TextSegment textSegment, System.Drawing.Color color)
{
    // Υπολογίστε τις διαστάσεις του ορθογωνίου με βάση το τμήμα κειμένου
    float x = textSegment.Rectangle.LLX;
    float y = textSegment.Rectangle.LLY;
    float width = textSegment.Rectangle.Width;
    float height = textSegment.Rectangle.Height;

    // Σχεδιάστε ένα ορθογώνιο χρησιμοποιώντας τις υπολογισμένες τιμές
    editor.DrawRectangle(pageNumber, x, y, width, height, color, 1);
}

Αυτή η μέθοδος καθορίζει τη θέση και το μέγεθος του ορθογωνίου με βάση το οριοθετημένο ορθογώνιο του τμήματος και χρησιμοποιεί τον επεξεργαστή για να το σχεδιάσει.

Βήμα 9: Αποθηκεύστε το τροποποιημένο έγγραφο

Αφού σχεδιάσετε τα ορθογώνια γύρω από το κείμενο που βρέθηκε, μπορείτε να αποθηκεύσετε το τροποποιημένο έγγραφο:

dataDir = dataDir + "SearchTextAndDrawRectangle_out.pdf";
document.Save(dataDir);

Βεβαιωθείτε ότι το νέο σας αρχείο έχει αποθηκευτεί με ένα ξεχωριστό όνομα για να αποφύγετε την αντικατάσταση του αρχικού σας εγγράφου.

Βήμα 10: Μήνυμα επιβεβαίωσης

Τέλος, εκτυπώστε ένα μήνυμα επιβεβαίωσης στην κονσόλα για να σας ενημερώσει ότι η λειτουργία ήταν επιτυχής:

Console.WriteLine("\nRectangle drawn successfully on searched text.\nFile saved at " + dataDir);

Και ορίστε το! Δημιουργήσατε με επιτυχία ένα σενάριο για αναζήτηση κειμένου σε PDF και επισήμανση με ορθογώνια.

Σύναψη

Συγχαρητήρια! Μόλις ξεκλειδώσατε μια ισχυρή δεξιότητα που μπορεί να βελτιώσει σημαντικά τις ικανότητες χειρισμού PDF χρησιμοποιώντας το Aspose.PDF για .NET. Με μερικά απλά βήματα, μπορείτε να αναζητήσετε οποιοδήποτε κείμενο στο έγγραφό σας και να το επισημάνετε οπτικά, κάνοντας τα έγγραφά σας PDF πιο διαδραστικά και διαχειρίσιμα. Μη διστάσετε να πειραματιστείτε με διαφορετικά μοτίβα regex και επιλογές χρωμάτων για να κάνετε πραγματικά αυτό το εργαλείο δικό σας!

Συχνές ερωτήσεις

Τι είναι το Aspose.PDF για .NET;

Το Aspose.PDF για .NET είναι μια βιβλιοθήκη που παρέχει έναν ολοκληρωμένο τρόπο δημιουργίας, χειρισμού και μετατροπής εγγράφων PDF μέσω προγραμματισμού.

Μπορώ να χρησιμοποιήσω το Aspose.PDF δωρεάν;

Ναι, το Aspose προσφέρει μια δωρεάν δοκιμή που μπορείτε να χρησιμοποιήσετε για να δοκιμάσετε τις λειτουργίες της βιβλιοθήκης. Ελέγξτε τοεδώ.

Ποια γλώσσα προγραμματισμού πρέπει να χρησιμοποιήσω με το Aspose.PDF για .NET;

Το Aspose.PDF για .NET έχει σχεδιαστεί για χρήση με C# και άλλες γλώσσες .NET.

Πώς μπορώ να λάβω βοήθεια με το Aspose.PDF;

Μπορείτε να επισκεφτείτε το φόρουμ υποστήριξης του Aspose για βοήθεια σχετικά με οποιοδήποτε ζήτημα ή ερώτημα μπορεί να έχετε. Βρείτε υποστήριξηεδώ.

Πού μπορώ να κατεβάσω το Aspose.PDF για .NET;

Μπορείτε να κατεβάσετε τη βιβλιοθήκη από τον ιστότοπο Aspose,εδώ.