Extrahera text från sidregion i PDF-fil

Denna handledning guidar dig genom processen att extrahera text från en specifik region på en sida i PDF-fil med Aspose.PDF för .NET. Den medföljande C#-källkoden visar de nödvändiga stegen.

Krav

Innan du börjar, se till att du har följande:

  • Visual Studio eller någon annan C#-kompilator installerad på din maskin.
  • Aspose.PDF för .NET-bibliotek. Du kan ladda ner den från den officiella Aspose-webbplatsen eller använda en pakethanterare som NuGet för att installera den.

Steg 1: Konfigurera projektet

  1. Skapa ett nytt C#-projekt i din föredragna utvecklingsmiljö.
  2. Lägg till en referens till Aspose.PDF för .NET-biblioteket.

Steg 2: Importera nödvändiga namnrymder

I kodfilen där du vill extrahera text, lägg till följande med hjälp av direktiv överst i filen:

using Aspose.Pdf;
using System.IO;

Steg 3: Ställ in dokumentkatalogen

I koden, lokalisera raden som sägerstring dataDir = "YOUR DOCUMENT DIRECTORY"; och byt ut"YOUR DOCUMENT DIRECTORY" med sökvägen till katalogen där dina dokument är lagrade.

Steg 4: Öppna PDF-dokumentet

Öppna ett befintligt PDF-dokument med hjälp avDocumentkonstruktorn och skickar sökvägen till indata-PDF-filen.

Document pdfDocument = new Document(dataDir + "ExtractTextAll.pdf");

Steg 5: Extrahera text från en sidregion

Skapa enTextAbsorber objekt för att extrahera text från dokumentet. KonfigureraTextSearchOptions för att begränsa sökningen till en specifik sidregion definierad av en rektangel.

TextAbsorber absorb = new TextAbsorber();
absorb.TextSearchOptions.LimitToPageBounds = true;
absorb.TextSearchOptions.Rectangle = new Aspose.Pdf.Rectangle(100, 200, 250, 350);
pdfDocument.Pages[1].Accept(absorb);

Steg 6: Hämta den extraherade texten

Få åtkomst till den extraherade texten frånTextAbsorber objekt.

string extractedText = absorb.Text;

Steg 7: Spara den extraherade texten

Skapa enTextWriter och öppna filen där du vill spara den extraherade texten. Skriv den extraherade texten till filen och stäng strömmen.

TextWriter tw = new StreamWriter(dataDir + "extracted-text.txt");
tw.WriteLine(extractedText);
tw. Close();

Exempel på källkod för att extrahera text från sidregion med Aspose.PDF för .NET

// Sökvägen till dokumentkatalogen.
string dataDir = "YOUR DOCUMENT DIRECTORY";
// Öppna dokumentet
Document pdfDocument = new Document(dataDir + "ExtractTextAll.pdf");
// Skapa TextAbsorber-objekt för att extrahera text
TextAbsorber absorber = new TextAbsorber();
absorber.TextSearchOptions.LimitToPageBounds = true;
absorber.TextSearchOptions.Rectangle = new Aspose.Pdf.Rectangle(100, 200, 250, 350);
// Acceptera absorbenten för första sidan
pdfDocument.Pages[1].Accept(absorber);
// Hämta den extraherade texten
string extractedText = absorber.Text;
// Skapa en skribent och öppna filen
TextWriter tw = new StreamWriter(dataDir + "extracted-text.txt");
// Skriv en textrad till filen
tw.WriteLine(extractedText);
// Stäng strömmen
tw.Close();

Slutsats

Du har framgångsrikt extraherat text från en specifik region på en sida i ett PDF-dokument med Aspose.PDF för .NET. Den extraherade texten har sparats i den angivna utdatafilen.

FAQ’s

F: Vad är syftet med denna handledning?

S: Denna handledning syftar till att guida dig genom processen att extrahera text från en specifik region på en sida i en PDF-fil med Aspose.PDF för .NET. Den medföljande C#-källkoden ger steg-för-steg-instruktioner för att utföra denna uppgift.

F: Vilka namnområden ska jag importera?

S: I kodfilen där du tänker extrahera text, inkludera följande med hjälp av direktiv i början av filen:

using Aspose.Pdf;
using System.IO;

F: Hur anger jag dokumentkatalogen?

S: Lokalisera linjenstring dataDir = "YOUR DOCUMENT DIRECTORY"; i koden och byt ut"YOUR DOCUMENT DIRECTORY" med den faktiska sökvägen till din dokumentkatalog.

F: Hur öppnar jag ett befintligt PDF-dokument?

S: I steg 4 öppnar du ett befintligt PDF-dokument med hjälp avDocument konstruktor och tillhandahåller sökvägen till PDF-inmatningsfilen.

F: Hur extraherar jag text från en specifik sidregion?

S: Steg 5 innebär att skapa enTextAbsorberobjekt för att extrahera text från PDF-dokumentet. Du kommer sedan att konfigureraTextSearchOptions för att definiera ett specifikt rektangulärt område på sidan med hjälp av koordinater.

F: Hur kommer jag åt den extraherade texten?

S: Steg 6 guidar dig genom att komma åt den extraherade texten frånTextAbsorber objekt.

F: Hur sparar jag den extraherade texten till en fil?

S: I steg 7 skapar du enTextWriter, öppna filen där du vill spara den extraherade texten, skriv den extraherade texten till filen och stäng sedan strömmen.

F: Vad är nyckeln till den här handledningen?

S: Genom att följa denna handledning har du lärt dig hur du extraherar text från en specifik region på en sida i ett PDF-dokument med Aspose.PDF för .NET. Den extraherade texten har sparats i en specificerad utdatafil, så att du kan rikta in och analysera det önskade textinnehållet exakt.