Extrahera text allt i PDF-fil
Denna handledning guidar dig genom processen att extrahera all text i PDF-filen med Aspose.PDF för .NET. Den medföljande C#-källkoden visar de nödvändiga stegen.
Krav
Innan du börjar, se till att du har följande:
- Visual Studio eller någon annan C#-kompilator installerad på din maskin.
- Aspose.PDF för .NET-bibliotek. Du kan ladda ner den från den officiella Aspose-webbplatsen eller använda en pakethanterare som NuGet för att installera den.
Steg 1: Konfigurera projektet
- Skapa ett nytt C#-projekt i din föredragna utvecklingsmiljö.
- Lägg till en referens till Aspose.PDF för .NET-biblioteket.
Steg 2: Importera nödvändiga namnrymder
I kodfilen där du vill extrahera text, lägg till följande med hjälp av direktiv överst i filen:
using Aspose.Pdf;
using System.IO;
Steg 3: Ställ in dokumentkatalogen
I koden, lokalisera raden som sägerstring dataDir = "YOUR DOCUMENT DIRECTORY";
och byt ut"YOUR DOCUMENT DIRECTORY"
med sökvägen till katalogen där dina dokument är lagrade.
Steg 4: Öppna PDF-dokumentet
Öppna ett befintligt PDF-dokument med hjälp avDocument
konstruktorn och skickar sökvägen till indata-PDF-filen.
Document pdfDocument = new Document(dataDir + "ExtractTextAll.pdf");
Steg 5: Extrahera all text
Skapa enTextAbsorber
objekt för att extrahera text från dokumentet. Acceptera sedan absorbenten för alla sidor.
TextAbsorber textAbsorber = new TextAbsorber();
pdfDocument.Pages.Accept(textAbsorber);
Steg 6: Hämta den extraherade texten
Få åtkomst till den extraherade texten frånTextAbsorber
objekt.
string extractedText = textAbsorber.Text;
Steg 7: Spara den extraherade texten
Skapa enTextWriter
och öppna filen där du vill spara den extraherade texten. Skriv den extraherade texten till filen och stäng strömmen.
TextWriter tw = new StreamWriter(dataDir + "extracted-text.txt");
tw.WriteLine(extractedText);
tw. Close();
Exempel på källkod för extrahera text Alla med Aspose.PDF för .NET
// Sökvägen till dokumentkatalogen.
string dataDir = "YOUR DOCUMENT DIRECTORY";
// Öppna dokumentet
Document pdfDocument = new Document(dataDir + "ExtractTextAll.pdf");
// Skapa TextAbsorber-objekt för att extrahera text
TextAbsorber textAbsorber = new TextAbsorber();
// Acceptera absorbenten för alla sidor
pdfDocument.Pages.Accept(textAbsorber);
// Hämta den extraherade texten
string extractedText = textAbsorber.Text;
// Skapa en skribent och öppna filen
TextWriter tw = new StreamWriter(dataDir + "extracted-text.txt");
// Skriv en textrad till filen
tw.WriteLine(extractedText);
// Stäng strömmen
tw.Close();
Slutsats
Du har framgångsrikt extraherat all text från ett PDF-dokument med Aspose.PDF för .NET. Den extraherade texten har sparats i den angivna utdatafilen.
FAQ’s
F: Vad är syftet med denna handledning?
S: Denna handledning fungerar som en guide för att hjälpa dig extrahera all text från en PDF-fil med Aspose.PDF för .NET. Den medföljande C#-källkoden ger steg-för-steg-instruktioner för att utföra denna uppgift.
F: Vilka namnområden ska jag importera?
S: I kodfilen där du tänker extrahera text, inkludera följande med hjälp av direktiv i början av filen:
using Aspose.Pdf;
using System.IO;
F: Hur anger jag dokumentkatalogen?
S: Lokalisera linjenstring dataDir = "YOUR DOCUMENT DIRECTORY";
i koden och byt ut"YOUR DOCUMENT DIRECTORY"
med den faktiska sökvägen till din dokumentkatalog.
F: Hur öppnar jag ett befintligt PDF-dokument?
S: I steg 4 öppnar du ett befintligt PDF-dokument med hjälp avDocument
konstruktor och tillhandahåller sökvägen till PDF-inmatningsfilen.
F: Hur extraherar jag all text från dokumentet?
S: Steg 5 innebär att skapa enTextAbsorber
objekt för att extrahera text från PDF-dokumentet. Sedan accepterar du absorbenten för alla sidor.
F: Hur kommer jag åt den extraherade texten?
S: Steg 6 guidar dig genom att komma åt den extraherade texten frånTextAbsorber
objekt.
F: Hur sparar jag den extraherade texten till en fil?
S: I steg 7 skapar du enTextWriter
, öppna filen där du vill spara den extraherade texten, skriv den extraherade texten till filen och stäng sedan strömmen.
F: Vad är nyckeln till den här handledningen?
S: Genom att följa denna handledning har du lärt dig hur du extraherar all text från ett PDF-dokument med Aspose.PDF för .NET. Den extraherade texten har sparats i en specificerad utdatafil, vilket gör att du kan analysera och manipulera dokumentets textinnehåll.