Estrai la pagina di testo nel file PDF
Questo tutorial ti guiderà attraverso il processo di estrazione del testo da una pagina specifica nel file PDF utilizzando Aspose.PDF per .NET. Il codice sorgente C# fornito illustra i passaggi necessari.
Requisiti
Prima di iniziare, assicurati di avere quanto segue:
- Visual Studio o qualsiasi altro compilatore C# installato sul tuo computer.
- Aspose.PDF per la libreria .NET. Puoi scaricarlo dal sito Web ufficiale di Aspose o utilizzare un gestore di pacchetti come NuGet per installarlo.
Passaggio 1: impostare il progetto
- Crea un nuovo progetto C# nel tuo ambiente di sviluppo preferito.
- Aggiungere un riferimento alla libreria Aspose.PDF per .NET.
Passaggio 2: importa gli spazi dei nomi richiesti
Nel file di codice in cui desideri estrarre il testo, aggiungi le seguenti direttive using nella parte superiore del file:
using Aspose.Pdf;
using System.IO;
Passaggio 3: imposta la directory dei documenti
Nel codice, individua la riga che dicestring dataDir = "YOUR DOCUMENT DIRECTORY";
e sostituire"YOUR DOCUMENT DIRECTORY"
con il percorso della directory in cui sono archiviati i tuoi documenti.
Passaggio 4: apri il documento PDF
Apri un documento PDF esistente utilizzando il fileDocument
costruttore e passando il percorso al file PDF di input.
Document pdfDocument = new Document(dataDir + "ExtractTextPage.pdf");
Passaggio 5: estrai il testo da una pagina specifica
Creare unTextAbsorber
oggetto per estrarre il testo dal documento. Accettare l’assorbitore per la pagina desiderata accedendovi tramite ilPages
raccolta delpdfDocument
.
TextAbsorber textAbsorber = new TextAbsorber();
pdfDocument.Pages[1].Accept(textAbsorber);
Passaggio 6: ottieni il testo estratto
Accedi al testo estratto dal fileTextAbsorber
oggetto.
string extractedText = textAbsorber.Text;
Passaggio 7: salva il testo estratto
Creare unTextWriter
e apri il file in cui vuoi salvare il testo estratto. Scrivi il testo estratto nel file e chiudi lo stream.
dataDir = dataDir + "extracted-text_out.txt";
TextWriter tw = new StreamWriter(dataDir);
tw.WriteLine(extractedText);
tw. Close();
Codice sorgente di esempio per la pagina di estrazione del testo utilizzando Aspose.PDF per .NET
// Il percorso della directory dei documenti.
string dataDir = "YOUR DOCUMENT DIRECTORY";
// Apri documento
Document pdfDocument = new Document(dataDir + "ExtractTextPage.pdf");
// Crea un oggetto TextAbsorber per estrarre il testo
TextAbsorber textAbsorber = new TextAbsorber();
//Accetta l'assorbitore per una pagina particolare
pdfDocument.Pages[1].Accept(textAbsorber);
// Ottieni il testo estratto
string extractedText = textAbsorber.Text;
dataDir = dataDir + "extracted-text_out.txt";
// Crea uno scrittore e apri il file
TextWriter tw = new StreamWriter(dataDir);
// Scrivere una riga di testo nel file
tw.WriteLine(extractedText);
// Chiudi il flusso
tw.Close();
Console.WriteLine("\nText extracted successfully from Pages of PDF Document.\nFile saved at " + dataDir);
Conclusione
Hai estratto con successo il testo da una pagina specifica di un documento PDF utilizzando Aspose.PDF per .NET. Il testo estratto è stato salvato nel file di output specificato.
Domande frequenti
D: Qual è lo scopo di questo tutorial?
R: Questo tutorial ti guida attraverso il processo di estrazione del testo da una pagina specifica in un file PDF utilizzando Aspose.PDF per .NET. Il codice sorgente C# allegato illustra i passaggi necessari per eseguire questa attività.
D: Quali spazi dei nomi devo importare?
R: Nel file di codice in cui prevedi di estrarre il testo, includi le seguenti direttive using all’inizio del file:
using Aspose.Pdf;
using System.IO;
D: Come posso specificare la directory dei documenti?
A: Nel codice, trova la riga che dicestring dataDir = "YOUR DOCUMENT DIRECTORY";
e sostituire"YOUR DOCUMENT DIRECTORY"
con il percorso effettivo della directory dei documenti.
D: Come posso aprire un documento PDF esistente?
R: Nel passaggio 4, aprirai un documento PDF esistente utilizzando il fileDocument
costruttore e fornendo il percorso del file PDF di input.
D: Come posso estrarre il testo da una pagina specifica?
R: Il passaggio 5 prevede la creazione di un fileTextAbsorber
oggetto per estrarre il testo dal documento PDF. Accetterai quindi l’assorbitore per la pagina desiderata accedendovi tramite ilPages
raccolta delpdfDocument
.
D: Come posso accedere al testo estratto?
R: Il passaggio 6 ti guida attraverso l’accesso al testo estratto dal fileTextAbsorber
oggetto.
D: Come posso salvare il testo estratto in un file?
R: Nel passaggio 7 creerai un fileTextWriter
, apri il file in cui desideri salvare il testo estratto, scrivi il testo estratto nel file, quindi chiudi lo stream.
D: Qual è il punto chiave di questo tutorial?
R: Seguendo questo tutorial, hai imparato come estrarre testo da una pagina specifica di un documento PDF utilizzando Aspose.PDF per .NET. Il testo estratto è stato salvato in un file di output specificato, consentendoti di individuare e analizzare il contenuto di testo da pagine specifiche.