Class PdfExtractor

PdfExtractor-Klasse

Stellt die grundlegende Funktionalität zum Extrahieren von Text, Bildern und anderen Arten von Inhalten dar, die auf den Seiten von PDF-Dokumenten auftreten können.

public abstract class PdfExtractor : IDisposable, IPlugin

Methoden

Name	Beschreibung
Dispose()	Implementierung von IDisposable. Tatsächlich ist es für PdfExtractor nicht notwendig.
Process(IPluginOptions)	Startet die PdfExtractor-Verarbeitung mit den angegebenen Parametern.

Bemerkungen

Das TextExtractor Objekt wird verwendet, um Text zu extrahieren, oder ImageExtractor, um Bilder zu extrahieren.

Beispiele

Das Beispiel zeigt, wie man den Textinhalt eines PDF-Dokuments extrahiert.

// create TextExtractor object to extract PDF contents
using (TextExtractor extractor = new TextExtractor())
{
    // create TextExtractorOptions object to set instructions
    textExtractorOptions = new TextExtractorOptions();
    
    // add input file path to data sources
    textExtractorOptions.AddInput(new FileDataSource(inputPath));
    
    // perform extraction process
    ResultContainer resultContainer = extractor.Process(textExtractorOptions);
    
    // get the extracted text from the ResultContainer object
    string textExtracted = resultContainer.ResultCollection[0].ToString();
}

Siehe auch

Schnittstelle IPlugin
Namespace Aspose.Pdf.Plugins
Assembly Aspose.PDF

Class PdfConverterOptions Class PdfExtractorOptions