Class PdfExtractor

PdfExtractor klass

Representerar grundläggande funktionalitet för att extrahera text, bilder och andra typer av innehåll som kan förekomma på sidorna av PDF-dokument.

public abstract class PdfExtractor : IDisposable, IPlugin

Metoder

NamnBeskrivning
Dispose()Implementering av IDisposable. Egentligen är det inte nödvändigt för PdfExtractor.
Process(IPluginOptions)Startar PdfExtractor-behandling med de angivna parametrarna.

Kommentarer

Objektet TextExtractor används för att extrahera text, eller ImageExtractor för att extrahera bilder.

Exempel

Exemplet visar hur man extraherar textinnehåll från ett PDF-dokument.

// create TextExtractor object to extract PDF contents
using (TextExtractor extractor = new TextExtractor())
{
    // create TextExtractorOptions object to set instructions
    textExtractorOptions = new TextExtractorOptions();
    
    // add input file path to data sources
    textExtractorOptions.AddInput(new FileDataSource(inputPath));
    
    // perform extraction process
    ResultContainer resultContainer = extractor.Process(textExtractorOptions);
    
    // get the extracted text from the ResultContainer object
    string textExtracted = resultContainer.ResultCollection[0].ToString();
}

Se Även