Class PdfExtractor

Clase PdfExtractor

Representa la funcionalidad base para extraer texto, imágenes y otros tipos de contenido que pueden ocurrir en las páginas de documentos PDF.

public abstract class PdfExtractor : IDisposable, IPlugin

Métodos

NombreDescripción
Dispose()Implementación de IDisposable. En realidad, no es necesario para PdfExtractor.
Process(IPluginOptions)Inicia el procesamiento de PdfExtractor con los parámetros especificados.

Observaciones

El objeto TextExtractor se utiliza para extraer texto, o ImageExtractor para extraer imágenes.

Ejemplos

El ejemplo demuestra cómo extraer el contenido de texto de un documento PDF.

// create TextExtractor object to extract PDF contents
using (TextExtractor extractor = new TextExtractor())
{
    // create TextExtractorOptions object to set instructions
    textExtractorOptions = new TextExtractorOptions();
    
    // add input file path to data sources
    textExtractorOptions.AddInput(new FileDataSource(inputPath));
    
    // perform extraction process
    ResultContainer resultContainer = extractor.Process(textExtractorOptions);
    
    // get the extracted text from the ResultContainer object
    string textExtracted = resultContainer.ResultCollection[0].ToString();
}

Véase también