Class PdfExtractor

Класс PdfExtractor

Представляет базовую функциональность для извлечения текста, изображений и других типов содержимого, которые могут встречаться на страницах PDF-документов.

public abstract class PdfExtractor : IDisposable, IPlugin

Методы

НазваниеОписание
Dispose()Реализация IDisposable. На самом деле, это не обязательно для PdfExtractor.
Process(IPluginOptions)Запускает обработку PdfExtractor с указанными параметрами.

Замечания

Объект TextExtractor используется для извлечения текста, а ImageExtractor для извлечения изображений.

Примеры

Пример демонстрирует, как извлечь текстовое содержимое PDF-документа.

// create TextExtractor object to extract PDF contents
using (TextExtractor extractor = new TextExtractor())
{
    // create TextExtractorOptions object to set instructions
    textExtractorOptions = new TextExtractorOptions();
    
    // add input file path to data sources
    textExtractorOptions.AddInput(new FileDataSource(inputPath));
    
    // perform extraction process
    ResultContainer resultContainer = extractor.Process(textExtractorOptions);
    
    // get the extracted text from the ResultContainer object
    string textExtracted = resultContainer.ResultCollection[0].ToString();
}

См. также