Class TextExtractorOptions

TextExtractorOptions class

Представляет параметры извлечения текста для плагина TextExtractor.

public sealed class TextExtractorOptions : PdfExtractorOptions

Constructors

NameDescription
TextExtractorOptions()Инициализирует новый экземпляр объекта TextExtractorOptions с режимом форматирования текста ‘Raw’ (по умолчанию).
TextExtractorOptions(TextFormattingMode)Инициализирует новый экземпляр объекта TextExtractorOptions для указанного режима форматирования текста.

Properties

NameDescription
FormattingMode { get; }Получает режим форматирования.
Inputs { get; }Возвращает коллекцию данных плагина PdfExtractor.
override OperationName { get; }Возвращает имя операции.

Methods

NameDescription
AddInput(IDataSource)Добавляет новый источник данных в коллекцию данных плагина PdfExtractor.

Other Members

NameDescription
enum TextFormattingModeОпределяет различные режимы, которые могут быть использованы при преобразовании PDF-документа в текст. См. класс TextExtractorOptions.

Remarks

Объект TextExtractorOptions используется для установки TextFormattingMode и других параметров для операции извлечения текста. Кроме того, он наследует функции для добавления данных (файлов, потоков), представляющих входные PDF-документы.

Examples

Пример демонстрирует, как извлечь текстовое содержимое PDF-документа.

// create TextExtractor object to extract PDF contents
using (TextExtractor extractor = new TextExtractor())
{
    // create TextExtractorOptions object to set TextFormattingMode (Pure,  or Raw - default)
    extractorOptions = new TextExtractorOptions(TextExtractorOptions.TextFormattingMode.Pure);
    
    // add input file path to data sources
    extractorOptions.AddInput(new FileDataSource(inputPath));
    
    // perform extraction process
    ResultContainer resultContainer = extractor.Process(extractorOptions);
    
    // get the extracted text from the ResultContainer object
    string textExtracted = resultContainer.ResultCollection[0].ToString();
}

See Also