Class TextExtractorOptions

TextExtractorOptions klass

Representerar alternativ för textutvinning för TextExtractor-plugin.

public sealed class TextExtractorOptions : PdfExtractorOptions

Konstruktörer

NamnBeskrivning
TextExtractorOptions()Initierar en ny instans av TextExtractorOptions-objektet med ‘Raw’ (standard) textformateringsläge.
TextExtractorOptions(TextFormattingMode)Initierar en ny instans av TextExtractorOptions-objektet för det angivna textformateringsläget.

Egenskaper

NamnBeskrivning
FormattingMode { get; }Hämtar formateringsläge.
Inputs { get; }Returnerar PdfExtractor-pluginens datainsamling.
override OperationName { get; }Returnerar namnet på operationen.

Metoder

NamnBeskrivning
AddInput(IDataSource)Lägger till en ny datakälla till PdfExtractor-pluginens datainsamling.

Andra Medlemmar

NamnBeskrivning
enum TextFormattingModeDefinierar olika lägen som kan användas vid konvertering av ett PDF-dokument till text. Se TextExtractorOptions klass.

Kommentarer

TextExtractorOptions-objektet används för att ställa in TextFormattingMode och andra alternativ för textutvinningsoperationen. Det är ocksåverkar funktioner för att lägga till data (filer, strömmar) som representerar inmatnings-PDF-dokument.

Exempel

Exemplet visar hur man extraherar textinnehållet i ett PDF-dokument.

// create TextExtractor object to extract PDF contents
using (TextExtractor extractor = new TextExtractor())
{
    // create TextExtractorOptions object to set TextFormattingMode (Pure,  or Raw - default)
    extractorOptions = new TextExtractorOptions(TextExtractorOptions.TextFormattingMode.Pure);
    
    // add input file path to data sources
    extractorOptions.AddInput(new FileDataSource(inputPath));
    
    // perform extraction process
    ResultContainer resultContainer = extractor.Process(extractorOptions);
    
    // get the extracted text from the ResultContainer object
    string textExtracted = resultContainer.ResultCollection[0].ToString();
}

Se Även