Class TextExtractorOptions

TextExtractorOptions class

表示 TextExtractor 插件的文本提取选项。

public sealed class TextExtractorOptions : PdfExtractorOptions

构造函数

名称	描述
TextExtractorOptions()	使用“原始”（默认）文本格式化模式初始化 `TextExtractorOptions` 对象的新实例。
TextExtractorOptions(TextFormattingMode)	为指定的文本格式化模式初始化 `TextExtractorOptions` 对象的新实例。

属性

名称	描述
FormattingMode { get; }	获取格式化模式。
Inputs { get; }	返回 PdfExtractor 插件数据集合。
override OperationName { get; }	返回操作的名称。

方法

名称	描述
AddInput(IDataSource)	向 PdfExtractor 插件数据集合添加新的数据源。

其他成员

名称	描述
enum TextFormattingMode	定义在将 PDF 文档转换为文本时可以使用的不同模式。请参见 `TextExtractorOptions` 类。

备注

TextExtractorOptions 对象用于设置 TextFormattingMode 和文本提取操作的其他选项。此外，它继承了添加表示输入 PDF 文档的数据（文件、流）的功能。

示例

该示例演示如何提取 PDF 文档的文本内容。

// create TextExtractor object to extract PDF contents
using (TextExtractor extractor = new TextExtractor())
{
    // create TextExtractorOptions object to set TextFormattingMode (Pure,  or Raw - default)
    extractorOptions = new TextExtractorOptions(TextExtractorOptions.TextFormattingMode.Pure);
    
    // add input file path to data sources
    extractorOptions.AddInput(new FileDataSource(inputPath));
    
    // perform extraction process
    ResultContainer resultContainer = extractor.Process(extractorOptions);
    
    // get the extracted text from the ResultContainer object
    string textExtracted = resultContainer.ResultCollection[0].ToString();
}

另请参阅

Class TextExtractor Enum TextExtractorOptions.TextFormattingMode