Class TextExtractorOptions

TextExtractorOptions class

表示 TextExtractor 插件的文本提取选项。

public sealed class TextExtractorOptions : PdfExtractorOptions

构造函数

名称描述
TextExtractorOptions()使用“原始”(默认)文本格式化模式初始化 TextExtractorOptions 对象的新实例。
TextExtractorOptions(TextFormattingMode)为指定的文本格式化模式初始化 TextExtractorOptions 对象的新实例。

属性

名称描述
FormattingMode { get; }获取格式化模式。
Inputs { get; }返回 PdfExtractor 插件数据集合。
override OperationName { get; }返回操作的名称。

方法

名称描述
AddInput(IDataSource)向 PdfExtractor 插件数据集合添加新的数据源。

其他成员

名称描述
enum TextFormattingMode定义在将 PDF 文档转换为文本时可以使用的不同模式。请参见 TextExtractorOptions 类。

备注

TextExtractorOptions 对象用于设置 TextFormattingMode 和文本提取操作的其他选项。此外,它继承了添加表示输入 PDF 文档的数据(文件、流)的功能。

示例

该示例演示如何提取 PDF 文档的文本内容。

// create TextExtractor object to extract PDF contents
using (TextExtractor extractor = new TextExtractor())
{
    // create TextExtractorOptions object to set TextFormattingMode (Pure,  or Raw - default)
    extractorOptions = new TextExtractorOptions(TextExtractorOptions.TextFormattingMode.Pure);
    
    // add input file path to data sources
    extractorOptions.AddInput(new FileDataSource(inputPath));
    
    // perform extraction process
    ResultContainer resultContainer = extractor.Process(extractorOptions);
    
    // get the extracted text from the ResultContainer object
    string textExtracted = resultContainer.ResultCollection[0].ToString();
}

另请参阅