Class PdfExtractor

PdfExtractor class

表示提取 PDF 文档页面上可能出现的文本、图像和其他类型内容的基本功能。

public abstract class PdfExtractor : IDisposable, IPlugin

Methods

NameDescription
Dispose()IDisposable 的实现。实际上,对于 PdfExtractor 来说并不是必需的。
Process(IPluginOptions)使用指定参数开始 PdfExtractor 处理。

Remarks

TextExtractor 对象用于提取文本,或 ImageExtractor 用于提取图像。

Examples

该示例演示如何提取 PDF 文档的文本内容。

// create TextExtractor object to extract PDF contents
using (TextExtractor extractor = new TextExtractor())
{
    // create TextExtractorOptions object to set instructions
    textExtractorOptions = new TextExtractorOptions();
    
    // add input file path to data sources
    textExtractorOptions.AddInput(new FileDataSource(inputPath));
    
    // perform extraction process
    ResultContainer resultContainer = extractor.Process(textExtractorOptions);
    
    // get the extracted text from the ResultContainer object
    string textExtracted = resultContainer.ResultCollection[0].ToString();
}

See Also