Class PdfExtractor
PdfExtractor class
表示提取 PDF 文档页面上可能出现的文本、图像和其他类型内容的基本功能。
public abstract class PdfExtractor : IDisposable, IPlugin
Methods
Name | Description |
---|---|
Dispose() | IDisposable 的实现。实际上,对于 PdfExtractor 来说并不是必需的。 |
Process(IPluginOptions) | 使用指定参数开始 PdfExtractor 处理。 |
Remarks
TextExtractor
对象用于提取文本,或 ImageExtractor
用于提取图像。
Examples
该示例演示如何提取 PDF 文档的文本内容。
// create TextExtractor object to extract PDF contents
using (TextExtractor extractor = new TextExtractor())
{
// create TextExtractorOptions object to set instructions
textExtractorOptions = new TextExtractorOptions();
// add input file path to data sources
textExtractorOptions.AddInput(new FileDataSource(inputPath));
// perform extraction process
ResultContainer resultContainer = extractor.Process(textExtractorOptions);
// get the extracted text from the ResultContainer object
string textExtracted = resultContainer.ResultCollection[0].ToString();
}
See Also
- interface IPlugin
- namespace Aspose.Pdf.Plugins
- assembly Aspose.PDF