Class TextExtractorOptions
内容
[
隐藏
]TextExtractorOptions class
表示 TextExtractor 插件的文本提取选项。
public sealed class TextExtractorOptions : PdfExtractorOptions
构造函数
名称 | 描述 |
---|---|
TextExtractorOptions() | 使用“原始”(默认)文本格式化模式初始化 TextExtractorOptions 对象的新实例。 |
TextExtractorOptions(TextFormattingMode) | 为指定的文本格式化模式初始化 TextExtractorOptions 对象的新实例。 |
属性
名称 | 描述 |
---|---|
FormattingMode { get; } | 获取格式化模式。 |
Inputs { get; } | 返回 PdfExtractor 插件数据集合。 |
override OperationName { get; } | 返回操作的名称。 |
方法
名称 | 描述 |
---|---|
AddInput(IDataSource) | 向 PdfExtractor 插件数据集合添加新的数据源。 |
其他成员
名称 | 描述 |
---|---|
enum TextFormattingMode | 定义在将 PDF 文档转换为文本时可以使用的不同模式。请参见 TextExtractorOptions 类。 |
备注
TextExtractorOptions
对象用于设置 TextFormattingMode
和文本提取操作的其他选项。此外,它继承了添加表示输入 PDF 文档的数据(文件、流)的功能。
示例
该示例演示如何提取 PDF 文档的文本内容。
// create TextExtractor object to extract PDF contents
using (TextExtractor extractor = new TextExtractor())
{
// create TextExtractorOptions object to set TextFormattingMode (Pure, or Raw - default)
extractorOptions = new TextExtractorOptions(TextExtractorOptions.TextFormattingMode.Pure);
// add input file path to data sources
extractorOptions.AddInput(new FileDataSource(inputPath));
// perform extraction process
ResultContainer resultContainer = extractor.Process(extractorOptions);
// get the extracted text from the ResultContainer object
string textExtracted = resultContainer.ResultCollection[0].ToString();
}
另请参阅
- class PdfExtractorOptions
- namespace Aspose.Pdf.Plugins
- assembly Aspose.PDF