Class PdfExtractor
Innehåll
[
Dölj
]PdfExtractor klass
Representerar grundläggande funktionalitet för att extrahera text, bilder och andra typer av innehåll som kan förekomma på sidorna av PDF-dokument.
public abstract class PdfExtractor : IDisposable, IPlugin
Metoder
Namn | Beskrivning |
---|---|
Dispose() | Implementering av IDisposable. Egentligen är det inte nödvändigt för PdfExtractor. |
Process(IPluginOptions) | Startar PdfExtractor-behandling med de angivna parametrarna. |
Kommentarer
Objektet TextExtractor
används för att extrahera text, eller ImageExtractor
för att extrahera bilder.
Exempel
Exemplet visar hur man extraherar textinnehåll från ett PDF-dokument.
// create TextExtractor object to extract PDF contents
using (TextExtractor extractor = new TextExtractor())
{
// create TextExtractorOptions object to set instructions
textExtractorOptions = new TextExtractorOptions();
// add input file path to data sources
textExtractorOptions.AddInput(new FileDataSource(inputPath));
// perform extraction process
ResultContainer resultContainer = extractor.Process(textExtractorOptions);
// get the extracted text from the ResultContainer object
string textExtracted = resultContainer.ResultCollection[0].ToString();
}
Se Även
- gränssnitt IPlugin
- namnrymd Aspose.Pdf.Plugins
- sammansättning Aspose.PDF