Class PdfExtractor
Inhalt
[
Ausblenden
]PdfExtractor-Klasse
Stellt die grundlegende Funktionalität zum Extrahieren von Text, Bildern und anderen Arten von Inhalten dar, die auf den Seiten von PDF-Dokumenten auftreten können.
public abstract class PdfExtractor : IDisposable, IPlugin
Methoden
Name | Beschreibung |
---|---|
Dispose() | Implementierung von IDisposable. Tatsächlich ist es für PdfExtractor nicht notwendig. |
Process(IPluginOptions) | Startet die PdfExtractor-Verarbeitung mit den angegebenen Parametern. |
Bemerkungen
Das TextExtractor
Objekt wird verwendet, um Text zu extrahieren, oder ImageExtractor
, um Bilder zu extrahieren.
Beispiele
Das Beispiel zeigt, wie man den Textinhalt eines PDF-Dokuments extrahiert.
// create TextExtractor object to extract PDF contents
using (TextExtractor extractor = new TextExtractor())
{
// create TextExtractorOptions object to set instructions
textExtractorOptions = new TextExtractorOptions();
// add input file path to data sources
textExtractorOptions.AddInput(new FileDataSource(inputPath));
// perform extraction process
ResultContainer resultContainer = extractor.Process(textExtractorOptions);
// get the extracted text from the ResultContainer object
string textExtracted = resultContainer.ResultCollection[0].ToString();
}
Siehe auch
- Schnittstelle IPlugin
- Namespace Aspose.Pdf.Plugins
- Assembly Aspose.PDF