Class TextExtractorOptions
Inhalt
[
Ausblenden
]TextExtractorOptions-Klasse
Stellt Optionen zur Textextraktion für das TextExtractor-Plugin dar.
public sealed class TextExtractorOptions : PdfExtractorOptions
Konstruktoren
Name | Beschreibung |
---|---|
TextExtractorOptions() | Initialisiert eine neue Instanz des TextExtractorOptions -Objekts mit dem Textformatierungsmodus ‘Raw’ (Standard). |
TextExtractorOptions(TextFormattingMode) | Initialisiert eine neue Instanz des TextExtractorOptions -Objekts für den angegebenen Textformatierungsmodus. |
Eigenschaften
Name | Beschreibung |
---|---|
FormattingMode { get; } | Gibt den Formatierungsmodus zurück. |
Inputs { get; } | Gibt die Datensammlung des PdfExtractor-Plugins zurück. |
override OperationName { get; } | Gibt den Namen der Operation zurück. |
Methoden
Name | Beschreibung |
---|---|
AddInput(IDataSource) | Fügt der Datensammlung des PdfExtractor-Plugins eine neue Datenquelle hinzu. |
Weitere Mitglieder
Name | Beschreibung |
---|---|
enum TextFormattingMode | Definiert verschiedene Modi, die beim Konvertieren eines PDF-Dokuments in Text verwendet werden können. Siehe TextExtractorOptions -Klasse. |
Bemerkungen
Das TextExtractorOptions
-Objekt wird verwendet, um TextFormattingMode
und andere Optionen für die Textextraktionsoperation festzulegen. Außerdem erbt es Funktionen zum Hinzufügen von Daten (Dateien, Streams), die Eingabe-PDF-Dokumente darstellen.
Beispiele
Das Beispiel zeigt, wie man den Textinhalt eines PDF-Dokuments extrahiert.
// create TextExtractor object to extract PDF contents
using (TextExtractor extractor = new TextExtractor())
{
// create TextExtractorOptions object to set TextFormattingMode (Pure, or Raw - default)
extractorOptions = new TextExtractorOptions(TextExtractorOptions.TextFormattingMode.Pure);
// add input file path to data sources
extractorOptions.AddInput(new FileDataSource(inputPath));
// perform extraction process
ResultContainer resultContainer = extractor.Process(extractorOptions);
// get the extracted text from the ResultContainer object
string textExtracted = resultContainer.ResultCollection[0].ToString();
}
Siehe auch
- Klasse PdfExtractorOptions
- Namespace Aspose.Pdf.Plugins
- Assembly Aspose.PDF