Извлечь выделенный текст в PDF-файл

Чтобы извлечь выделенный текст в файл PDF, вы можете использовать API Aspose.PDF для .NET. Этот API предоставляет простой способ получить весь текст, выделенный в документе.

Шаг 1. Загрузите PDF-документ.

Первым шагом в извлечении выделенного текста из PDF-файла является загрузка документа с помощью API Aspose.PDF для .NET. Вы можете сделать это, создав новый экземплярDocument class и передав путь к PDF-документу в качестве параметра.

// Путь к каталогу документов.
string dataDir ="YOUR DOCUMENT DIRECTORY";
Document doc = new Document(dataDir + "ExtractHighlightedText.pdf");

Шаг 2. Просмотрите все аннотации

Следующий шаг — просмотреть все аннотации в PDF-документе. Вы можете сделать это, используяforeach цикл, вот так:

foreach (Annotation annotation in doc.Pages[1].Annotations)
{
	// Код находится здесь
}

Шаг 3. Фильтрация аннотаций текстовой разметки

Внутриforeach цикле вам нужно будет отфильтровать все аннотации, которые не являются аннотациями текстовой разметки. Вы можете сделать это, проверив, является ли аннотация экземпляромTextMarkupAnnotation сорт.

if (annotation is TextMarkupAnnotation)
{
	// Код находится здесь
}

Шаг 4. Получите выделенные фрагменты текста.

После того как вы отфильтровали все аннотации текстовой разметки, вы можете получить выделенные фрагменты текста для каждой аннотации. Вы можете сделать это, позвонив вGetMarkedTextFragments() метод наTextMarkupAnnotation объект.

TextMarkupAnnotation highlightedAnnotation = annotation as TextMarkupAnnotation;
TextFragmentCollection collection = highlightedAnnotation.GetMarkedTextFragments();

Шаг 5. Отобразите выделенный текст

Наконец, вы можете отобразить выделенный текст пользователю. Вы можете сделать это, просматривая каждыйTextFragment объект вTextFragmentCollection и звоню вText свойство.

foreach (TextFragment tf in collection)
{
	Console.WriteLine(tf.Text);
}

Пример исходного кода для извлечения выделенного текста с использованием Aspose.PDF для .NET

// Путь к каталогу документов.
string dataDir ="YOUR DOCUMENT DIRECTORY";
Document doc = new Document(dataDir + "ExtractHighlightedText.pdf");

foreach (Annotation annotation in doc.Pages[1].Annotations)
{
	if (annotation is TextMarkupAnnotation)
	{
		TextMarkupAnnotation highlightedAnnotation = annotation as TextMarkupAnnotation;
		TextFragmentCollection collection = highlightedAnnotation.GetMarkedTextFragments();
		foreach (TextFragment tf in collection)
		{
			Console.WriteLine(tf.Text);
		}
	}
}

Заключение

В этом уроке мы рассмотрели, как извлечь выделенный текст из PDF-документа с помощью Aspose.PDF для .NET. Следуя пошаговому руководству и используя предоставленный исходный код C#, разработчики могут легко извлекать выделенный текст и управлять им в своих PDF-документах.

Часто задаваемые вопросы по извлечению выделенного текста в файл PDF

Вопрос: Что такое аннотации текстовой разметки в PDF-документе?

О: Аннотации текстовой разметки — это аннотации, которые выделяют или отмечают определенный текст в PDF-документе. Примеры аннотаций текстовой разметки включают выделение, подчеркивание и зачеркивание.

Вопрос: Могу ли я извлечь текст из других типов аннотаций, используя Aspose.PDF для .NET?

О: Да, Aspose.PDF для .NET предоставляет различные методы для извлечения текста из различных типов аннотаций, включая аннотации с текстовой разметкой, произвольные текстовые аннотации и многое другое.

Вопрос: Поддерживает ли Aspose.PDF для .NET извлечение текста из PDF-файлов, защищенных паролем?

О: Да, Aspose.PDF для .NET поддерживает извлечение текста из PDF-файлов, защищенных паролем. Вам необходимо указать правильный пароль при загрузке PDF-документа с помощьюDocument сорт.

Вопрос: Могу ли я фильтровать выделенный текст по другим критериям, например по цвету или автору?

О: Да, вы можете фильтровать выделенный текст по другим критериям, таким как цвет, автор или дата создания. Aspose.PDF для .NET предоставляет методы для доступа и фильтрации аннотаций на основе их свойств.

Вопрос: Можно ли сохранить извлеченный выделенный текст в отдельный файл?

О: Да, вы можете сохранить извлеченный выделенный текст в отдельный файл или сохранить его в структуре данных для дальнейшей обработки или анализа.