Извлечь текст из области страницы в PDF-файле

Это руководство проведет вас через процесс извлечения текста из определенной области на странице в файле PDF с помощью Aspose.PDF для .NET. Приведенный исходный код C# демонстрирует необходимые шаги.

Требования

Прежде чем начать, убедитесь, что у вас есть следующее:

Visual Studio или любой другой компилятор C#, установленный на вашем компьютере.
Aspose.PDF для библиотеки .NET. Вы можете скачать его с официального сайта Aspose или использовать для установки менеджер пакетов, например NuGet.

Шаг 1. Настройте проект

Создайте новый проект C# в предпочитаемой вами среде разработки.
Добавьте ссылку на библиотеку Aspose.PDF для .NET.

Шаг 2. Импортируйте необходимые пространства имен.

В файл кода, из которого вы хотите извлечь текст, добавьте следующие директивы в верхней части файла:

using Aspose.Pdf;
using System.IO;

Шаг 3. Установите каталог документов.

В коде найдите строку с надписьюstring dataDir = "YOUR DOCUMENT DIRECTORY"; и заменить"YOUR DOCUMENT DIRECTORY" с путем к каталогу, в котором хранятся ваши документы.

Шаг 4. Откройте PDF-документ.

Откройте существующий PDF-документ с помощьюDocumentконструктор и передав путь к входному PDF-файлу.

Document pdfDocument = new Document(dataDir + "ExtractTextAll.pdf");

Шаг 5. Извлеките текст из области страницы.

СоздатьTextAbsorber объект для извлечения текста из документа. НастройтеTextSearchOptions чтобы ограничить поиск определенной областью страницы, определенной прямоугольником.

TextAbsorber absorb = new TextAbsorber();
absorb.TextSearchOptions.LimitToPageBounds = true;
absorb.TextSearchOptions.Rectangle = new Aspose.Pdf.Rectangle(100, 200, 250, 350);
pdfDocument.Pages[1].Accept(absorb);

Шаг 6: Получите извлеченный текст

Получите доступ к извлеченному тексту изTextAbsorber объект.

string extractedText = absorb.Text;

Шаг 7: Сохраните извлеченный текст

СоздатьTextWriter и откройте файл, в котором вы хотите сохранить извлеченный текст. Запишите извлеченный текст в файл и закройте поток.

TextWriter tw = new StreamWriter(dataDir + "extracted-text.txt");
tw.WriteLine(extractedText);
tw. Close();

Пример исходного кода для извлечения текста из области страницы с использованием Aspose.PDF для .NET

// Путь к каталогу документов.
string dataDir = "YOUR DOCUMENT DIRECTORY";
// Открыть документ
Document pdfDocument = new Document(dataDir + "ExtractTextAll.pdf");
// Создайте объект TextAbsorber для извлечения текста.
TextAbsorber absorber = new TextAbsorber();
absorber.TextSearchOptions.LimitToPageBounds = true;
absorber.TextSearchOptions.Rectangle = new Aspose.Pdf.Rectangle(100, 200, 250, 350);
// Примите поглотитель на первой странице
pdfDocument.Pages[1].Accept(absorber);
// Получить извлеченный текст
string extractedText = absorber.Text;
// Создайте писатель и откройте файл
TextWriter tw = new StreamWriter(dataDir + "extracted-text.txt");
// Записать строку текста в файл
tw.WriteLine(extractedText);
// Закрыть поток
tw.Close();

Заключение

Вы успешно извлекли текст из определенной области на странице PDF-документа с помощью Aspose.PDF для .NET. Извлеченный текст был сохранен в указанный выходной файл.

Часто задаваемые вопросы

Вопрос: Какова цель этого урока?

О: Это руководство призвано помочь вам выполнить процесс извлечения текста из определенной области на странице в файле PDF с помощью Aspose.PDF для .NET. Сопровождающий исходный код C# содержит пошаговые инструкции для выполнения этой задачи.

Вопрос: Какие пространства имен мне следует импортировать?

О: В файле кода, из которого вы собираетесь извлечь текст, включите в начало файла следующие директивы using:

using Aspose.Pdf;
using System.IO;

Вопрос: Как указать каталог документа?

A: Найдите строкуstring dataDir = "YOUR DOCUMENT DIRECTORY"; в коде и замените"YOUR DOCUMENT DIRECTORY" с фактическим путем к каталогу вашего документа.

Вопрос: Как открыть существующий PDF-документ?

О: На шаге 4 вы откроете существующий PDF-документ, используяDocument конструктор и указав путь к входному PDF-файлу.

Вопрос: Как извлечь текст из определенной области страницы?

О: Шаг 5 предполагает созданиеTextAbsorberобъект для извлечения текста из PDF-документа. Затем вы настроитеTextSearchOptions определить конкретную прямоугольную область на странице с помощью координат.

Вопрос: Как мне получить доступ к извлеченному тексту?

О: Шаг 6 поможет вам получить доступ к извлеченному тексту изTextAbsorber объект.

Вопрос: Как сохранить извлеченный текст в файл?

О: На шаге 7 вы создадитеTextWriter, откройте файл, в котором вы хотите сохранить извлеченный текст, запишите извлеченный текст в файл, а затем закройте поток.

Вопрос: Каков основной вывод из этого урока?

О: Следуя этому руководству, вы научились извлекать текст из определенной области на странице PDF-документа с помощью Aspose.PDF для .NET. Извлеченный текст сохраняется в указанном выходном файле, что позволяет вам точно нацелиться и проанализировать желаемое текстовое содержимое.

Извлечь весь текст из PDF-файла Извлечь текстовую страницу в PDF-файл