Извлечь текстовую страницу в PDF-файл
Это руководство проведет вас через процесс извлечения текста из определенной страницы PDF-файла с помощью Aspose.PDF для .NET. Приведенный исходный код C# демонстрирует необходимые шаги.
Требования
Прежде чем начать, убедитесь, что у вас есть следующее:
- Visual Studio или любой другой компилятор C#, установленный на вашем компьютере.
- Aspose.PDF для библиотеки .NET. Вы можете скачать его с официального сайта Aspose или использовать для установки менеджер пакетов, например NuGet.
Шаг 1. Настройте проект
- Создайте новый проект C# в предпочитаемой вами среде разработки.
- Добавьте ссылку на библиотеку Aspose.PDF для .NET.
Шаг 2. Импортируйте необходимые пространства имен.
В файл кода, из которого вы хотите извлечь текст, добавьте следующие директивы в верхней части файла:
using Aspose.Pdf;
using System.IO;
Шаг 3. Установите каталог документов.
В коде найдите строку с надписьюstring dataDir = "YOUR DOCUMENT DIRECTORY";
и заменить"YOUR DOCUMENT DIRECTORY"
с путем к каталогу, в котором хранятся ваши документы.
Шаг 4. Откройте PDF-документ.
Откройте существующий PDF-документ с помощьюDocument
конструктор и передав путь к входному PDF-файлу.
Document pdfDocument = new Document(dataDir + "ExtractTextPage.pdf");
Шаг 5. Извлеките текст с определенной страницы.
СоздатьTextAbsorber
объект для извлечения текста из документа. Примите поглотитель нужной страницы, открыв его черезPages
коллекцияpdfDocument
.
TextAbsorber textAbsorber = new TextAbsorber();
pdfDocument.Pages[1].Accept(textAbsorber);
Шаг 6: Получите извлеченный текст
Получите доступ к извлеченному тексту изTextAbsorber
объект.
string extractedText = textAbsorber.Text;
Шаг 7: Сохраните извлеченный текст
СоздатьTextWriter
и откройте файл, в котором вы хотите сохранить извлеченный текст. Запишите извлеченный текст в файл и закройте поток.
dataDir = dataDir + "extracted-text_out.txt";
TextWriter tw = new StreamWriter(dataDir);
tw.WriteLine(extractedText);
tw. Close();
Пример исходного кода для извлечения текстовой страницы с использованием Aspose.PDF для .NET
// Путь к каталогу документов.
string dataDir = "YOUR DOCUMENT DIRECTORY";
// Открыть документ
Document pdfDocument = new Document(dataDir + "ExtractTextPage.pdf");
// Создайте объект TextAbsorber для извлечения текста.
TextAbsorber textAbsorber = new TextAbsorber();
//Принять поглотитель для конкретной страницы
pdfDocument.Pages[1].Accept(textAbsorber);
// Получить извлеченный текст
string extractedText = textAbsorber.Text;
dataDir = dataDir + "extracted-text_out.txt";
// Создайте писатель и откройте файл
TextWriter tw = new StreamWriter(dataDir);
// Записать строку текста в файл
tw.WriteLine(extractedText);
// Закрыть поток
tw.Close();
Console.WriteLine("\nText extracted successfully from Pages of PDF Document.\nFile saved at " + dataDir);
Заключение
Вы успешно извлекли текст с определенной страницы PDF-документа с помощью Aspose.PDF для .NET. Извлеченный текст был сохранен в указанный выходной файл.
Часто задаваемые вопросы
Вопрос: Какова цель этого урока?
О: Это руководство проведет вас через процесс извлечения текста с определенной страницы PDF-файла с помощью Aspose.PDF для .NET. Сопровождающий исходный код C# демонстрирует необходимые шаги для выполнения этой задачи.
Вопрос: Какие пространства имен мне следует импортировать?
О: В файле кода, из которого вы планируете извлечь текст, включите в начало файла следующие директивы using:
using Aspose.Pdf;
using System.IO;
Вопрос: Как указать каталог документа?
О: В коде найдите строку, в которой написаноstring dataDir = "YOUR DOCUMENT DIRECTORY";
и заменить"YOUR DOCUMENT DIRECTORY"
с фактическим путем к каталогу вашего документа.
Вопрос: Как открыть существующий PDF-документ?
О: На шаге 4 вы откроете существующий PDF-документ, используяDocument
конструктор и указав путь к входному PDF-файлу.
Вопрос: Как извлечь текст с определенной страницы?
О: Шаг 5 предполагает созданиеTextAbsorber
объект для извлечения текста из PDF-документа. Затем вы примете поглотитель нужной страницы, открыв его черезPages
коллекцияpdfDocument
.
Вопрос: Как мне получить доступ к извлеченному тексту?
О: Шаг 6 поможет вам получить доступ к извлеченному тексту изTextAbsorber
объект.
Вопрос: Как сохранить извлеченный текст в файл?
О: На шаге 7 вы создадитеTextWriter
, откройте файл, в котором вы хотите сохранить извлеченный текст, запишите извлеченный текст в файл, а затем закройте поток.
Вопрос: Каков основной вывод из этого урока?
О: Следуя этому руководству, вы научились извлекать текст с определенной страницы PDF-документа с помощью Aspose.PDF для .NET. Извлеченный текст сохраняется в указанном выходном файле, что позволяет вам находить и анализировать текстовый контент с определенных страниц.