Extrair texto da região da página em arquivo PDF

Introdução

Trabalhar com PDFs geralmente requer a extração de conteúdo específico, seja puxando dados de formulários, tabelas ou certas seções de um documento. Neste tutorial, mostraremos como extrair texto de uma região específica de um PDF usando o Aspose.PDF para .NET. Em vez de vasculhar um documento inteiro, identificaremos exatamente onde o texto reside e o extrairemos de forma eficiente.

Pré-requisitos

Antes de começarmos o código, certifique-se de ter os seguintes itens em vigor:

Aspose.PDF para .NET: Se ainda não o fez, baixe e instale a biblioteca Aspose.PDF para .NET.Baixe Aspose.PDF para .NET.
IDE: Qualquer ambiente de desenvolvimento .NET, como o Visual Studio.
.NET Framework: certifique-se de que seu projeto esteja configurado com o .NET Framework apropriado.
Documento PDF: Um PDF de amostra do qual extrairemos o texto.

Não se esqueça que você podeobtenha um teste gratuito de Aspose.PDF ou use umlicença temporária para funcionalidade completa.

Importando Pacotes Necessários

Para começar a trabalhar com Aspose.PDF para .NET, você precisa importar os namespaces necessários para seu projeto. Esses pacotes fornecem as classes e métodos necessários para manipular documentos PDF.

using System.IO;
using Aspose.Pdf;
using Aspose.Pdf.Text;
using System;

Etapa 1: Configurando o diretório de documentos e carregando o PDF

O primeiro passo é especificar onde seu arquivo PDF está localizado e carregá-lo em seu projeto. Você pode usar um caminho de diretório local para o arquivo PDF com o qual deseja trabalhar.

// O caminho para o diretório de documentos.
string dataDir = "YOUR DOCUMENT DIRECTORY";

// Abra o documento PDF
Document pdfDocument = new Document(dataDir + "ExtractTextAll.pdf");

Esta etapa garante que o arquivo PDF seja carregado corretamente e esteja pronto para ser trabalhado. ODocument A classe da biblioteca Aspose.PDF permite que você manipule o arquivo PDF.

Etapa 2: Inicializar o Text Absorber para Extração

Nesta etapa, criamos umTextAbsorber objeto, que é projetado para extrair texto de um documento PDF. OTextAbsorber é flexível e pode ser personalizado para focar em regiões ou páginas específicas.

// Crie um objeto TextAbsorber para extrair texto
TextAbsorber absorber = new TextAbsorber();

OTextAbsorberclass é uma ferramenta poderosa que captura todo o texto dentro dos limites que você especifica.

Etapa 3: Defina a região da qual extrair o texto

É aqui que a mágica acontece. Em vez de puxar texto da página inteira, podemos limitar a extração a uma região retangular específica da página. Isso é perfeito quando você sabe exatamente onde seu conteúdo está localizado.

// Limitar a extração de texto a uma região específica
absorber.TextSearchOptions.LimitToPageBounds = true;
absorber.TextSearchOptions.Rectangle = new Aspose.Pdf.Rectangle(100, 200, 250, 350);

ORectangle objeto permite que você defina as coordenadas (em pontos) da área da qual o texto será extraído. OTextSearchOptions.LimitToPageBounds garante que somente o texto dentro do retângulo especificado seja extraído.

Etapa 4: Aceite o Absorvente na Página Desejada

Após configurar a região, o próximo passo é aceitar oTextAbsorber para a página específica da qual você quer extrair texto. Aqui, vamos focar na primeira página do PDF.

// Aceite o absorvedor para a primeira página
pdfDocument.Pages[1].Accept(absorber);

Ao chamar oAccept método na página, instruímos o Aspose.PDF a executar o absorvedor e coletar o texto da região definida.

Etapa 5: recuperar e armazenar o texto extraído

Depois que o absorber tiver feito seu trabalho, é hora de coletar o texto extraído e salvá-lo. Esta etapa envolve recuperar o texto e gravá-lo em um.txt arquivo.

// Obter o texto extraído
string extractedText = absorber.Text;

// Crie um escritor para salvar o texto extraído
TextWriter tw = new StreamWriter(dataDir + "extracted-text.txt");

// Escreva o texto no arquivo
tw.WriteLine(extractedText);

// Feche o fluxo
tw.Close();

Aqui, oTextWriter class é usada para gravar o texto extraído em um arquivo de texto. Isso garante que seu conteúdo extraído seja armazenado com segurança para uso posterior.

Conclusão

Extrair texto de uma região específica dentro de um documento PDF pode ser incrivelmente útil, especialmente ao lidar com conteúdo estruturado como formulários ou tabelas. Usando Aspose.PDF para .NET, você pode realizar essa tarefa com apenas algumas linhas de código. Ao definir uma região, inicializar umTextAbsorber, e salvando o texto extraído, você tem controle total sobre o que será extraído do seu PDF.

Quer você esteja trabalhando em um projeto pequeno ou gerenciando documentos grandes, esse método fornece uma maneira eficiente de extrair dados relevantes dos seus PDFs sem precisar vasculhar o documento inteiro.

Perguntas frequentes

Posso extrair texto de várias páginas de uma só vez?

Sim, iterando através doPages coleção dopdfDocument , você pode aplicar oTextAbsorber para várias páginas.

E se o texto estiver em uma região diferente do PDF?

Você pode ajustar facilmente oRectangle coordenadas para corresponder à região onde seu texto está localizado.

Isso funciona com PDFs digitalizados?

Não, PDFs escaneados precisam de OCR (Optical Character Recognition) para converter imagens em texto. O Aspose.PDF também oferece recursos de OCR.

Existe uma maneira de extrair texto com base em palavras-chave específicas?

Sim, você pode usarTextFragmentAbsorber para extração de texto baseada em palavras-chave.

Como faço para extrair texto de um PDF criptografado?

Primeiro, você precisará descriptografar o PDF fornecendo a senha correta e, depois, prosseguir com a extração do texto.

Extrair texto todo em arquivo PDF Extrair página de texto em arquivo PDF