在 PDF 文件中搜索文本片段页面

介绍

有没有想过如何使用 Aspose.PDF for .NET 在 PDF 文档中定位特定文本段？好吧，你很幸运！在本指南中，我们将以简单的分步格式引导您完成该过程。无论您是尝试提取信息、分析文本，还是只是浏览 PDF 操作的复杂性，Aspose.PDF for .NET 都能满足您的需求。让我们开始吧！

先决条件

在开始之前，让我们确保您已获得所需的一切：

Aspose.PDF for .NET：确保已安装该库。你可以从这里.
.NET Framework：确保您的机器上安装了.NET。
开发环境：建议使用 Visual Studio 或任何支持 .NET 的 IDE。
PDF 文档：您将在其中搜索文本片段的 PDF 文件。

如果你还没有 Aspose.PDF for .NET，别担心！你可以从这里或购买这里.

导入包

在开始编码之前，将必要的包导入到项目中至关重要。这可确保所有必需的类和方法都可用于 PDF 操作任务。

using System.IO;
using Aspose.Pdf;
using Aspose.Pdf.Text;
using System;

了解了基本知识后，让我们直接进入分步指南。

步骤 1：加载 PDF 文档

该过程的第一步是将 PDF 文件加载到程序中。如果没有加载文档，就没有什么可搜索的，对吧？下面是操作方法。

//文档目录的路径。
string dataDir = "YOUR DOCUMENT DIRECTORY";
//打开文档
Document pdfDocument = new Document(dataDir + "SearchTextSegmentsPage.pdf");

dataDir ：此变量保存 PDF 文件的路径。替换"YOUR DOCUMENT DIRECTORY"与存储文件的实际目录一起。
pdfDocument ：使用Document类，我们将PDF加载到内存中。

第 2 步：设置文本搜索

现在您的文档已加载，下一步是创建一个TextFragmentAbsorber对象，它允许我们在文档中搜索特定文本。

//创建 TextAbsorber 对象来查找输入搜索短语的所有实例
TextFragmentAbsorber textFragmentAbsorber = new TextFragmentAbsorber("text");

TextFragmentAbsorber ：此对象用于捕获您要搜索的文本的所有出现位置。替换"text"使用您想要搜索的实际文本。

步骤 3：接受特定页面的吸收器

您可能并不总是想搜索整个 PDF 文档。在此示例中，我们将范围缩小到特定页面。

//接受所有页面的吸收器
pdfDocument.Pages[2].Accept(textFragmentAbsorber);

pdfDocument.Pages[2]：这表示我们仅搜索文档的第二页。您可以修改索引以定位其他页面。
Accept() ：此方法允许TextFragmentAbsorber处理指定页面内的文本。

步骤 4：提取文本片段

搜索页面后，我们将找到的文本片段提取到一个集合中。

//获取提取的文本片段
TextFragmentCollection textFragmentCollection = textFragmentAbsorber.TextFragments;

TextFragmentCollection：此集合包含在搜索过程中发现的所有文本片段实例。

步骤 5：循环遍历文本片段并提取数据

现在，让我们循环遍历每个文本片段并提取其详细信息，例如位置、字体和颜色。

//循环遍历片段
foreach (TextFragment textFragment in textFragmentCollection)
{
    foreach (TextSegment textSegment in textFragment.Segments)
    {
        Console.WriteLine("Text : {0} ", textSegment.Text);
        Console.WriteLine("Position : {0} ", textSegment.Position);
        Console.WriteLine("XIndent : {0} ", textSegment.Position.XIndent);
        Console.WriteLine("YIndent : {0} ", textSegment.Position.YIndent);
        Console.WriteLine("Font - Name : {0}", textSegment.TextState.Font.FontName);
        Console.WriteLine("Font - IsAccessible : {0} ", textSegment.TextState.Font.IsAccessible);
        Console.WriteLine("Font - IsEmbedded : {0} ", textSegment.TextState.Font.IsEmbedded);
        Console.WriteLine("Font - IsSubset : {0} ", textSegment.TextState.Font.IsSubset);
        Console.WriteLine("Font Size : {0} ", textSegment.TextState.FontSize);
        Console.WriteLine("Foreground Color : {0} ", textSegment.TextState.ForegroundColor);
    }
}

foreach (TextFragment textFragment in textFragmentCollection) ：我们循环遍历每一个TextFragment在收藏中。
foreach (TextSegment textSegment in textFragment.Segments)：每个片段内都有多个段。我们循环遍历它们以收集所有相关信息。
各种属性textSegment：这些为我们提供了有关文本的详细信息，例如其位置（X 和 Y）、字体细节、大小和颜色。

步骤 6：输出结果

最后，提取所有信息后，结果将在控制台中打印出来。这可以帮助您准确查看文本的位置及其格式细节。

为了清楚起见，这里有一个示例输出：

Text : text
Position : X: 45.0, Y: 75.0
XIndent : 45.0
YIndent : 75.0
Font - Name : Arial
Font - IsAccessible : True
Font - IsEmbedded : False
Font - IsSubset : False
Font Size : 12.0
Foreground Color : System.Drawing.Color [Black]

此输出为您提供了指定页面上文本“text”的精确位置和格式信息。

结论

就这样！您刚刚学会了如何使用 Aspose.PDF for .NET 在 PDF 文档中搜索特定文本段。处理大型 PDF 时，此过程非常方便，可让您高效地精确定位和提取关键文本。无论是分析数据、提取信息还是简单地浏览文档，Aspose.PDF 都能为您提供强大的工具来完成工作。

常见问题解答

我可以搜索多个单词或短语吗？

是的，你可以修改TextFragmentAbsorber通过改变输入字符串来搜索不同的文本。

是否可以跨多个页面进行搜索？

当然可以！您可以通过迭代来遍历 PDF 中的所有页面pdfDocument.Pages.

如何搜索不区分大小写的文本？

您可以使用TextSearchOptions启用不区分大小写的搜索。

找到文本后我可以修改它吗？

是的，一旦你找到了TextFragment，即可修改其文本属性。

此方法适用于加密的PDF吗？

是的，只要您使用正确的密码解锁 PDF。

搜索文本并绘制矩形使用 Dot Net Regex 搜索文本