2011-12-22 46 views
0

是否有可能通過iText獲取頁面標題?獲得PDF標題頁

  • PdfTextExtractor返回頁面中的所有文本,但我不知道標題是什麼行。此外,標題可能包含多個線
  • 我不知道標題的座標,因此,我無法使用RegionTextRenderFilter
  • 我可以嘗試分析字體大小,並採取用最大的字體,但TextRenderInfo線(S)不提供公共訪問gs(private final GraphicsState gs
  • 任何其他想法?

回答

1

PDF中的頁面沒有標題,它們只是文本出現粗體或大字體,並且出現在您認爲比其他文本片段「更高」的區域。聽起來你已經知道了,我只需要清楚這一點。

請參閱my post here其中顯示如何通過繼承ITextExtractionStrategy來獲取字體信息。我的示例目標是iTextSharp,它是iText的.Net端口,但它們的功能相當。最大的區別是Java使用getXXXsetXXX,而.Net僅爲兩者使用XXX。否則,一切都應該移植得很好。

故事的寓意是,你將不得不寫一些武斷的規則來定義你認爲的「標題」,然後根據這些規則進行解析。