2010-06-30 80 views
0

下面是基本問題:我有大約10,000個包含數據塊的文檔。每個塊都被編號並且還有一個伴隨圖像。我需要以某種方式將這些單獨的塊存儲爲一個數據庫作爲圖像(文本將是偉大的,但閱讀下面的註釋),沒有編號。如何將word文檔/ pdf /圖像的部分(每頁多頁)作爲單獨的圖像/ word文檔/ pdf進行提取?

我可以通過使用### QUESTIONSTART ###,### QUESTIONEND ###或其他方法讓打字員標記塊的開始和結束。 我正在嘗試將該文檔轉換爲大圖像,查找這些標籤,將標籤之間的部分作爲圖像提取出來,然後轉到下一個塊。

我一直在尋找一些API,我想我一定會裁剪圖像,一旦我找出如何獲得每個開始/結束標記的座標。有什麼建議麼?我不想寫一個像素匹配器必須去O(塊的數量* n^2)

注意:這些塊包含複雜的方程式/數學類型的東西,因此圖像。我沒有$$讓1000名打字員在TeX上接受過培訓並重新輸入整個交易。 OCR不會削減它。

回答

0

我不明白你所有的問題,但在我的印象中,Tika可以幫助你。

+0

Tika目前只做文本/ MIME類型的解析。不知道我是否可以用它來吐出圖像。 – kdawg 2010-06-30 11:29:04

0

如果你能有打字員添加組標記10000個證件,爲什麼不能打字員

  • 打開Word文檔
  • 複製從Word文檔
  • 圖像的圖像粘貼到畫圖
  • 將圖像保存到磁盤?

你可以想出一個對你和你的打字員有意義的圖像命名方案。

然後,您可以用程序從磁盤驅動器收集圖像並將它們加載到數據庫中。