如何將word文檔/ pdf /圖像的部分（每頁多頁）作爲單獨的圖像/ word文檔/ pdf進行提取？

下面是基本問題：我有大約10,000個包含數據塊的文檔。每個塊都被編號並且還有一個伴隨圖像。我需要以某種方式將這些單獨的塊存儲爲一個數據庫作爲圖像（文本將是偉大的，但閱讀下面的註釋），沒有編號。如何將word文檔/ pdf /圖像的部分（每頁多頁）作爲單獨的圖像/ word文檔/ pdf進行提取？

我可以通過使用### QUESTIONSTART ###，### QUESTIONEND ###或其他方法讓打字員標記塊的開始和結束。 我正在嘗試將該文檔轉換爲大圖像，查找這些標籤，將標籤之間的部分作爲圖像提取出來，然後轉到下一個塊。

我一直在尋找一些API，我想我一定會裁剪圖像，一旦我找出如何獲得每個開始/結束標記的座標。有什麼建議麼？我不想寫一個像素匹配器必須去O（塊的數量* n^2）

注意：這些塊包含複雜的方程式/數學類型的東西，因此圖像。我沒有$$讓1000名打字員在TeX上接受過培訓並重新輸入整個交易。 OCR不會削減它。

2010-06-30 kdawg

我不明白你所有的問題，但在我的印象中，Tika可以幫助你。

2010-06-30 10:44:29 Istao

Tika目前只做文本/ MIME類型的解析。不知道我是否可以用它來吐出圖像。 – kdawg 2010-06-30 11:29:04

如果你能有打字員添加組標記10000個證件，爲什麼不能打字員

你可以想出一個對你和你的打字員有意義的圖像命名方案。

然後，您可以用程序從磁盤驅動器收集圖像並將它們加載到數據庫中。

2010-06-30 16:00:34

回答