下面是基本問題:我有大約10,000個包含數據塊的文檔。每個塊都被編號並且還有一個伴隨圖像。我需要以某種方式將這些單獨的塊存儲爲一個數據庫作爲圖像(文本將是偉大的,但閱讀下面的註釋),沒有編號。如何將word文檔/ pdf /圖像的部分(每頁多頁)作爲單獨的圖像/ word文檔/ pdf進行提取?
我可以通過使用### QUESTIONSTART ###,### QUESTIONEND ###或其他方法讓打字員標記塊的開始和結束。 我正在嘗試將該文檔轉換爲大圖像,查找這些標籤,將標籤之間的部分作爲圖像提取出來,然後轉到下一個塊。
我一直在尋找一些API,我想我一定會裁剪圖像,一旦我找出如何獲得每個開始/結束標記的座標。有什麼建議麼?我不想寫一個像素匹配器必須去O(塊的數量* n^2)
注意:這些塊包含複雜的方程式/數學類型的東西,因此圖像。我沒有$$讓1000名打字員在TeX上接受過培訓並重新輸入整個交易。 OCR不會削減它。
Tika目前只做文本/ MIME類型的解析。不知道我是否可以用它來吐出圖像。 – kdawg 2010-06-30 11:29:04