2016-11-16 23 views
1

我試圖將NLP應用於OCR文檔。要提取命名實體,如何使用文檔中單詞的位置等功能?NLP:文檔的OCR中單詞的位置特徵

例如,我有一份健康報告,需要在特定區域提取報告中的化學術語,並避免在其他地方發生。我可以根據{top:x , left:y}的值爲此定義一個位置特徵嗎?

有沒有sklearn庫?

回答

0

您可以構建提取區域以獲取此內容。 換句話說,將具有所需內容的文檔分組在圖像中的給定區域內,然後從該區域獲取所有圖像的內容。