我需要一些幫助來解決這個問題。從不同的非結構化文本文件檢索信息 - 文本挖掘?
我們有一個給定指定域的大量文檔。這些文件來自不同的來源,因此它們的結構也可能非常不同。另一方面,我有一張桌子,裏面有一些指定的字段,其中一些數字必須從文檔摘錄中填寫。
例如:
X公司具有 $ 20mio業務量在2010年$ 1,000,000,將今年 Y公司交流。
結果應該是這樣的
|| Company | Year | Volume
|| X | 2010 | 200,000
|| Y | 2010 | 1000,000
你能指出我請一些鏈接或主題,在哪裏可以找到進一步的信息如何解決這樣的問題。
我知道這裏沒有開箱即用的解決方案,但我應該在哪裏開始尋找。
在此先感謝。
嗨 感謝您的信息。如果你有關於這個話題的更多信息,請發佈他們:-) – nWorx 2010-03-26 16:01:31