2014-11-09 115 views
0

我已經做了大量的研究並閱讀了很少的論文,檢查了所有的SO Q & A,但我仍然不清楚。使用java將非結構化數據(文本)轉換爲結構化格式

 I'm trying to setup a small search engine. I am crawling data using nutch and 
     have integrated it with solr for front end and indexing. 

     After crawl, I have unstructured data i.e content of entire page I crawled and 
     I need to structure this data into sets. 

例如:我爬到其中包含有關的任何產品信息的頁面,我有其中有產品說明,大小原始文本,尺寸等

我的目標:提取關鍵字我想要說的:尺寸 - - >存儲在相關的尺寸DB柱 提取信息 - >存儲在同一行(另一列)

所以,我有在一個表中的關鍵字和描述,並取我作爲每個查詢,並輸出到用戶。

我不知道如何去構建/獲取我需要的信息,如果可能的話,我希望使用java來做到這一點。我讀了幾篇文章,但我無法遵循。任何幫助/指導將不勝感激。

請讓我知道,如果你需要更多的信息。感謝您的時間,並幫助

回答

2

可以使用自然語言處理工具,如GATE(https://gate.ac.uk/),阿帕奇OpenNLP(https://opennlp.apache.org/),Minorthird(http://sourceforge.net/projects/minorthird/)等

你可以寫在GATE一個戲言文法創建基於註釋文中出現的詞語。例如,您可以將dimension, measurements, proportions等註釋爲dimension,然後查找下一句中的數字。

你可以看看其他的NLP工具在這裏:https://www.quora.com/What-are-the-best-Java-open-source-NLP-toolkits

+0

謝謝。我會檢查鏈接。 :) – TheUknown 2014-11-10 22:11:59