我已經做了大量的研究並閱讀了很少的論文,檢查了所有的SO Q & A,但我仍然不清楚。使用java將非結構化數據(文本)轉換爲結構化格式
I'm trying to setup a small search engine. I am crawling data using nutch and
have integrated it with solr for front end and indexing.
After crawl, I have unstructured data i.e content of entire page I crawled and
I need to structure this data into sets.
例如:我爬到其中包含有關的任何產品信息的頁面,我有其中有產品說明,大小原始文本,尺寸等
我的目標:提取關鍵字我想要說的:尺寸 - - >存儲在相關的尺寸DB柱 提取信息 - >存儲在同一行(另一列)
所以,我有在一個表中的關鍵字和描述,並取我作爲每個查詢,並輸出到用戶。
我不知道如何去構建/獲取我需要的信息,如果可能的話,我希望使用java來做到這一點。我讀了幾篇文章,但我無法遵循。任何幫助/指導將不勝感激。
請讓我知道,如果你需要更多的信息。感謝您的時間,並幫助
謝謝。我會檢查鏈接。 :) – TheUknown 2014-11-10 22:11:59