2017-10-22 130 views
0

我正在閱讀此slide。我很難理解這種方法。使用Solr和TIKA恢復解析

我的兩個查詢是:

  1. 如何Solr保持semi-structured document像 簡歷(如姓名,技能,教育等)
  2. 可以Apache TIKA提取PDF文件的部分智慧信息架構?由於每個簡歷都有不同的部分,我如何定義實體的通用模式?

回答

0
  1. 您定義的模式,讓你得到的字段,你期望並可以基於你想要做什麼樣的查詢不同字段進行搜索。您可以將任何未知(即您不確定其所屬的位置)值歸入公共搜索字段,並將該字段排在較低的位置。

  2. 您必須自己解析Tika(或其他PDF/docx解析器)的響應。僅僅使用Tika本身不會給你一個自動結構化的響應,以適應你想要解決的問題。將會有大量的手動解析並嘗試理解上傳文檔的內容,然後將相關數據插入到相關字段中。

0

我們用solr和elastic search做了很多實現。
並得到了兩方面的挑戰

  1. 定義架構和更具體的獲取文件定模式
  2. 隨後擴大搜索條件,更準確,更有效的匹配。 Solr,Elastic可以匹配從內容獲得的內容,但不能超出內容。

您需要使用Resume Parser,如www.rchilli.com,Sovrn,daxtra,hireability或任何其他人,並使用他們的輸出和映射到您的模式。最好的部分是你可以訪問分類法來增強你的內容。 您可以根據您的預算和需求使用任何一種。但對於我們來說,RChilli工作得最好。

讓我知道你是否需要任何進一步的幫助。