我正在閱讀此slide。我很難理解這種方法。使用Solr和TIKA恢復解析
我的兩個查詢是:
- 如何
Solr
保持semi-structured document
像 簡歷(如姓名,技能,教育等) - 可以
Apache TIKA
提取PDF文件的部分智慧信息架構?由於每個簡歷都有不同的部分,我如何定義實體的通用模式?
我正在閱讀此slide。我很難理解這種方法。使用Solr和TIKA恢復解析
我的兩個查詢是:
Solr
保持semi-structured document
像 簡歷(如姓名,技能,教育等)Apache TIKA
提取PDF文件的部分智慧信息架構?由於每個簡歷都有不同的部分,我如何定義實體的通用模式?您定義的模式,讓你得到的字段,你期望並可以基於你想要做什麼樣的查詢不同字段進行搜索。您可以將任何未知(即您不確定其所屬的位置)值歸入公共搜索字段,並將該字段排在較低的位置。
您必須自己解析Tika(或其他PDF/docx解析器)的響應。僅僅使用Tika本身不會給你一個自動結構化的響應,以適應你想要解決的問題。將會有大量的手動解析並嘗試理解上傳文檔的內容,然後將相關數據插入到相關字段中。
我們用solr和elastic search做了很多實現。
並得到了兩方面的挑戰
您需要使用Resume Parser,如www.rchilli.com,Sovrn,daxtra,hireability或任何其他人,並使用他們的輸出和映射到您的模式。最好的部分是你可以訪問分類法來增強你的內容。 您可以根據您的預算和需求使用任何一種。但對於我們來說,RChilli工作得最好。
讓我知道你是否需要任何進一步的幫助。