2011-04-05 38 views
3

我有一個PDF文件。我想在那裏搜索名字。打開PDF文件並在那裏搜索名稱

  1. 如何打開PDF並使用Ruby獲取所有文本?
  2. 是否有任何算法來查找名稱?
  3. 我應該使用什麼作爲搜索引擎:獅身人面像或更簡單的東西(只是喜歡SQL查詢)?

回答

3

棘手的問題。這些領域仍然處於語義網的研究領域。我只能建議一些曲目,但會想知道你明確的選擇。

  1. 我會使用PDF閱讀器:https://github.com/yob/pdf-reader

  2. 你可以使用一個布隆過濾器匹配一些字典。你會認爲與詞典不匹配的詞是名字......並不總是現實的,但這是第一種方法。 爲了獲得更多的名字,你可以檢查以大寫字母開頭的單詞(不是很好,但我們繼續尋找一些基本方法)。一些潛在的資源:http://snippets.dzone.com/posts/show/4235

  3. 對於您的搜索引擎,使用Rails的兩個主要選擇是Sphinx和SolR。

希望這有助於!

6

要在非結構化文本中查找正確的名稱,您嘗試解決的問題的技術名稱是Named Entity Recognition或命名實體提取。有許多不同的自然語言工具包和研究論文實施各種算法來嘗試解決這個問題。他們中的任何一個都不會獲得完美的準確性,但它可能足夠滿足您的需求。我沒有嘗試過,但Stanford Named Entity Recognizer的網頁有一個Ruby Bindings的鏈接。

+0

感謝這些鏈接,有用的資源! – apneadiving 2011-04-05 20:38:57

相關問題