我想了解用戶的serarh術語。想想有人在尋找「紐約的主食」 - 我想了解它的位置搜索關鍵字是主食和位置是紐約。同樣,如果有人輸入「cat in hat」,解析器不應該將其標記爲位置搜索,這裏整個關鍵字是「cat in hat」。 是否有任何算法或開源庫可用於解析搜索詞並瞭解其比較(如A vs B)或其基於位置的搜索(如X中的A)?解析器解析搜索條件並提取有價值的信息
0
A
回答
3
您描述的問題稱爲information extraction。存在大量算法,最簡單的是正則表達式匹配,最好的結構化機器學習。如果您知道Python,請先嚐試使用regexps,然後看看NLTK之類的東西。
如果程序知道「NY」是位置,則可以將「NY中的主食」與「貓咪帽子」區分開來。您可以通過大寫或由於「NY」出現在名爲gazetteer的列表中。
這個問題一般是AI-complete,所以如果你想得到好的結果,那麼就需要付出很多努力。
0
不太清楚,但兩種方法按我的經驗與分析 -
定義語法可以解析的表達和收集值/參數。你可能想拿出一個關鍵詞字典,然後你可以推斷出這種搜索類型。
定義語法時要嚴格,以便表達式本身告訴您關於搜索的類型。 例如LOC:B中的A,價值$到歐元。等等。
解析器參見ANTLR/jcup & jflex。
1
你應該用GATE和http://code.google.com/p/graph-expression/這樣的語法編寫這樣的語言規則。例如: Token + in(LocationLookup)。
相關問題
- 1. 解析郵件數據(搜索MIME解析器/解碼器類)
- 2. 提高解析「* ARG」價值
- 3. 解析信息
- 4. 解析信息
- 5. 解析信息
- 6. 從url獲取json並解析信息
- 7. NSXML解析器寬度搜索條
- 8. 解析器組合信息
- 9. 解析IMAP消息並提取標題信息
- 10. CVE解析文件信息
- 11. 解析出價值
- 12. 從Python中的Web提取信息的解析器
- 13. 在PHP中解析HTML並提取值
- 14. 解析php中的文本文件並檢索信息
- 15. 從解析器數據中獲取特定索引的信息
- 16. JSON解析 - 提取值
- 17. 閱讀並提取XML解析器?
- 18. 解析文本文件只提取所需的信息
- 19. 「條件」解析
- 20. 分析器消息解析
- 21. 提取href屬性和使用價值PHP DOM解析器
- 22. jpg文件解析提取信息/文本
- 23. html解析器錯誤信息:解析器錯誤信息:服務器標記信息不正確
- 24. 解析XML文件並保留有關行號的信息
- 25. Groovy中解析XML,並獲得價值
- 26. 解析沒有樣式信息的XML?
- 27. libxml-ruby解析文件並從xml中獲取所需信息
- 28. 解析JSON,並通過它搜索
- 29. 解析文化信息
- 30. 用XPath解析DOM信息
如何使用地名錄?這是我可以採取轉儲地址和解析的東西嗎?有沒有提供此服務的服務提供商? – Shamik
@Shamik:如果你想要一個服務,那麼你可以從OpenCalais等地方獲得完整的IE服務。如果你在免費搭車,請下載維基百科數據庫轉儲並從中提取地名索引。 –
@Shamic http://dbpedia.org/提供了這一點。 –