2011-04-30 109 views
0

我有一個術語和短語的數據庫。
如果這些術語/短語存在於文本中,它會告訴它與什麼相關。 它可以與現有的API 2在線
http://developer.yahoo.com/search/content/V1/termExtraction.html
http://developer.zemanta.com/
進行,但結果不是我想要的。
我可以直觀地看到,它可以以非常精緻的方式完成(不是資源密集型)
存在我的問題。我無法想象如何以快速的方式做到這一點,並且資源緊張(CPU和內存)非常低
這些術語/短語以百萬計,文本字符串也是如此。 PHP是我熟悉的唯一語言。 感謝您的建議。短語在文本中搜索

回答

0

您可以使用lucene從文檔中提取術語並將它們與您的數據庫進行匹配。據我所知,lucene有一個PHP/Zend API/Port。

有一個類似的問題如何在java中使用lucene來做到這一點。這應該指向你正確的方向:Effective search on a small text