我正在使用寵物搜索引擎(SE)。如何實現在搜索引擎中使用同義詞?
我現在什麼是布爾關鍵字SE,作爲被分成兩個部分庫:
指數:這是一個倒排索引,即。它與它出現
查詢原始文檔相關聯的術語:這是由用戶提供的,可以是任意複雜的布爾表達式,看起來像
(mobile OR android OR iphone) AND game
我想提高搜索引擎以一種自動將簡單查詢擴展到布爾查詢的方式,以便它包含在原始查詢中不會出現的搜索項,即。我想支持同義詞。
我需要一些幫助來構建同義詞圖。
如何計算出現在類似上下文中的單詞列表?
這裏是例如同義詞的名單我想計算:
- PSQL,pgsql裏,Postgres的,PostgreSQL的
- 手機,iphone,安卓
和同義詞,包括ngrams like:
- rdbms,關係數據庫管理系統,...
該算法不一定非常完美,我可以手動後處理結果,但至少我需要知道哪些術語與其他術語相似。
我認爲你想做的事叫做「[概率性主題建模](https://stackoverflow.com/questions/tagged/topic-modeling)」,但是不能回答這個問題。 – knb