inverted-index

1熱度

3回答

我有嵌套的python字典形式的完全倒排索引。其結構爲： {字：{DOC_NAME：[location_list]}} 例如讓字典被稱爲索引，然後一個字「垃圾郵件」，進入類似於： {垃圾郵件：{doc1.txt：[102300399]，doc5.txt：[200587]}} ，使得含有任何字的文件可以通過指數[字] .keys（）給出，並該文件中的頻率由len（index [word] [doc

2熱度

1回答

我創建倒排索引的網站，但在哪裏存儲？搜索引擎的數據庫？

有什麼可以爲搜索引擎數據庫？一個網站，其中一個可以存儲它使程序可以創建其他站點的索引，並將其保存得創建倒排索引後，我的意思。之後索引器可以查詢它們。因爲指數可能在千億之內。 Thanksyou

2熱度

2回答

幫助建立倒排索引

這是我爲學校做的一項信息檢索工作。計劃是使用該單詞的前兩個字母作爲關鍵字以及將這兩個字母保存爲字符串值的任何單詞創建單詞的哈希表。所以，的HashMap [「BA」] =「壞大麥基地」一旦我做了標記化而行我採取的HashMap，序列化，並將其追加到關鍵命名的文本文件。這個想法是，如果我把數據分散到數百個文件中，我會減少每個文件的密度以減少搜索的時間。我遇到的問題是，當我在每次運行中製作超過1

3熱度

2回答

搜索引擎中的倒排索引

我正在嘗試編寫一些代碼來製作一個用於從文件中搜索文本的小應用程序。文件應該被抓取，我需要把一個倒排索引來提高搜索。我的問題是，我有點關於解析器是如何的想法;我願意在查詢中實現AND，NOT或OR。鑑於我無法弄清楚我的索引應該如何......我從來沒有創建一個倒排索引，所以如果有人可以提出一個可行的方法來做到這一點，我將非常感激。我理論上知道它是如何工作的，但我的問題是我絕對不知道如何在MyS

1熱度

1回答

如何獲取python文件中的字節偏移量

我正在使用hadoop和python製作一個倒排索引。我想知道如何在python中包含一行/字的字節偏移量。我需要的是這樣的 hello [email protected] 我需要做一個完整的倒排索引的位置。請幫忙。

1熱度

1回答

MySQL：搜索文件內容的最佳方式（全文搜索）

我目前正在開發一個網站，該網站允許用戶上傳演示文稿，文檔和電子書（如scribd和slideshare），因此我需要能夠搜索文件的內容。我目前正在從txt文件中的文件中提取文本。我正在考慮2個選項，因爲我使用的是MySQL：儲存在一個單獨的表和使用MySQL的全文索引，通過它來搜索純文本。使用倒排索引來存儲單詞並在其中搜索。（2個新表格 - 文檔表格中的文字和多對多文件）。現在，在這種情況

4熱度

1回答

如何在倒排索引結構中搜索短語查詢？

如果我們想要在倒排索引結構中搜索像這樣的「t1 t2 t3」（t1，t2，t3必須排隊）查詢，我們應該採用哪種方式？ 1-首先我們搜索「t1」項並找到所有包含「t1」的文檔，然後對「t2」和「t3」執行此項工作。然後找到文件「t1」，「t2」和「t3」的位置彼此相鄰。 2-首先我們搜索「t1」項並找到所有包含「t1」的文檔，然後在我們找到的所有文檔中，我們搜索「t2」，然後在這個結果中找到文檔包含

1熱度

1回答

與SphinxSE和RT索引有關的一些問題

我認爲在我的一個項目中使用Sphinx搜索，所以我有幾個與它相關的問題。當使用SphinxSE和RT索引時，SphinxSE表中的每個UPDATE或INSERT都會更新索引，對嗎？無需調用索引器或任何東西？我可以在兩個標籤（用戶輸入的文檔關鍵字）和內容上進行搜索，併爲標籤匹配提供更多相關性嗎？如果可能我該如何實現標籤搜索（現在我將它們放在單獨的表中，例如倒排索引）對於fillter屬性，最好

16熱度

2回答

搜索引擎如何合併來自倒排索引的結果？

搜索引擎如何合併來自倒排索引的結果？例如，如果我搜索單詞「dog」和「bat」的倒排索引，則會有兩個包含這兩個單詞之一的大文本列表。我懷疑搜索引擎每次遍歷這些列表，一次一個文檔，並試圖找到匹配的列表結果。通過算法完成這個合併過程的速度如何？