analyzer

    0熱度

    2回答

    我正在研究搜索引擎(Java J2ee,Hibernate,Hibernate Search和Lucene)。我分析文檔內容。我所有的系統都可以,但一個問題是持續存在的。 分析儀的選擇! 我的文件是法文的,因爲這些研究都是法文的,所以這很重要。 但我的搜索引擎應該能夠搜索像編程語言名稱(Java,COBOL,C,C#,C++,....) 我現在使用的是Lucene的法語分析器,問題是條款「C」,「

    13熱度

    1回答

    我需要找出哪個分析器(類型,語言..)配置在特定索引中。 我試過http://localhost:9200/wazzup/_mapping,但它只提供有關字段名稱/類型的信息。 感謝

    0熱度

    1回答

    我已經安裝了CUDA 5.0並且我的CUDA項目工作良好,但我不知道如何使用Visual Profiler分析我的CUDA項目?如何運行它? 我需要再安裝一些嗎?以及如何做到這一點? 我的電腦使用窗口7 64位,CUDA 5.0 64位,VS 2012

    0熱度

    1回答

    我正在嘗試使用Google Apps腳本製作一個小文本分析器。 我希望能夠將整個Google Doc作爲文本字符串讀取。 我試過使用editAsText()和getDataAsBlob()函數,但似乎都沒有將文檔文本作爲可讀的字符串數據返回。 有沒有人有關於如何使用Google Apps腳本執行此操作的任何建議? 非常感謝,

    1熱度

    2回答

    自定義分析時,我有這樣一個一些自定義分析儀: private static class ModelAnalyzer extends Analyzer { @Override protected TokenStreamComponents createComponents(String string, Reader reader) { return new

    0熱度

    1回答

    我正在使用ElasticSearch存儲我從Twitter Streaming API收到的Tweets。在存儲它們之前,我想將英文詞幹應用於Tweet內容,並且要做到這一點,我試圖使用ElasticSearch分析器,但沒有運氣。 這是我使用的當前模板: PUT _template/twitter { "template": "139*", "settings" : {

    1熱度

    1回答

    我使用不同的語言編制了一堆文檔,並且據我所知,我可以使用_analyzer映射指定在文檔字段之一的索引時間爲每個文檔使用哪個分析器: 看到http://www.elasticsearch.org/guide/reference/mapping/analyzer-field.html 從本質上說,法國的文檔時有一個語言字段設置爲「法國」,指示Elasticsearch它需要申請法國所產生的規則和剝離

    6熱度

    2回答

    在Elasticsearch中規範英式和美式英語是否有最佳做法? 使用Synonym Token Filter需要一個令人難以置信的長配置文件。實際上在英國和美國英語中有幾千個不同的拼寫單詞,幾乎不可能找到真正全面的單詞列表。這是一個list of almost 2.000 words,但它還遠遠沒有完成。 優選地,我想創建一個帶有rules to transform US to UK英文的ES分

    0熱度

    1回答

    我有一個非常簡單的分析儀,它試圖用空格替換正斜槓(/)。因爲QueryParser強制我在解析之前使用斜槓轉義字符串,所以我添加了MappingCharFilter到分析器,該分析器用一個空格替換「\ /」。所述分析器被定義如下: @Override protected TokenStreamComponents createComponents(String field, Reader in)

    0熱度

    2回答

    我試圖按照本指導https://blogs.oracle.com/kyle/entry/keep_your_ucm_instance_in_shape運行分析儀從殼(\ CS \ BIN)./IdcAnalyze -g 它顯示這個錯誤,而不是彈出了圖形用戶界面分析 我一直在試圖給谷歌4小時,但我得到了什麼,另外,其實我試圖清理UCM文件(約30gbs包含PDF和TIFF),這IdcAnalyzer