text-segmentation

2熱度

2回答

我是NLP領域的新成員，但是我目前的研究需要從URL地址（例如，URL）中進行一些文本解析（或稱爲關鍵字提取）。假網址， http://ads.goole.com/appid/heads 兩個約束都放在我的分析，第一個「廣告」和最後一個「頭」應該是不同的，因爲「廣告」中的「頭」是指多後綴而不是廣告。「appid」可以分解爲兩部分;即'app'和'id'，它們都在互聯網中具有語義意義。我試

-1熱度

1回答

java語句分割錯誤

我想用java語言從段落中分割句子。考慮下面的句子。我們決定從我們的辦公室去u.s.a，加拿大，非洲等..我只有rs.1十萬。所以我打電話給我爸爸，問了一些錢。他說「No.I wont」並斷開電話。我使用stanford tokenizer。 Eventhough句子we decided to go to u.s.a, canada,africa etc... from our offic

0熱度

1回答

如何運行uima-text-segmenter的例子？

我想調用uima-text-segmenter https://code.google.com/p/uima-text-segmenter/source/browse/trunk/INSTALL?r=22的API來運行一個例子。但我不`噸知道如何調用API ... 自述說， With the DocumentAnalyzer, run the following descriptor `des

1熱度

2回答

如何從投影圖準確獲取線段？

所以這基本上是非常簡單的事情，就像在獲取水平投影圖並從中獲取圖像上線條的位置一樣。但問題是，應用的門檻非常不穩定。如果我保持安全的水平，則會提取正確的行數，另一方面提取不需要的結果。例如這裏是圖像：而其水平投影：這裏是我使用來提取文本行的代碼： %complementing as text must be non zero and background should be 0 img_co

2熱度

1回答

段落到句子

我試圖將句段分段。我選擇了'。'，'？'和'！'作爲分割符號。我想： format = r'((!)|(.)|(?))' delimiter = re.compile(format) s = delimiter.split(line) ，但它給了我sre_constants.error: unexpected end of pattern 我也試過 format = [r'(!)',r'(

2熱度

1回答

如何在RealmSwift的最大匹配算法中解決這個內存問題？

我在Swift中編寫了自己的最大匹配函數，把中文句子分成單詞。它工作正常，除非使用異常長的句子，內存使用量超過1 GB。我需要幫助弄清楚如何修改我的代碼，以避免這種內存問題。我不確定它是否與我如何使用RealmSwift有關，或者它是否是我的算法。這裏是我的代碼： func splitSentenceIntoWordsWithDictionaryMaximumMatching(string: S

0熱度

1回答

運行斯坦福中文分段器時出現UnsupportedClassVersionError

運行斯坦福中文分段器時出現UnsupportedClassVersionError。我看到其他職位說這是由於沒有更新到最新的Java版本。如下圖所示，我在我的Mac上更新了最新的Java，但問題仍然存在。

5熱度

2回答

使用動態編程進行分詞

所以首先，我對Python非常陌生，所以如果我做了一件糟糕的事情，我正在爲這篇文章寫一篇抱歉的文章。我已經分配了這個問題：我們想爲以下問題設計一個動態編程解決方案：有一串字符可能是所有空格都被刪除的單詞序列，我們想要查找一種方法，如果有的話，插入空格分隔有效的英語單詞。例如，他們可能來自「發泄你」，「青年事件」或「他們發泄」。如果輸入是eaglehaslande，那麼就沒有這種方法。你的任務是實

1熱度

1回答

被對象遮擋的文本的文本分割

我正在開發一個項目來提取車牌字符。我開發了一種由MSER開發的方法來分割具有複雜背景的車牌字符，並且效果很好。問題是，在某些情況下，如下所示，牌照的框架（牌照持有者）拼接或佔據字符的一部分。通過具有幾乎相同的顏色，字符和框架成爲單個對象。從幀中提取這些字符是不可能的，所以我無法檢測字符。我環顧四周，如果牌照的「水平投影」可以產生一些有用的東西，但它似乎也需要一個良好的偏斜校正算法，才能應用它，這

0熱度

1回答

如何在Java中使用StanfordNLP中文分詞器？

我試過下面的代碼，但代碼不起作用，只輸出null。 String text = "我愛北京天安門。"; StanfordCoreNLP pipeline = new StanfordCoreNLP(); Annotation annotation = pipeline.process(text); String result = annotation.get(CoreAnnotations.