text-segmentation

    -3熱度

    1回答

    我有一個基本上需要輸入的查詢欄; alpha = raw_input('Give me text: ') 如果Alpha是一個句子我希望它它拆分成詞,並把它們放在一個列表; word[1] = "What" word[2] = "is" word[3] = "Life" ..... 於是就 我想用(」「)運行一個for循環和分裂。但我確定有一個更簡單的方法。乾杯!

    1熱度

    5回答

    所以我得到了一個完整的字符串(大約10k字符),然後在該字符串中搜索一個單詞(或許多單詞)。用regex(word).Matches(scrappedstring)。 但是如何去提取包含那個單詞的整個句子。我正在考慮在搜索到的單詞後面加一個子串,直到第一個點/感嘆號/問號/等。但是如何在搜索到的單詞之前拿出這個句子的部分呢? 或者也許有更好的邏輯?

    0熱度

    2回答

    我想循環顯示Word文檔中的所有句子,並將它們解析爲半HTML代碼。在測試過程中,我遇到了一個有趣的情況,任何一個句子後跟一個非關閉的句子都會被跳過。例如,如果我有以下兩個句子: 這是帶有特殊字符的段落中的第一個句子和 應該有一個句子。這是第二個句子 應該有。** 當我穿過paragraph.range.sentences每句循環,我只得到了第一句和「**」,在結束這段落。但是,如果我在期間和as

    3熱度

    4回答

    我需要將字符串拆分爲單詞,以使每個單詞來自字典。還要確保選擇左側最長的單詞。因此 thisisinsane => this is insane (correct as longest possible word from left) thisisinsane => this is in sane(wrong) Assuming 'this', 'is', 'in', 'insane' are

    0熱度

    3回答

    我有與此鏈接Python extract sentence containing word中討論過的問題相同的問題,但區別在於我想在同一句中找到2個單詞。我需要從包含2個特定單詞的語料庫中提取語句。有人可以幫助我嗎?

    1熱度

    1回答

    給定段落,我想將它拆分成句子。目前,我只是這樣做: var sentences = paragraph.split('.'); 它的工作原理在大多數情況下,但開始時它給了一句這樣的失敗: 阿拉斯加是美國最大的國家 因爲U.S.有句點,所以解析出S爲句子。 確定段落中句子的最佳方式是什麼?我想根據大寫字母前的最後一段來解析它們,但是如果段落輸入不正確(在句號後面輸入一個小寫字母),它也會失敗

    2熱度

    2回答

    我有一個很大的文本字符串,我試圖根據「。?!」將它拆分爲句子。但是,我的正則表達式不工作,有人可以指導我檢測錯誤? String str = "When my friend said he likes deep dish pizza one day, I immediately set a time to come back to Little Star. Arguably, the best d

    5熱度

    5回答

    句子字符串預計是由空格分隔的一組單詞,例如, 「現在是時候了」。 showWords作業是輸出每行一句的單詞。 這是我的功課,我想,你可以從下面的代碼中看到。我無法弄清楚如何以及使用哪個循環來逐字輸出...請幫助。 import java.util.Scanner; public class test { public static void main(String[] args)

    13熱度

    6回答

    我已經從文檔中提取了句子的列表。我正在預處理這個句子列表以使它更明智。我面臨着以下問題 我有句如"more recen t ly the develop ment, wh ich is a po ten t " 我想使用查找字典來糾正這樣的句子?去除不需要的空間。 最終的輸出應"more recently the development, which is a potent " 我會認爲這是在預處

    0熱度

    1回答

    是否有任何可用的字庫統計一些象形文字語言(例如:中文,日文,韓文...)? 我發現MS Word有效地計算了這些語言的文本。我可以在我的.NET應用程序中添加對MS Word庫的引用以實現此功能嗎? 或者是否有其他解決方案來實現此目的?