text-segmentation

    40熱度

    12回答

    我試圖將字符串轉換爲使用python的單詞列表。我想利用類似以下內容: string = 'This is a string, with words!' 然後轉換爲這樣的事情: list = ['This', 'is', 'a', 'string', 'with', 'words'] 注意標點符號和空格的遺漏。什麼是最快的方式去做這件事?

    3熱度

    5回答

    我必須處理文本文件(電子書)。我想處理它,以便每行有一個句子(「換行符分隔的文件」,是的?)。我將如何使用sed UNIX實用程序來執行此任務?它是否有象「文字邊界」的符號那樣的「句子邊界」符號(我認爲GNU版本有這個符號)。請注意,句子可以以句號,省略號,問題或感嘆號結尾,最後兩個組合(例如,?,!,!?,!!!!!都是有效的「句子終止符」)。輸入文件被格式化爲某些句子包含必須刪除的換行符。 我

    33熱度

    7回答

    從文本塊中切出最後一個單詞的最佳方式是什麼? 我能想到它 斯普利特的列表(按空格),並刪除最後一個項目,然後reconcatenating列表。 使用正則表達式替換最後一個單詞。 我目前錄取辦法#1,但我不知道如何連接列表... content = content[position-1:position+249] # Content words = string.split(content, '

    7熱度

    3回答

    似乎很難在文本中檢測到句子邊界。引號像。!?可能會被用來分隔句子,但不是很準確,因爲可能存在含糊不清的單詞和引文,例如美國或教授或博士,我正在通過Jan Goyvaerts來研究Tperlregex圖書館和正則表達式食譜,但我不知道如何編寫檢測到的表達式句子? 在delphi中使用Tperlregex可能會有比較準確的表達式? 感謝

    0熱度

    1回答

    我有一個包含很多句子的(正在運行)文本。我有一個正則表達式,能夠提取由句點,問題或感嘆號結尾的句子。句子的結尾必須跟着下一句(白色空格/製表符/新行和大寫字母或數字)的開頭。我讀取存儲在數據中的字符串,並調用正則表達式。 basic_pat = re.compile(r"[(']?\w.+[)']?[?.!](?=\s+[A-Z\d])") result = basic_pat.findall(

    19熱度

    6回答

    我需要找到一個動態編程算法來解決這個問題。我嘗試過但無法弄清楚。這裏是問題: 給你一串n個字符s [1 ... n],你認爲它是一個損壞的文本文件,其中所有的標點符號都已經消失了(所以它看起來像「itwasthebestoftimes ......「)。您希望使用字典來重建文檔,該字典以布爾函數dict(*)的形式提供,以便對於任何字符串w,如果w是有效字,則dict(w)的值爲1,並且值爲0除此

    0熱度

    3回答

    如何將段落轉換爲句子?我有一個函數簽名如下: char **makeSentences(char *paragraph); 其中: paragraph是一個包含幾個句子的字符串。段落確保每個句子以句點(。)結尾,整個段落以空終止符結束。 返回一個動態分配的句子數組。 我有點困惑如何爲飛行中的句子數組分配內存。

    8熱度

    6回答

    我想寫一個函數來清理用戶輸入。 我不是想讓它完美。我寧願用小寫字母表示一些名字和縮略詞,而不用大寫字母的全段。 我認爲這個函數應該使用正則表達式,但是我對這些很不好,我需要一些幫助。 如果下面的表達式後面跟着一個字母,我想讓該字母大寫。 "." ". " (followed by a space) "!" "! " (followed by a space) "?" "? " (foll

    2熱度

    2回答

    我使用代碼here將文本拆分爲單個單詞,對於我嘗試過的所有語言(除日文和中文以外),它都非常有用。 有沒有一種方法可以調整代碼來正確標記日語和中文呢?該文件說這些語言是支持的,但它似乎沒有在適當的地方打破文字。例如,當它標記爲「新しい」時,它將它分成兩個單詞「新し」和「い」,當它應該是一個時(我不會說日語,所以我不知道這實際上是否正確,但是我已經說過這些應該都是一個詞)。有時它會跳過單詞。 我嘗試

    4熱度

    1回答

    我希望將文本拆分成句子。誰能幫我? 我還需要處理縮寫。但是我的計劃是在早期階段取代它們。先生 - >老總 import re import unittest class Sentences: def __init__(self,text): self.sentences = tuple(re.split("[.!?]\s", text)) class TestS