text-segmentation

    7熱度

    5回答

    我正在尋找一個正則表達式,它匹配不包括標點和空格的句子中的第一個單詞。例如:「這是一個句子」中的「This」。和「第一」「首先,我想說\」你好\「」 這不起作用: """([A-Z].*?(?=^[A-Za-z]))""".r

    -1熱度

    3回答

    假設我有一個像'meetateight'這樣的字符串,我需要使用動態規劃將它分成有意義的單詞,如''八'''見面''。 要判斷一個塊/段「x = x1x2x3」是多麼「好」,我給出了一個黑盒子,在輸入x上返回一個實數質量(x),使得:質量的正值很大(x)表示x接近英文單詞,而大負數表示x與英文單詞很遠。 我需要幫助設計一個相同的算法。 我試着考慮一個算法,在這個算法中,當質量下降時,我會根據它們的

    1熱度

    1回答

    我想索引一些中文文檔與索爾,但它看起來像索爾不索引一些分詞。 我使用的分析儀是IK分析儀http://code.google.com/p/ik-analyzer/。 的字段要被索引: <field name="hospital_alias_splitted" type="cn_ik" indexed="true" stored="true" multiValued="true" omitNorms

    7熱度

    6回答

    我想從文本中提取包含指定單詞的所有句子。 txt="I like to eat apple. Me too. Let's go buy some apples." txt = "." + txt re.findall(r"\."+".+"+"apple"+".+"+"\.", txt) ,但它返回我:的 [".I like to eat apple. Me too. Let's go bu

    0熱度

    2回答

    我正在使用ICU4C來音譯CJK。我想知道是否有可能在ICU中進行分詞,將中文文本分割成按照某些分詞標準定義的單詞序列。 當我嘗試音譯例如: 直接輸出html代碼而不是作爲函數返回值代後處理 使用 Transliterator* myTrans = Transliterator::createInstance("zh-Latin",UTRANS_FORWARD, err);

    5熱度

    4回答

    你如何解析一個包含自由文本,列表,表格,標題等的HTML頁面到句子中?例如 以this wikipedia page爲例。有/是: 自由文本:http://en.wikipedia.org/wiki/Neurotransmitter#Discovery 名單:http://en.wikipedia.org/wiki/Neurotransmitter#Actions 表:http://en.wiki

    4熱度

    2回答

    假設有一個像「找到一些爵士音樂並播放它」的句子,其中所有的文本都被標準化並且沒有標點符號(輸出一個語音識別庫)。 什麼在線/離線工具可以用來做「句子分割」,而不是分裂連詞的天真方法? 輸入: 找我一些爵士音樂和玩 輸出: 我找一些爵士音樂 播放

    1熱度

    3回答

    用戶(JAVA)進入了一個句子查找每個單詞的元音我有一個計劃,讓下面的輸出: 輸入了一句:我是新來的Java 我 上午 新 到 的Java 在元音:我是新來的Java = 6 我的問題是我需要得到元音由用戶輸入的句子的每個單詞。 例如,輸出應該是這樣的: 輸入了一句:我是新來的Java I(1) 上午(1) 新的(1) (1) java(2) 數在元音:我是新來的Java = 6 我使用.spli

    5熱度

    4回答

    YARQ(又一個正則表達式問題)。 我該如何將下列內容分成兩列,確保最後一列包含句子中的最後一個單詞,第一列包含其他所有內容。 x <- c("This is a test", "Testing 1,2,3 Hello", "Foo Bar", "Random 214274(%*(^(* Sample", "Some Hyphenated-Thing

    3熱度

    1回答

    我有一個平行的語料庫,其中包含阿拉伯語和波斯語約100,000個對齊的段落。 我的語料庫是一個嘈雜的語料庫,其段落是彼此不完整的翻譯(即,阿拉伯段落的部分不翻譯爲波斯語,並且標點符號也不匹配)。 爲了將段落分成句子,我使用了標點符號,但句子數不匹配。 然後,我用Microsoft Aligner來對齊句子,但結果確實是錯誤的。 如何分割和對齊語料庫的語句?