2014-04-24 58 views
3

我正在研究一個項目,需要一個工具或API以檢測大文本中的句子片段。有很多解決方案,例如OpenNLP用於檢測給定文件中的句子。但是,我找不到任何明確的解決方案來找到不屬於任何語法正確句子的單詞,短語或事件字符組合。如何自動檢測文本文件中的句子片段

任何幫助將不勝感激。

感謝,

Lorderon

回答

1

你可以使用正克作爲一個變通:

假設你有一個大的集合與參考實際句子的文本。您可以提取1,2,3,4,5或更多單詞的所有序列,然後在文本中再次檢查文本中的片段是否以n-gram形式存在。

您可以直接從谷歌:http://googleresearch.blogspot.de/2006/08/all-our-n-gram-are-belong-to-you.html下載n-grams,但您可能需要大量流量。

你也可以自己算的n-gram在這種情況下,你可以把維基百科的分析數據集從我的網站: http://glm.rene-pickhardt.de/data/https://github.com/renepickhardt/generalized-language-modeling-toolkit以自己創建的n-gram的源代碼(或任何其他NGRAM工具包像srilm,kylm,opengrm,...)

+0

嗨雷內。感謝您的回覆。我不太確定n-gram是否會幫助我。你如何確定5克甚至3克有時不是單句?我只是想弄明白,因爲我不是一個計算語言學傢伙。 另外,當我有大量的文本數據時,如何檢查誤報是否不大。 – Lorderon