檢查一個字符串包含在單詞中的Java

一個文本文件，我已經從GitHub的項目，看起來一個文本文件（所有有效的英語單詞集合）這樣words.txt 檢查一個字符串包含在單詞中的Java

我的文本文件是下resources我的項目中的文件夾。

我也有從mysql中的表中獲得的行的列表。我想要做的是檢查每一行中的所有單詞是否都是有效的英文單詞，這就是爲什麼我將每行與包含在我的文件中的單詞進行比較。

這是我試過到目前爲止：

public static void englishCheck(List<String> rows) throws IOException { 
    ClassLoader classLoader = ClassLoader.getSystemClassLoader(); 
    int lenght, occurancy = 0; 
    for (String row : rows){ 

     File file = new File(classLoader.getResource("words.txt").getFile()); 


     lenght = 0; 

     if (!row.isEmpty() ){ 
      System.out.println("the row : "+row); 
      String[] tokens = row.split("\\W+"); 
      lenght = tokens.length; 
      for (String token : tokens) { 

       occurancy = 0; 
       BufferedReader br = new BufferedReader(new FileReader(file)); 

       String line; 
       while ((line = br.readLine()) != null){ 


        if ((line.trim().toLowerCase()).equals(token.trim().toLowerCase())){ 
         occurancy ++ ; 

        } 
        if (occurancy == lenght){ System.out.println(" this is english "+row);break;} 

       } 

      } 





     } 

    } 
}

這隻有在首先行，在那之後我的方法遍歷行只顯示他們忽略了對比，我想知道這是爲什麼不爲我行集的工作，它的工作原理也是，如果我預先設定我的名單像這樣List<String> raws = Arrays.asList(raw1, raw2, raw3)等

來源

2017-08-16 DevRj

超級壞主意：你在這裏創建一個n * m雙循環。你絕對不會**一次又一次地爲你的每一個單詞讀這個文件。 – GhostCat

@DevRj /words.txt中數據的格式是什麼？它是一行一行的在同一行，給一個樣本 –

提示：當你*編輯*你的源代碼...確保正確格式化它。 – GhostCat

您可以閱讀words.txt文件，轉換詞成小寫，然後坐言HashSet。

使用boolean contains(Object o)或boolean containsAll(Collection<?> c);方法來比較每個單詞。時間爲O（n）。

提示：不要在每個循環中讀取文件。讀取文件非常慢。

ClassLoader classLoader = ClassLoader.getSystemClassLoader(); 
InputStream inputStream = classLoader.getResourceAsStream("words.txt"); 
BufferedReader reader = new BufferedReader(new InputStreamReader(inputStream)); 
List<String> wordList = new LinkedList<String>(); // You do not know word count, LinkedList is a better way. 
String line = null; 
while ((line = reader.readLine()) != null) { 
    String[] words = line.toLowerCase().split("\\W+"); 
    wordList.addAll(Arrays.asList(words)); 
} 
Set<String> wordSet = new HashSet<String>(wordList.size()); 
wordSet.addAll(wordList); 


// then you can use the wordSet to check. 
// You shold convert the tokens to lower case. 
String[] tokens = row.toLowerCase().split("\\W+"); 
wordSet.containsAll(Arrays.asList(tokens));

來源

2017-08-16 09:16:50 diguage

有用的答案就像你可以直接傳遞一些值，而不是'Set wordSet = new HashSet （wordList.size（））; （wordList）;''你可以簡單地這樣做：'設置 wordSet = new HashSet （wordList）;'，謝謝 – DevRj

是的。你是對的。謝謝。 – diguage

您可以使用該方法List#containsAll(Collection)

如果此列表包含指定集合的所有元素，則返回true。

讓我們假設你有兩個列表flled myListFromRessources和myListFromRessources那麼你可以做：

List<String> myListFromRessources = Arrays.asList("A", "B", "C", "D"); 
List<String> myListFromRessources = Arrays.asList("D", "B"); 

boolean myInter = myListFromRessources.containsAll(myListFromSQL); 
System.out.println(myInter); 
myListFromSQL = Arrays.asList("D", "B", "Y"); 
myInter = myListFromRessources.containsAll(myListFromSQL); 
System.out.println(myInter);

來源

2017-08-16 09:12:38

您還想添加一些關於可能立即將該文件讀入內存的信息。 – GhostCat

不是真的，這就是爲什麼我寫道：***「讓我們假設你有兩個列表填充」*** ...我假設OP知道如何做，因爲他沒有在代碼中提及任何問題... –

我的文件是從github項目下載的一組英文單詞，並且我對我的SQL表包含的內容沒有清楚的認識，它可能包含一些無意義的單詞（'row =「ghsjgsdh hg.hg」'' ）或半英語單詞row =「半英語句子hkdojgsv hdh」）或有效的一行=「有效英語句子」'，我似乎無法理解您的建議如何適合我的情況 – DevRj

您的代碼不起作用的原因是occurancy不能超過0或1以外的任何其他你可以看到，按照邏輯或通過調試器去。

如果您的words.txt文件不是太大，並且您有足夠的RAM可用，則可以通過在開始時將words.txt文件讀入內存來加速處理。此外，你只需要一次調用toLowerCase（），而不是每次比較。但是，請注意區域設置。只要您沒有任何非英文字符，如德語eszett或希臘語西格瑪，以下代碼應該可以工作。

public static void englishCheck(List<String> rows) throws IOException { 
    final URI wordsUri; 
    try { 
     wordsUri = ClassLoader.getSystemResource("words.txt").toURI(); 
    } catch (URISyntaxException e) { 
     throw new AssertionError(e); // can never happen 
    } 

    final Set<String> words = Files.lines(Paths.get(wordsUri)) 
      .map(String::toLowerCase) 
      .collect(Collectors.toSet()); 

    for (String row: rows) 
     if (!row.isEmpty()) { 
      System.out.println("the row : " + row); 
      String[] tokens = row.toLowerCase().split("\\W+"); 
      if (words.containsAll(Arrays.asList(tokens))) 
       System.out.println(" this is english " + row); 
     } 
}

來源

2017-08-16 12:50:11

檢查一個字符串包含在單詞中的Java

回答

相關問題