我有一個文本文件,其中包含幾乎100000條目。所有這些都在一定的模式,像
word1 word2 word3 word4
在C中獲取基於子串的唯一字符串#
但是許多內容都是重複的,所有的話都是一樣的。當我試圖讀取和形成一個數組或唯一的列表時,我正在使用一箇中間散列集來實現這一點。它工作得很好。
但基本上我想實現的只是word2的唯一條目。正如在word2是常見的,其他所有不同,我想保留任何一個條目。
e.g
cat dog lion tiger
cat dog deer bear
mouse rat bear deer
lion tiger cat dog
cat dog deer bear
在這種情況下所需的輸出將是:
cat dog lion tiger
mouse rat bear deer
lion tiger cat dog
或
cat dog deer bear
mouse rat bear deer
lion tiger cat dog
目前什麼哈希集合所賜是:
cat dog lion tiger
cat dog deer bear
mouse rat bear deer
lion tiger cat dog
對於數據集很大的情況下如何有效地實現這一點有任何建議。使用正則表達式是唯一的選擇嗎?我正在使用C#。
謝謝:)工作就像一個魅力:) – sachin11