我讀了兩個文本文件:第一個包含阿拉伯文本,我將它分開。第二個包含停止詞。 我想刪除從第一個文件中的任何停止字(第二檔),但我不知道如何做到這一點:從C#中的文本文件中刪除停用詞#
FileStream fs = new FileStream(@"H:\\arabictext.txt", FileMode.Open);
StreamReader arab = new StreamReader(fs,Encoding.Default,true);
string artx = arab.ReadToEnd();
richTextBox1.Text = artx;
arab.Close();
char[] dele = {' ', ',', '.', '\t', ';','#','!' };
string[] words = richTextBox1.Text.Split(dele);
FileStream fsw = new FileStream("H:\\arab.txt", FileMode.Create);
StreamWriter arabw = new StreamWriter(fsw,Encoding.Default);
foreach (string s in words)
{
arabw.WriteLine(s);
}
在HashSet中放入停用詞「停用詞」。循環「單詞」,將任何不包含在「停用詞」中的內容寫入arabw。 –
第二個文件是如何格式化的?每行有一個詞組? –
這些文件有多大? –