我遇到了文本處理問題。我有一篇文章,我想知道有多少「真實」的單詞。如何用Perl計算文本中的「真實」單詞?
這是我的意思是「真實的」。文章通常包含各種標點符號,如短劃線,逗號,點等。我想知道的是有多少個單詞,像「-
」短劃線和「,
」逗號跳過空格等。
我試着這樣做:
my @words = split ' ', $article;
print scalar @words, "\n";
但包括有空格的話作爲各種標點符號。
所以我想用這個的:
my @words = grep { /[a-z0-9]/i } split ' ', $article;
print scalar @words, "\n";
這將匹配任何字符或數字在他們的所有單詞。你怎麼看,這是否足夠好的方式來計算文章中的詞彙?
有沒有人知道這可能是CPAN上的一個模塊嗎?
你做過任何測試嗎? – TheZ 2012-07-11 20:27:00
1)在一小段具有已知字數的示例文本上運行代碼。 2)調整你的代碼,直到它同意。 – Flimzy 2012-07-11 20:27:53
你的單詞是否包含任何非ascii字符? – TLP 2012-07-11 21:33:14