我有一個ASCII文本文件。我想使用一個或多個Ubuntu命令從該文件生成所有「單詞」列表。一個詞被定義爲分隔符之間的一個字母序列。分隔符默認情況下是空格,但我也想嘗試其他字符,如標點符號等。換句話說,我希望能夠指定一個分隔符字符集。我如何只生成一組獨特的單詞?如果我還想只列出那些長度至少爲N個字符的單詞,該怎麼辦?如何從ubuntu的文本文件生成(唯一)單詞列表?
4
A
回答
9
你可以使用grep:
-E「\ w +」搜索詞 -o只打印匹配 %的貓溫度 一些示例使用該行的部分「敏捷的棕色狐狸跳過了懶狗「 而不是」Lorem ipsum dolor sit amet,consectetur adipiscing elit「 例如文本。
如果你不小心的話是否重複
% grep -o -E '\w+' temp
Some
examples
use
The
quick
brown
fox
jumped
over
the
lazy
dog
rather
than
Lorem
ipsum
dolor
sit
amet
consectetur
adipiscing
elit
for
example
text
如果你想只打印每個詞一次,無論情況下,你可以使用排序
-u只打印每個詞一次 - ˚F告訴排序比較的話
如果你只是想每一個字時忽略的情況下,一旦
% grep -o -E '\w+' temp | sort -u -f
adipiscing
amet
brown
consectetur
dog
dolor
elit
example
examples
for
fox
ipsum
jumped
lazy
Lorem
over
quick
rather
sit
Some
text
than
The
use
,你也可以使用tr
命令
echo the quick brown fox jumped over the lazydog | tr -cs 'a-zA-Z0-9' '\n'
the
quick
brown
fox
jumped
over
the
lazydog
的-c
是指定字符的補充; -s
排除了重複的替換; 'a-zA-Z0-9'是一組字母數字,如果你在這裏添加一個字符,輸入將不會在那個字符上被分隔(參見下面的另一個例子)。 '\ n'是替換字符(換行符)。
echo the quick brown fox jumped over the lazy-dog | tr -cs 'a-zA-Z0-9-' '\n'
the
quick
brown
fox
jumped
over
the
lazy-dog
我們加入「 - 」在非分隔符列表清單,懶惰的狗被打印出來。其他輸出
echo the quick brown fox jumped over the lazy-dog | tr -cs 'a-zA-Z0-9' '\n'
the
quick
brown
fox
jumped
over
the
lazy
dog
摘要TR:任何字符不是在-c
參數,將作爲一個分隔符。我希望這也能解決你的分隔符問題。
0
這應該爲你工作:
tr \ \\t\\v\\f\\r \\n | | tr -s \\n | tr -dc a-zA-Z0-9\\n | LC_ALL=C sort | uniq
如果您想獲得至少5個字符,管tr
通過grep .....
輸出的字符。如果您希望區分大小寫,請在sort
之前將tr A-Z a-z
粘貼到某個位置。
請注意,LC_ALL=C
是sort
正常工作所必需的。
我建議您閱讀man
頁面,瞭解您在此不理解的ant命令。
相關問題
- 1. 從網頁上的單詞列表生成純文本文件
- 2. bash shell腳本讓mac從文件生成單詞列表?
- 3. 從文件名生成唯一散列
- 4. 如何生成單詞列表的所有唯一組合?
- 5. 從單詞生成單詞列表
- 6. 如何從製表符分隔的文本文件中提取唯一的單詞列表?
- 7. 從單詞列表中生成.html文件?
- 8. 讀取單詞格式的文本文件(單個單詞排成一列)
- 9. 如何將單詞從文本文件轉換爲單向鏈接列表
- 10. 如何閱讀文本文件並使用掃描儀生成按字母順序排列的單詞列表
- 11. JQuery - 從單詞列表生成網格
- 12. 如何使用Linux shell腳本生成文本文件中唯一行的列表?
- 13. 爲每個英文單詞生成唯一序列號的算法
- 14. 從外部文件生成一定數量的隨機單詞
- 15. 如何根據表單生成文本?
- 16. MarkLogic:如何生成唯一的文檔/ xml文件名
- 17. 從單詞列表中將句子寫入文本文件 - python
- 18. 從c編程中的單詞列表生成隨機單詞
- 19. 如何匹配生成文件中列表中單詞的出現
- 20. 從文件返回單詞列表
- 21. 從文本文件中查找唯一IP地址列表
- 22. MPMediaItem生成唯一的文件名
- 23. 生成唯一的文件名
- 24. MySQL自動生成唯一文本值?
- 25. 從SharePoint列表生成自定義SharePoint同義詞庫文件
- 26. Ubuntu的從文本文件
- 27. 如何從一個文本文件中的R讀取停止詞列表
- 28. 如何從.txt文件中包含的文件名列表生成文件?
- 29. 如何生成文件名列表?
- 30. Excel VBA:基於一列中的唯一值生成fxls文件
基本上你需要一個bash或更一般的shell腳本。 – 2013-05-10 19:18:10