我期待從大型(約870,000,000行)文本文件中拉出某些行組。例如,在50行文件中,我可能需要第3-6,18-27和39-45行。從大型文本文件中讀取行組
從瀏覽堆棧溢出,我發現bash命令:
tail -n+NUMstart file |head -nNUMend
是讓單行或起於NUMstart和去NUMend線組的最快方法。然而,當閱讀多組線時,這看起來效率低下。通常情況下這種技術不會太重要,但是對於這樣大的文件,它會產生巨大的差異。
有沒有更好的方法去比這對每一組行使用上述命令呢?我假設答案很可能是一個bash命令,但是真正開放給任何能夠最好地完成工作的語言/工具。
我很好奇,如果這會比'awk'快得多。 – codeforester
這將掃描整個文件,最後一行之後退出的速度不能快於'awk'。 – karakfa
將'45q'添加爲最後一個命令可以解決這個問題。 –