我是一個沒有經驗的程序員在包含我嘗試處理的數據的大文本文件中處理新問題。這裏是什麼,我看着屏幕捕獲(使用「少」 - 我是一個Linux服務器上):文本文件包含奇怪字符的行 - 想要修復
https://drive.google.com/file/d/0B4VAqfRxlxGpaW53THBNeGh5N2c/view?usp=sharing
生物信息學家會識別此文件爲「的fastq」文件包含DNA序列數據。屏幕截圖的上半部分包含預期格式的數據(我承認它包含一些「奇怪」的字符,但這不是問題)。然而,下半部分(有許多字符用白色陰影)完全搞砸了。如果我要向下滾動該文件,它將在大約500行後最終返回到正常文本。我想修復它,因爲它正在破壞我正在執行的下游操作(它正好在文件中抱怨這個位置)。
有沒有辦法來grep和刪除陰影線?或者,我可以通過某種方式修改有問題的行上的編碼來解決這個問題嗎?
感謝
把圖片輸出的文字形式在你的問題..它會更容易測試和刪除,以獲得您的預期輸出 – repzero 2015-02-11 22:57:37
@Xorg - 我不認爲這會奏效。問題(我認爲)是陰影字符不是文字,而是控制字符和十六進制代碼的終端表示(我相信這也是爲什麼你的正則表達式沒有影響)。當我複製並粘貼到SO時,這些字符只會轉換爲它們的文字表示形式,所以對測試無用。我需要一些方法來識別這些特殊字符並擺脫它們。我今天用awk取得了一些成功,一旦我按照需要工作,就會發布。 – santayana 2015-02-12 01:46:13