破碎的報價冒號分隔值我有一個冒號分隔的文件cik.coleft.c
,它看起來像這樣:解析在bash
!J INC:0001438823:
#1 A LIFESAFER HOLDINGS, INC.:0001509607:
#1 ARIZONA DISCOUNT PROPERTIES LLC:0001457512:
#1 PAINTBALL CORP:0001433777:
$ LLC:0001427189:
& S MEDIA GROUP LLC:0001447162:
&TV COMMUNICATIONS INC.:0001479357:
'MKTG, INC.':0000886475:
11:11 CAPITAL CORP.:0001463262:
這是一個兩列csv
其中分離逗號被替換用冒號。同時,單引號用逗號轉義值,而不是冒號(分隔符)的值。
但是第一列包含冒號,這會破壞解析器。所以,當我嘗試cik.coleft.c
轉換成正常csv
...
curl -o cik.coleft.c 'https://www.sec.gov/edgar/NYU/cik.coleft.c'
in2csv --format 'csv' -d ':' -q "'" -e 'latin1' cik.coleft.c > cik.coleft.csv
...我得到四個多列。
我試着用sed
來讀行,但沒有成功。
如何將其轉換爲適當的兩列表格?
你可以選擇一個不會與'11:11'之類的東西衝突的分隔符嗎? –
那麼,唯一不正確的冒號是最後一行中的「11:11」? – Kaz
您或創建該文件的人 - 通過替換分隔符來打破格式,而無需重新分析每個字段的引用要求。在「X」分隔值文件中天真地改變分隔符會破壞信息,導致這種模糊性。 (我知道這對你沒有幫助,但這是對未來的教訓,如果別人破壞了這個文件,你可以合法地抱怨。) – rici