2017-08-03 133 views
0

我有一箇中等大小的製表符分隔的.txt文件 - 大約40k行。當我導入到Openrefine時,第406行將所有其餘內容(整個40,000行)放入該行第13列中的單個單元格中。將製表符分隔的文本文件導入到openrefine

我試過grep-serching兩個不同的文本編輯器(Sublime Text 2 & TextWrangler)中的看不見的東西,看起來應該是這樣。

我用Excel轉換爲CSV也試過了,實際工作,但是:

  1. 這是一個不雅的解決方法,
  2. 它具有變音符號麻煩,
  3. 我不噸要花更多的時間在Excel中解決它

我試着除了在任何一方的10行違規行,並引發同樣的問題。

Here are those 21 lines,直接從TextWrangler複製。 (我可以從終端輸出複製,如果這有什麼區別)。

任何幫助,一如既往,非常感謝!

回答

0

我明白了。問題與引號有關。嘗試通過取消選中「引號用於包含包含列分隔符的單元格」來導入文件。

enter image description here

在我的截圖空列是由於您的文件有時有兩個或三個選項卡作爲分隔符。你可以導入後使用很容易地刪除它們「重新排序/刪除列」

enter image description here

+0

你是對的 - 當我從文件複製粘貼到帖子窗口時,標籤被翻譯成空格。 這裏是一個鏈接到該文件:http://mvabl.com/mvabl.com/public/data_excerpt.txt 再次,這是「違規」行+ 10線在任何一方。所以壞行是#11 我明白@ Ettore的建議,但他們並不實際適用。 – SteveS

+0

@SteveS對不起,當我點擊鏈接時,我收到一個「URL Not Find」。 –

+0

對不起。我有mvabl.com兩次。這應該工作: http://mvabl.com/public/data_excerpt.txt – SteveS

0

解決它!好吧,有點。事實證明,第13列的文本在文本本身(換句話說,而不是必須與分隔符完全相關)中包含雙引號

現在,我只是要刪除整個文件中的那些引用,這是行得通的 - 我測試了它。 **我寧願弄清楚如何將引號保留爲文本的一部分。試圖用/逃避他們,但那並不奏效。

感謝SO社區。尤其是@Ettore。

相關問題