我已經轉換的PDF到字txt文件。我想吐出包括製表符,返回符,空格等在內的每一個空格,以便每個單獨的單詞或一系列數字都是它自己的數組元素。它似乎並不適用於所有情況。我試圖爲...分割一個文本文件轉換成單獨的數組元素
function displayContents(txt) {
var el = document.getElementById('main');
txt = txt.replace('\t',' ');
txt = txt.replace('\r',' ');
txt = txt.replace('\n',' ');
txt = txt.split(" ");
var contents = new Array();
for(var i in txt) {
var elem = txt[i];
var reg = /\d{6}/;
if (reg.test(elem)) {
contents.push(elem);
contents.push("</br>");
}
}
el.innerHTML = contents; //display output in DOM
}
我在找什麼,這份文件特別是,是一系列的數字「112345」等...但我經常得到的結果,如「信息000100硬「。所以,很明顯,我找到了包含6位數的碎片,但我得到了額外的東西。查看帶有ms字和符號的文檔時,這些常常是空格,換行符或製表符。但並不是所有的空間都會分裂。
任何想法表示讚賞。
您可以分割使用一個正則表達式:'TXT = txt.split(/ \ S /)',然後添加似乎缺少字符:'/ [\ S \ U2001 ] /' – GitaarLAB
WOW。這比「」效果好得多。非常感謝。 –
不客氣,請注意我已經更新了我的答案。 – GitaarLAB