2014-12-20 48 views
-6

我不是程序員或者......我剛發現這個網站適合問我的問題,所以請儘量幫助我,就像你幫助初學者一樣。 (但我知道c和PHP和HTML律位)查找並保存大文本文件中的2個特定短語之間的所有單詞

這裏是我的問題

我已保存網頁的源如「的Source.txt」的文件,現在我想找到文本中位於<h4></h4>之間的所有單詞。我需要一個命令打開「的Source.txt」,然後找兩個詞組之間的單詞,並保存在不同線路的每個字,並最終將其保存在如「result.exe」

,比如我有:

<h4>Barton Fink</h4></a>what is your name<br /><h4>Flyer123</h4></a>my name is pimp<br /><h4>mr.jaghi</h4></a>LoL<br />

,我想我的輸出是:

巴頓芬克

傳單123

mr.jaghi

確保它很容易做手工的短代碼但對我來說它是一個很長的網頁,有超過十萬的需要進行內吸取

BTW這些詞使用即時通訊Windows平臺請告訴我一個辦法使用CMD如果可能的話,或者如果不告訴我最簡單的方法

+0

你有任何代碼顯示你自己嘗試過嗎?在這裏協助解決代碼問題。不要爲你寫一個程序。 – lecardo

+0

不幸的是,如果我提出錯誤的問題,或者如果錯誤的地方問了,但是沒有其他地方我能想到,而且它對我很重要,我不會問。我希望這個體面的網站的一些天才成員可以幫助我。 –

+0

''標籤無效。 – BLUEPIXY

回答

0

可以如下,在PowerShell中使用正則表達式。

[regex]::Matches((Get-Content source.txt), "<h4>(.+?)</h4>") | foreach{$_.Groups[1].Value} | OUt-File -FilePath "result.txt" 
+0

就像一個魅力男人一樣工作 –

相關問題