2017-05-06 38 views
0

我正在嘗試創建一個應用程序,它可以從任意頁面提取財務數據,而不管財務報表格式或慣例如何。所以基本上我想解析或提取字段/值,並將相同的字段寫入桌面上的CSV或Excel文件。下面的引用說明了我想要做什麼;如何從Qt中的HTML源代碼提取表格值?

解析(各HTML線) - >值 - >寫(FILE.CSV,值)

在上述過程中,我感到十分舒適約寫入CSV或Excel文件;我的問題是HTML代碼部分的解析。

顯然,我可以掃描HTML頁面的表格語法,然後提取值;但是恐怕這對於帶有多個標籤的網頁來說是徒勞的。由於每個選項卡可能會加載不同的數值,例如,財務網站可能有2個用於年報和季度報告的選項卡。我對HTML沒有經驗,但我願意學習和解決這個問題。但是在我繼續之前,我希望如果在Qt中有這樣的直接或更聰明的方式?我不想在這裏重新發明輪子。謝謝。

回答

0

您可以使用: 1.用於匹配簡單模式的QRegExp(舊類)或QRegularExpression。但是你必須學習正則表達式語法。我建議學習它例如,你可以建立表達式匹配模式,如:數據名稱:numers(lik 4354.65等)。這是多語言的通用編程解決方案。
2. QDomDocument類提供了很好的接口來分析帶樹值的ml(html,xml)文檔。 QDomDocument速度很慢,請使用mutch內存,但可以從特定的標記樹中獲取值。這很複雜。

當頁面重新加載時,製表符不成問題。簡單的HTML頁面需要設置給你所有的選項卡。只有當標籤鏈接或使用AJAX時,您需要物理「點擊」才能獲取新數據。您必須下載兩個html頁面進行解析。 一些好的頁面可以讓你的網站地圖。嘗試解析它以獲取有趣的地址。

+0

感謝兄弟:)我會嘗試你的建議。乾杯。 – Vino

相關問題