使用java/htmlunit我想數據挖掘(網絡刮)一堆對衝基金SEC 13F申報。我不知道如何對美國證券交易委員會的.txt文件進行數據處理,如This Table。 桌子佈局看起來很整潔,但我怎樣才能抓住<Table>
以及相應的<S>
和<C>
?此外,我怎樣才能抓住公司名稱和<C>
價值(第3欄)和<C>
股份金額(第4欄)。如何使用Htmlunit數據庫財務表?
不知道如果我在正確的軌道上,但是我用的BufferedReader,不知道下一步該怎麼做的<Table>
中獲取數據......這是我到目前爲止有:
import java.io.BufferedReader;
import java.io.IOException;
import java.io.InputStreamReader;
import java.net.MalformedURLException;
import java.net.URL;
public class BufferedReaderExample {
public static void main(String[] args) {
try {
// Create a URL for the desired page
URL url = new URL("http://www.sec.gov/Archives/edgar/data/1047644/000104746912006072/a2209520z13f-hr.txt");
BufferedReader in = new BufferedReader(new InputStreamReader(url.openStream()));
String str;
while ((str = in.readLine()) != null) {
System.out.println(str);
}
in.close();
} catch (MalformedURLException e) {
} catch (IOException e) {
}
}
}
HtmlUnit不會幫你在這裏,因爲該頁面不包含HTML,但純文本。 –
感謝您的回覆。建議?我正計劃循環大約200個對衝基金。我如何在http://www.sec.gov/Archives/edgar/data/1047644/000104746912006072/a2209520z13f-hr.txt這樣的地址處理網絡抓取/ datamining純文本此外,什麼是適當的術語爲aa以.txt結尾的網址? – ETD33