warc

    1熱度

    1回答

    我有興趣下載以便稍後分析一堆網頁。有兩件事我想要做: 將頁面和相關資源(圖像,與文章關聯的多個頁面等)下載到WARC文件。 將所有鏈接更改爲指向現在的本地文件。 我想用Python做到這一點。 有沒有這樣做的好庫? Scrapy似乎被設計爲刮取網站,而不是單個頁面,我不知道如何生成WARC文件。如果沒有更多的python native,調用wget是一個可行的解決方案。 Heritrix是完全矯枉

    0熱度

    1回答

    我已經從常見抓取下載了warc.gz文件,我必須使用spark來處理它。如何將文件轉換爲RDD? sc.textFile("filepath")似乎沒有幫助。 當rdd.take(1)被打印時,它給了我[u'WARC/1.0'],而它應該給我一個完整的記錄。我如何將文件轉換爲可處理的rdd?謝謝!

    1熱度

    1回答

    我們能否指數從WARC的WARC文件直接導入Solr的不提取和存儲一些中間文件(例如:HTML格式)第一文件在硬盤上? 換句話說,我們可以索引這些文件而不在硬盤上存儲任何東西嗎?

    0熱度

    1回答

    我抓取了來自常見抓取的數據,並且想要查找與每個記錄相對應的url。 for record in files: print record['WARC-Target-URI'] 這將輸出一個空列表。我指的是以下鏈接 https://dmorgan.info/posts/common-crawl-python/。我們是否獲得了與每條記錄相對應的目標uri或者一個warc文件路徑只有一個目標

    2熱度

    1回答

    我一直在網站上搜索很多,但無法真正找到我需要的東西。我有其中包含數據的web.warc.gz文件,我需要提取WARC標題。我已經安裝Tomcat和韋巴克(1.6)試圖獲得與./warc-header腳本,這是由韋巴克提供的,但我不斷收到對我使用的格式的錯誤消息: Sergeis-MacBook-Pro:bin sergeipashuev$ ./warc-header ~/Desktop/WEB.W

    3熱度

    2回答

    我試圖使用工具箱從下面的鏈接來打開文件WARC與Python: http://warc.readthedocs.org/en/latest/ 當打開文件: import warc f = warc.open("00.warc.gz") 一切都很好,在F對象是: <warc.warc.WARCFile instance at 0x1151d34d0> 然而,當我試圖通過讀取文件中的一切:

    0熱度

    1回答

    我試圖用Python從Common Crawl解析.warc文件。 由於文件很大,我想從頭幾個記錄的樣本/子集開始。 如何截斷文件以僅包含第一個X行,同時保留已安裝的換行符/回車符? 這是我已經試過: head -n 250 oldfile > newfile這消除了一些需要解析該文件的回報。下面是我的錯誤,如果我嘗試使用這個文件在我的Hadoop作業(與warc包看完): Traceback (

    0熱度

    1回答

    我想知道如何使用kibana導入數據。其實,它對我來說是一個混亂。我試圖使用kibana加載json文件,但它沒有導入它。 第二,如果我想與WARC文件工作,他們這樣做,我需要將其轉換成JSON文件,然後導入或是否有任何其他的解決方案,我需要工作。 希望聽到答覆。

    1熱度

    1回答

    我有一個warc記錄列表。在列表中每一個項目創建這樣的: header = warc.WARCHeader({ "WARC-Type": "response", "WARC-Target-URI": "www.somelink.com", }, defaults=True) data = "Some string" record = warc.WARCRecord(hea

    0熱度

    1回答

    我是一名新手,我即將參加本週末的比賽。問題在於歸檔和檢索大型HTML數據集,我不知道它。我的朋友建議我使用網絡存檔和通用爬網。請向我建議一種將HTML數據集轉換爲Web檔案並將其編入索引的方法。提前致謝。