我有一個問題,我無法從包含來自PHP表單內容的網站抓取內容。我假設這是問題,因爲所有其他網頁都沒有問題被抓取。我使用Nutch 1.11和Apache Solr 5.4.1將抓取的文檔編入索引。唯一獲取索引的文本是菜單鏈接中的樣板文本等。整個文本主體永遠不會被解析。
我目前正在這一隻除了那些允許在URL中執行一個PHP查詢,以便字符,如默認CONFIGS「?=」接受比這所有的默認設置等。 如果有人能解釋爲什麼這種情況我真的很感激它,我似乎無法將它作爲網上任何地方的問題。
下面是一個示例網站,我無法獲取要解壓縮和解析的正文文本。 https://www101.dcu.ie/prospective/deginfo.php?classname=BMED&originating_school=21
我已經通過日誌,它說它解析了網址。它設法提取菜單文本,但沒有任何主要內容。正如我所說,域中的所有其他頁面都可以在沒有問題的情況下進行提取。Nutch不抓取頁面內容
0
A
回答
0
一般來說查詢網址是默認忽略,這是因爲他們可以有抓取的網站上了沉重的打擊(如查詢URL通常動態地從數據存儲/ DB產生的),爲了解決這個問題,請檢查文件,您將白名單的正則表達式放入其中,並在那裏明確說明接受的url模式 - 這將需要進行更改以允許查詢URL(帶有?的URL)。
文件感興趣的是所謂的:正則表達式,URLFILTER.TXT
,將有:
# regex-urlfilter.txt +^http://www.example.com/browse -[?]
內容
對此事有趣的博客:https://datafireball.com/2014/07/20/nutch-how-regex-urlfilter-txt-really-works/ - 我不隸屬於
相關問題
- 1. 如何在nutch中獲取抓取的頁面內容和相應的URL?
- 2. 使用Nutch如何抓取uisng ajax網頁的動態內容?
- 3. 如何從nutch訪問內容分類中的抓取內容
- 4. 從html頁面抓取內容
- 5. 如何抓取頁面,但無法在nutch 2.1中抓取視頻/圖像內容?
- 6. apache nutch不抓取網站
- 7. Nutch抓取不起作用
- 8. 使用nutch抓取子頁面時獲取父標題
- 9. 獲取頁面內容的格式,因爲它是在nutch
- 10. 在Nutch上抓取已發佈的內容
- 11. Nutch的抓取工具無法檢索新聞文章內容
- 12. Nutch 2從抓取中排除內容類型圖像
- 13. 抓取網頁,但需要javascript查看頁面內容
- 14. 使用nutch抓取頁面的後處理
- 15. 從nutch重點抓取
- 16. Nutch的抓取命令
- 17. 抓取:內容後
- 18. 從AJAX/Javascript網頁抓取內容
- 19. node-simplecrawler:ajaxed內容網頁抓取問題
- 20. 網頁抓取動態內容與Python
- 21. API Json輸出 - 抓取網頁內容
- 22. 語言的網頁抓取JavaScript內容
- 23. 抓取GWT中網頁的內容
- 24. 網頁抓取動態內容
- 25. Facebook頁面抓取
- 26. 抓取html頁面
- 27. HTML頁面抓取
- 28. 抓取頁面塊
- 29. file_get_contents抓取遠程頁面,內容未更新
- 30. 正則表達式從另一個頁面抓取內容