Nutch不抓取頁面內容

我有一個問題，我無法從包含來自PHP表單內容的網站抓取內容。我假設這是問題，因爲所有其他網頁都沒有問題被抓取。我使用Nutch 1.11和Apache Solr 5.4.1將抓取的文檔編入索引。唯一獲取索引的文本是菜單鏈接中的樣板文本等。整個文本主體永遠不會被解析。
我目前正在這一隻除了那些允許在URL中執行一個PHP查詢，以便字符，如默認CONFIGS「？=」接受比這所有的默認設置等。如果有人能解釋爲什麼這種情況我真的很感激它，我似乎無法將它作爲網上任何地方的問題。
下面是一個示例網站，我無法獲取要解壓縮和解析的正文文本。 https://www101.dcu.ie/prospective/deginfo.php?classname=BMED&originating_school=21

我已經通過日誌，它說它解析了網址。它設法提取菜單文本，但沒有任何主要內容。正如我所說，域中的所有其他頁面都可以在沒有問題的情況下進行提取。Nutch不抓取頁面內容

來源

2016-05-15 cawleykid

一般來說查詢網址是默認忽略，這是因爲他們可以有抓取的網站上了沉重的打擊（如查詢URL通常動態地從數據存儲/ DB產生的），爲了解決這個問題，請檢查文件，您將白名單的正則表達式放入其中，並在那裏明確說明接受的url模式 - 這將需要進行更改以允許查詢URL（帶有？的URL）。

文件感興趣的是所謂的：正則表達式，URLFILTER.TXT

，將有：

# regex-urlfilter.txt +^http://www.example.com/browse -[?]

內容

對此事有趣的博客：https://datafireball.com/2014/07/20/nutch-how-regex-urlfilter-txt-really-works/ - 我不隸屬於

來源

2016-05-18 14:40:50

Nutch不抓取頁面內容

回答

相關問題