我試圖通過其餘api啓動爬網。抓取始於注入網址。使用鉻開發工具「高級休息客戶端」我試圖建立這個POST有效載荷,但我得到的答覆是一個400壞請求。Apache Nutch REST api
POST - http://localhost:8081/job/create
有效載荷
{
"crawl-id":"crawl-01",
"type":"INJECT",
"config-id":"default",
"args":{ "path/to/seedlist/directory"}
}
我的問題是在指定參數時,我覺得更多的是需要的,但我不知道。在NutchRESTAPI頁面中,它是創建作業的示例。
POST /job/create
{
"crawlId":"crawl-01",
"type":"FETCH",
"confId":"default",
"args":{"someParam":"someValue"}
}
POST /job/create
{
"crawlId":"crawl-01",
"jobClassName":"org.apache.nutch.fetcher.FetcherJob"
"confId":"default",
"args":{"someParam":"someValue"}
}
我不確定什麼參數或值給每個命令來完成一項工作。 (例如Inject,Generate,Fetch,Parse和UpdateDb)有人可以清除它嗎?我如何告訴api在哪裏查找種子列表?
UPDATE
努力完成我來到一個classException錯誤,其中用於TOPN關鍵字的值是long類型的,但API讀取它作爲一個字符串或一個int的生成命令時。我發現了一個應該包含在2.3.1版本(發佈日期:TBA)中的修復程序,並將其應用並重新編譯了我的代碼。它現在可以工作。
你使用Nutch 2.3嗎? – jgloves
是的,我是。只是還沒有找到一個完整的文檔,列出所有可能的參數或可接受的值進行適當的爬網。 – itsNino91
我在下面的答案鏈接到一個更詳細的文件。 – jgloves