回答
Nutch是一個足夠體面的抓取工具,但您必須對索引數據進行自己的分析。
你也可以在R中使用類似RCurl或XML(獲得博客文章)和igraph(對於SNA)的組合來做到這一點。您需要解析HTML以獲取所有鏈接,並且XML包可以輕鬆處理這種處理。
看一看this related question的SNA分析指標,雖然這是一個很大的研究領域。
謝謝謝恩, 感謝您的想法和鏈接。 我會再看看它們 - 再次感謝! – 2010-01-29 11:29:18
通過「映射」我不確定您是否指的是將原始數據映射到正統圖數據結構或將該數據結構映射到美學庫以便呈現它。如果是前者,那麼我想這是一個直接的問題,寫一個函數來翻譯原始數據(w/r/t,其鏈接到哪個博客以及多少)到一個圖形數據結構中,比如一個鄰接矩陣。映射這樣的收視數據結構可以做這樣的:
library(Rgraphviz)
# create an synthetic adjacency matrix for 10 blogs
M = sapply(rep(10, 10), function(x){sample(c(0, 1), 10, T, c(0.7, 0.3))})
colnames(M) = paste(rep("b", 10), 1:10, sep="-")
rownames(M) = colnames(M)
# 0's down the main diagonal (eliminate self-edges)
diag(M) = rep(0, 10)
# call the graphviz constructor, passing in adjacency matrix
M_gr = new("graphAM", adjMat=M, edgemode="directed")
g1 = layoutGraph(M_gr)
# (optional) aesthetic parameters for nodes & edges
graph.par(list(edges = list(col="gray", lty="dashed", lwd=1),
nodes = list(col="midnightblue", shape="ellipse",
textCol="darkred", fill="#B0B7C6", fontsize=11,
lty="dotted", lwd=2)))
# call the device driver
png(file='somefilename.png', width=600, height=460, res=128)
# call the plot function
renderGraph(g1)
# kill the device
dev.off()
alt text http://img13.imageshack.us/img13/7683/bloggraph.png
如果你想顯示不只是連接,但在強度這些連接,例如,數量,或者頻率從一個博客鏈接到另一個博客,您可以通過單獨設置線寬來設置線寬,例如通過參數'lwd'(我已經爲所有邊設置了2),另一個選項是按線型顯示連接強度,例如虛線,虛線,實心,顏色)。當然,這些邊權重必須在鄰接矩陣中設置,這很簡單 - 而不是用'0'/'1'來表示'未連接'/連接,你可能會想使用'0'/'整數'。
謝謝Doug, 非常有幫助的線索 - 我會再問一次,我會更深入地探討它們。 – 2010-01-29 11:28:31
爲了記錄,我強烈推薦Python中的機械化庫 - 它使您可以快速構建自己的個性化抓取工具/抓取工具。
- 1. 使用R映射博客之間的鏈接網絡?
- 2. 跟蹤TCP連接客戶端的最佳方式是什麼?
- 3. 什麼是將用戶映射到連接ID的最佳方式
- 4. 在活動之間保留鏈接列表的最佳方式是什麼?
- 5. python dict和PyQt小部件之間連接的最佳方式是什麼?
- 6. 什麼是檢查WCF客戶端連接的最佳方法
- 7. 什麼是在博客中存儲帖子的最佳方式
- 8. 這是隱式鏈接和顯式鏈接的DLL之間的最佳做法
- 9. 接受多個tcp客戶端的最佳方式是什麼?
- 10. 映射映射鍵的最佳方式
- 11. 什麼是鏈接單個CheckBox與SQL列的最佳方式
- 12. 排序鏈接列表的最佳方式是什麼?
- 13. 什麼是創建鏈接表的最佳方式?
- 14. 什麼是從鏈接嵌入Flash文件的最佳方式?
- 15. 什麼是實現鏈接的最佳方式yii2 - > React js?
- 16. 鏈接到域根的最佳方式是什麼?
- 17. 鏈接到Facebook應用框架的最佳方式是什麼?
- 18. rss的最佳鏈接是什麼?
- 19. IPC連接Qt4和Qt5過程的最佳方式是什麼?
- 20. 在c#中連接數據庫的最佳方式是什麼?
- 21. 處理並行telnet連接的最佳方式是什麼?
- 22. 連接有序數組的最佳方式是什麼?
- 23. 連接手寫識別器的最佳方式是什麼?
- 24. 什麼是同時建立多個連接的最佳方式?
- 25. 從Android連接MySQL的最佳方式是什麼?
- 26. 在golang中存儲websocket連接的最佳方式是什麼
- 27. 構建apache flink連接器的最佳方式是什麼?
- 28. 保證這種SSH連接的最佳方式是什麼?
- 29. 什麼是連接這兩個Django模型的最佳方式
- 30. 什麼是處理android連接更改的最佳方式?
我很好 - 謝謝保羅:) – 2010-01-23 13:36:12