2011-09-11 81 views
0

(新兵後,道歉和感謝前面!)解析博客文章的常見鏈接

我的目標是要建立一個小的應用程序,監視並分析一組博客的帖子的出站鏈接,這樣我就可以再:

  1. 在一個框架中的博客中顯示鏈接到最多的文章;和
  2. 對於給定的鏈接文章,顯示鏈接到它的帖子(在我的博客圈)。

到目前爲止,我的想法是使用:
- 的Python(Django的或一些,例如前端)
- Feedparser從帖子
閱讀提要和提取環節 - 裏urlparse

大問題:我錯過了什麼明顯的,會讓這種方式更容易?

小問題(我想不通尚):
- 既然指向同一篇文章時,出站鏈接的網址可能會有所不同,即使(NYT URL和tinyURLs,例如),我該怎麼檢查看看它是否已經在我的鏈接項目列表中,而不僅僅是比較絕對URL?

This SO post在高層次上很有幫助,但解析'blogroll'樣式的鏈接列表似乎比主動比較帖子中的URL容易得多,特別是對於可能在其URL中執行各種有趣事情的新聞站點。

+0

考慮到轉發發生在服務器端,我沒有看到任何簡單的方法,而不是跟隨鏈接,然後檢查它們真正指向的位置(基本上打開url,在響應對象上調用'geturl()') – Voo

回答

1

我會去相同的設置。您可能需要使用lxml來解析和處理髮布的內容HTML(提取標籤)。

+0

啊! ,好想法;謝謝! –