2015-10-15 71 views
1

我一直在試圖抓住幾周的所有傳記wiki頁面。問題是我找不到一種方法來區分關於某人或某人的頁面。刮:檢查一個頁面是否是個人頁面

例如以下網頁:

看起來非常相同的關於他們的HTML代碼。我確定必須有一個關鍵詞,以便知道該頁面是否與某人有關。

有沒有人遇到同樣的問題? 在此先感謝=)

回答

2

我不確定是否有明確的方法來告訴,但您可以建立一個指標列表,你認爲該頁面可能是關於一個人,然後在這些匹配。

例如在阿爾伯特愛因斯坦頁面上,在右側窗格中有「Born」和「Died」部分。通過提供這些內容,我們可以確信這篇文章是關於一個人(儘管如果你尋找死亡,你可能只會遇到死去的人)。然而,這些標題並不一致,您需要與其中的一個或多個相匹配,以增強對該文章確實是關於某人的信心。例如https://en.wikipedia.org/wiki/Lionel_Messi不包含「Born」標題,但它確實包含「出生日期」。

此外,你可以做一些自然語言分析,試圖找出頁面上的主要文本是否正在談論一個人。很多提到「他」或「她」,可能意味着文章正在談論一個人。

相關問題