-1
我正在致力於Chrome Extension
,我有興趣獲取網站的主要內容。例如,我想獲取文章的文本,但不想從菜單中獲取文本。我想要這個,所以我可以使用這個文本來鍍鉻說話。Chrome擴展程序 - 獲取網頁的主文本
我從字面上不知道如何開始。我寧願不過濾使用ID和標籤,因爲這些不夠一致。什麼是做我想要的最好的方式? (它可以是鉻)
我正在致力於Chrome Extension
,我有興趣獲取網站的主要內容。例如,我想獲取文章的文本,但不想從菜單中獲取文本。我想要這個,所以我可以使用這個文本來鍍鉻說話。Chrome擴展程序 - 獲取網頁的主文本
我從字面上不知道如何開始。我寧願不過濾使用ID和標籤,因爲這些不夠一致。什麼是做我想要的最好的方式? (它可以是鉻)
您唯一的選擇是使用ID,類或標籤進行過濾。大多數類似這樣的應用程序都有一個在engadget.com,reddit等站點使用的常用id,類,標籤等白名單。如果網站在HTML5中使用語義標籤,您的任務更容易,但您可以不要指望每個人都在使用它。
你不會得到任何東西可以從任何地方抓住「文章」。您唯一的選擇是挑選您想要處理的某些網站,手動分析其標記,並相應地編寫您的應用程序。
另一種想法是,您可能能夠從網站獲取RSS或atom feed,這會讓事情變得更輕鬆。
感謝您的誠實答案。我希望谷歌有一些API或它的東西(因爲他們知道如何索引網頁)。是否有任何庫可以在我的腳本中使用白名單? –
沒有公開的白名單,我知道,對不起。這是HTML5中的語義標籤應該幫助解決的問題之一,但目前還不常用。 –