我想知道如何以編程方式獲取網頁的網站名稱和網頁名稱,或至少如何獲得最佳猜測。如何獲取網頁的網站名稱和頁面標題
例如,該問題網頁的網站名稱爲Stack Overflow,頁面標題爲「如何獲取網頁的網站名稱和頁面標題」。
我知道不可能獲得100%的準確性(或甚至接近),但至少能夠嘗試做到這一點是很好的。編程語言是不相關的。
我想知道如何以編程方式獲取網頁的網站名稱和網頁名稱,或至少如何獲得最佳猜測。如何獲取網頁的網站名稱和頁面標題
例如,該問題網頁的網站名稱爲Stack Overflow,頁面標題爲「如何獲取網頁的網站名稱和頁面標題」。
我知道不可能獲得100%的準確性(或甚至接近),但至少能夠嘗試做到這一點是很好的。編程語言是不相關的。
如果你刮的東西像PHP簡單DOM解析器
preg_match("/<title>(.*)<\/title>/s", $a, $matches);
另一個網站這是在標題之間的一切。如果您要嘗試提取一個僞網站名稱(假設它是在標題中),您可以在第一系列字母到達分隔符之前進行分類,通常是「 - 」,「::」,「 - 」 - 「或其他一些變體。你可能會想看看100個網站,並找到最常見的網站。
您可以刮頁面並拉標籤的內容來獲得標題。您應該使用HTML解析器來執行此操作。
我不確定如何獲取網站的名稱。你可以只使用URL並將其格式化?你可以脫掉頂級域名(TLD)和任何子域名,大寫第一個字符。例如:
stackoverflow.com -> Stackoverflow
en.wikipedia.org -> Wikipedia
這顯然不是一個完美的解決方案,但它可能足以滿足您的使用案例。
正如你從服務器端說,它可以在JavaScript這樣做的話,
爲標題
var title = document.title;
和URL
var location = document.location.href;
你從服務器端的意思或作爲用戶? –
從服務器端。 – dmitrig01