我正在編寫一個腳本,它將新聞文章作爲輸入並返回文章中提及的所有上市公司的列表及其相應的符號。有大約6500個獨特的公司名稱可以提及。用許多不同的查詢搜索文檔
我的第一個想法是使用正則表達式從文章中提取可能是公司名稱的所有名稱。公司名稱可能完全不同,但名稱中的每個詞幾乎總是以大寫字母開頭,所以我認爲這可能僅適用於少數誤報(可能是個人與公司共享名稱的情況)。
下一個問題是將可能的公司名稱與所有公司和符號列表進行比較。我應該如何儲存清單?作爲每個條目都有公司和符號字段的表格?看起來這是使用公司映射到符號的散列表的理想場所。它會比mysql解決方案更快地使用上述映射序列化一個數組,並且在我的腳本的開頭反序列化它,以便在文章中查找名稱?