我運行IMDbAPI.com並使用Bing的搜索API從標題搜索中查找IMDb ID。 Bing目前正在將他們的API更改爲Azure Marketplace(8月1日),並且不再免費提供。我開始使用Freebase測試我的API來解析這些ID並在頭8個小時內達到100k的限制(我的網站目前每天獲得約300萬個請求,但只有200-300k是標題搜索)Freebase:什麼數據轉儲文件包含「imdb_id」?
這正是爲什麼他們提供的數據轉儲文件,
我下載了Film文件夾中的大部分文件,但無法找到它們存儲「/ authority/imdb/title」imdb id命名空間數據的位置。
這是我當前如何訪問ID。
有誰知道哪個文件包含此信息?以及如何從電影標題/編號鏈接回它?
我試圖避免4gig(33gig提取)文件,但我反正下載了它,並花了過去3個小時試圖找到任何打開/解析它。我使用了微軟的Log Parser 2.2,它效果很好! LogParser.exe -i:TSV「SELECT Col1,Col4 INTO C:\ imdbList.csv FROM C:\ freebase.tsv WHERE Col3 like'%imdb/title%'」-o:CSV -headers:OFF -iHeaderFile: 「C:\ header.txt」 因此,現在我有一個3MB的CSV文件,其中包含所有的空白區ID和IMDb的ID – bfritz 2012-07-15 20:19:59
接下來,我需要從「電影」中獲取「標題」,「發行年份」和「別名」。 tsv「,那麼我可以加入SQL中的數據...最後能夠搜索:)但是我依靠瀏覽文件夾」Films.tsv「中的額外文件即將離開嗎? – bfritz 2012-07-15 20:25:16
處理壓縮文件的速度可能更快(並且磁盤空間肯定更少),所以我不會對其進行解壓縮。任何Linux系統(或Windows上的Cygwin)都可以輕鬆處理,而無需下載奇怪的專有實用程序。等效命令是bzgrep「authority/imdb/title」freebase-datadump-quadruples.tsv.bz2 | cut -f 1,4> imdbList.csv即使在筆記本電腦上,它也可以解壓並搜索4GB文件,並在20分鐘內輸出142K對ID。 – 2012-07-16 20:46:24