2010-11-09 71 views
1

我的一個朋友是在房地產業務,並在顯示房地產廣告寫作副本的藝術後,我意識到這是非常公式化。特別是在網上進行廣告時,因爲您需要填寫預定義的字段。編碼域特定文本生成器

當然,我想過要創建一個幾乎可以自動編寫廣告的生成器。我不指望它會產生出色的甚至是非常好的副本,只是它可以像人類一樣將單詞和句子放在一起。

我有一個框架/模板,它定義了一個廣告,我也放了一組可以隨機選擇的短語和單詞,但是我對編碼這樣一個生成器的更一般的方面感興趣?爲了更好地理解這個小項目,我可以閱讀哪些建議,提示或文獻?

回答

0

使用關於列表的元數據將是一種方法。

說對於一個給定的房子,你有這些屬性:

(類型:bungalo,平方英尺:< = 1400)你可以用短語 「溫馨小屋」。

臥室:明顯的,與浴室相同的東西。假設用的是大,中,等

車庫點:如果> 2則「可以停放許多車輛」等

你可以用這個給出的緯度/經度爲更進一步地址,還有網絡服務,你可以找到附近的公園的數量,犯罪在附近,等

裏克

0

我說有,你可以採取一個問題,像這樣的三種基本方法,取決於你希望系統的靈活性以及你想要投入多少工作。按照裏克的建議,最簡單的方法就是將其視爲報告生成問題。這可能是我編制上市草案的方式。結果將是純粹的樣板,但每個列表可能會很快被撰稿人猛擊。

但是,如果你想變得很花哨,你可能會把它當作自然語言生成問題。你將從某種知識表示開始,描述列表的意義以及用於將意義映射到語言形式的一組規則(有限狀態轉換器)。關於這類東西有大量的學術文獻,儘管這些日子已經過時了。開始的地方可能是Blackburn & Bos's book或NLTK套件(特別是contrib包中的一些項目)。

這樣做的第三種方法是將其視爲翻譯問題,實質上是將數據庫條目「翻譯」爲廣告文案。你會從一大批清單和相應的人工廣告開始,並構建兩者之間關係的統計模型。 Moses/Giza++是構建和應用此類模型的通用工具。