地點關鍵字提取引擎

在 Styletrip 專案內,「搜尋」是一項非常重要的功能之一,使用者不只是可以從地名、地址搜尋一個景點,也可以用相關的詞彙搜尋到,於是找到地點相關的關鍵字成為一項不可或缺的工作,這個作品在於呈現如何應用 Text Mining 的技術來找到地點相關關鍵字。

search
「淡水老街」相關的搜尋關鍵字

在我們的景點資料庫當中,每一筆景點資料都包含有名稱、地址、還有相關的部落格文章,這些都可以當作我們分析地點關鍵字的重要來源之一,這邊我們需要用 Information Retrieval 技術來提取關鍵字:

tf-idf-ref
https://nlp.stanford.edu/IR-book/html/htmledition/document-and-query-weighting-schemes-1.html
IMG_8503
手寫各種 TF-IDF 公式的變形

最後用程式實做出來,應用上述不同的變形公式來計算,可以知道「台北寒舍艾美酒店」的相關搜尋關鍵字有:「酒店」「寒舍」「台北」「飯店」「探索」「台北市」「信義區」「甜點」「餐廳」

tf-idf

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out /  Change )

Google+ photo

You are commenting using your Google+ account. Log Out /  Change )

Twitter picture

You are commenting using your Twitter account. Log Out /  Change )

Facebook photo

You are commenting using your Facebook account. Log Out /  Change )

Connecting to %s

Blog at WordPress.com.

Up ↑