矩陣分解推薦系統 — Python實戰:商務資料結構整理(附Python 程式碼)

圖片來源來自 Netflix

本次系列文章將會跟各位分享 Netflix 推薦影片系統的核心套件如何運用在商務資料結構上

情境主題概要說明:

將程式碼檔案與套件檔案放在一起
更改執行資料夾的位置
成功引入的套件結果
data = pd.read_csv('sales_data.csv')
sale_data.csv部分原始資料
  1. 會員:未來將會針對每個會員的消費紀錄分析。
  2. 利潤:關鍵的分析要素,判斷優先推薦產品的指標。
  3. 產品:分析後所要推薦的產品。
  4. 訂單時間:擷取所要分析的資料時間區段。
# 新增利潤
data['利潤'] = data['單價'] - data['成本']
# 取出所需的資料內容
data_new = data[['會員','利潤','產品','訂單時間']]
後續所需使用的資料集內容(data_new)
# 對應之後function相對名稱
# 會員:user 、 利潤:rating 、 產品:item
data_new.columns = ['user' , 'rating' , 'item','訂單時間']
資料集(data_new)已修正欄位名稱

大家是否疑惑為何訂單時間的欄位還沒派上用場呢?

# 把訂單時間中的 "T" 去掉
data_new['訂單時間'] = data_new['訂單時間'].str.replace('T',' ')
# 將訂單時間改成datetime形式
data_new['訂單時間'] = pd.to_datetime(data_new['訂單時間'])
資料集(data_time)已修改訂單時間形式
# 設立選取資料起始時間 (2019年 1月 1日)
begin = datetime(2019, 1, 1)
# 設立選取資料結束時間 (2019年 11月 1日)
end = datetime(2019, 11, 1)
起始時間與結束時間的型態與內容
# 選取資料 ( 結束時間之前 )
data_new = data_new[data_new['訂單時間'] <= end]
# 選取資料 ( 開始時間之後 )
data_new = data_new [data_new ['訂單時間'] >= begin]
del data_new['訂單時間']
2019年1月1日到2019年11月1日的資料集(data_new)

是不是心中有個疑問:「會員跟產品不是已經都有各自的專屬名稱了嗎?為何還要特別再編號一次呢?」

# 建立產品id清單
pd_index = pd.DataFrame({'item':data_new['item'].unique().tolist()})
pd_index['item_id'] = pd_index.index
pd_index.to_csv('pd_index.csv',index=False,encoding='utf-8-sig')
產品相對應的對照表清單(pd_index)
# 建立會員id清單
user_index = pd.DataFrame({'user':data_new['user'].unique().tolist()})
user_index['user_id'] = user_index.index
user_index.to_csv('user_index.csv',index=False)
會員相對應的對照表清單(user_index)
# merge到data_new上
data_new = pd.merge(data_new,pd_index, on = ['item'], how='left')
data_new = pd.merge(data_new,user_index, on = ['user'], how='left')
已結合重新編號後欄位的資料集(data_new)
# 分析模型所需資料集型態 - data_core 
data_core = data_new[['rating','user_id','item_id']]
data_core.to_csv('data_core.csv',index=False)
矩陣分解分析模型所需資料集(data_core)
歡迎加入我們的Telegram獲取即時訊息!https://t.me/marketingdatascience
歡迎加入我們的Line@獲取即時訊息!https://line.me/R/ti/p/%40cde8265r

您可能有興趣:

📢熱騰騰~最新募資上架【TMR最新募資課程】

《Python行銷資料科學-基礎語法入門最前線》

📢【TMR 已上架課程】

👨‍🎓TMR為您量身打造「全方位數據課程」

《 Python 0到1 基礎商業數據分析實戰 》

《 顧客分類大師:Python x RFM 會員經營新觀點 》

--

--

--

Marketing data science. 台灣第一個行銷資料科學(MDS)知識部落,本粉絲專頁在探討行銷資料科學之基礎概念、趨勢、新工具和實作,讓粉絲們瞭解資料科學的行銷運用,並開啟厚植數據分析能力之契機。粉絲專頁:https://www.facebook.com/MarketingDataScienceTMR

Love podcasts or audiobooks? Learn on the go with our new app.

Get the Medium app

A button that says 'Download on the App Store', and if clicked it will lead you to the iOS App store
A button that says 'Get it on, Google Play', and if clicked it will lead you to the Google Play store
行銷資料科學

行銷資料科學

Marketing data science. 台灣第一個行銷資料科學(MDS)知識部落,本粉絲專頁在探討行銷資料科學之基礎概念、趨勢、新工具和實作,讓粉絲們瞭解資料科學的行銷運用,並開啟厚植數據分析能力之契機。粉絲專頁:https://www.facebook.com/MarketingDataScienceTMR

More from Medium

(Re)Searching For The Best Path Forward

Privacy defaults and choice architecture for Metaverse

Jesuit Universities brew up fair trade awareness one cup at a time

Strategic Planning — The Map to Results