在之前的文章中,我們有分享了單因子變異數分析的應用,並了解了不同廣告之間所帶來的平均消費金額。
今日的文章,我們將繼續使用「consumption.csv」中完整的要素欄位來做二因子變異數分析。
單因子變異數分析系列文章看這裡:
單因子變異數分析 — Python實戰:商務資料結構整理(附Python 程式碼)
單因子變異數分析 — Python實戰:如何決定多廣告的優化策略?(附Python 程式碼)
二因子變異數分析是什麼呢?
二因子變異數分析用於探討兩變數在依變數上的影響,比起單因子變數又有更多不同的可能性,分析過程也更為複雜。本篇文章將利用分析資料集中的「廣告」跟「地區」兩個變數進行交互分析,了解不同情形下對消費金額的影響。
接著一起來實作吧!
一、讀取原始資料
首先,將原始資料讀取進來,如程式碼1所示。
程式碼1:
import pandas as pd
data = pd.read_csv('consumption_data.csv', encoding = 'big5')
產出:
二、檢查是否有空值
為了避免資料有空值而影響分析結果,我們將透過程式碼2來檢查檔案,若有資料缺失執行結果會回報為True,以確保資料完整性。
程式碼2:
data.isnull().any()
產出:
地區 False
廣告 False
消費金額 False
三、資料分類
確認完資料沒有缺漏後,便可以將資料分類成可供分析的資料了。
透過程式碼3,先將資料按照「廣告」分類,如下所示:
程式碼3:
alist = data[data ['廣告'] == '廣告1']['消費金額'].tolist()
blist = data[data ['廣告'] == '廣告2']['消費金額'].tolist()
clist = data[data ['廣告'] == '廣告3']['消費金額'].tolist()
產出如下不同廣告的消費金額表:
隨後,再將資料透過「地區」,將廣告另外分成三類,如程式碼4所示:
程式碼4:
dlist = data[data ['地區'] == '北部']['消費金額'].tolist()
elist = data[data ['地區'] == '中部']['消費金額'].tolist()
flist = data[data ['地區'] == '南部']['消費金額'].tolist()
產出不同區域的金額表:
下一篇文章,我們將利用這六個整理好的資料,比較不同廣告對於消費者的消費金額是否有顯著差異。
喜歡我的文章,請給我繼續往下分析的動力,
我會儘快和大家分享的我的產出結果!!
完整程式碼:https://reurl.cc/m9rL5G
作者:徐子皓(臺灣行銷研究特邀作者)、鍾皓軒(臺灣行銷研究有限公司創辦人)
— — — — — — — — — — — —
往後的文章都會持續在行銷資料科學粉絲專頁上發表喔,喜歡我們就趕緊追蹤吧!
同時再請大家多多follow我們的FB粉絲專頁,我們會在粉專上即時公布最新資訊,讓您重要消息不漏接!
◼ FB粉絲專頁:行銷資料科學
◼ 官網:臺灣行銷研究