本篇文章要繼續和大家分享統計方法在數據分析的應用!!
今日要和大家分享的是單因子變數分析。單因子變異數分析多用來分析多組樣本,比較各組間的平均數差異,譬如分析資料集中「廣告」此單一變項,在不同區域當中對於消費者的消費金額是否有顯著差異。
而本次所使用資料集為某廣告商在不同地區推廣不同廣告後,所得到的消費金額中,取樣360筆作為本章節所使用的資料集-「consumption.csv」。
一、讀取原始資料
首先執行程式碼1,將「consumption.csv」(點我下載)讀取進來,如下所示:
程式碼1:
import pandas as pd
data = pd.read_csv('consumption_data.csv', encoding = 'big5')
產出:(如圖1所示)
該資料的詳細的內容如下:
1. 地區:廣告推播的地區,分為北、中、南部。
2. 廣告:使用的廣告種類,分為廣告1、廣告2、廣告3。
3. 消費金額:消費者花費的金額(美金)。
二、檢查是否有空值
為了避免資料有缺漏而影響分析結果,可以透過程式碼2來檢查檔案,若有資料缺失執行結果會回報為True,已確保資料完整性。
程式碼2:
data.isnull().any()
產出:
地區 False
廣告 False
消費金額 False
三、資料分類
確保完資料的完整性之後,接下來就可以將資料分類成可作為分析之資料了,由於本單元為單因子變異數分析之教學,只會先用到「廣告」這一個變數,加入「地區」之後的分析則會在多因子變異數分析的單元為讀者們做進一步分析。
執行程式碼3,將資料透過廣告類別分成三類之後,資料前處理就大功告成了。
程式碼3:
alist = data[data ['廣告'] == '廣告1']['消費金額'].tolist()
blist = data[data ['廣告'] == '廣告2']['消費金額'].tolist()
clist = data[data ['廣告'] == '廣告3']['消費金額'].tolist()
產出:(如圖2、3、4所示)
下篇文章我們將利用這三個整理好的資料,比較不同廣告對於消費者的消費金額是否有顯著差異。
完整程式碼:https://reurl.cc/gmDdOX
作者:徐子皓(臺灣行銷研究特邀作者)、鍾皓軒(臺灣行銷研究有限公司創辦人)
— — — — — — — — — — — —
往後的文章都會持續在行銷資料科學粉絲專頁上發表喔,喜歡我們就趕緊追蹤吧!
同時再請大家多多follow我們的FB粉絲專頁,我們會在粉專上即時公布最新資訊,讓您重要消息不漏接!
◼ FB粉絲專頁:行銷資料科學
◼ 官網:臺灣行銷研究