無母數檢定應用 — 資料量太少或資料非常態分佈嗎?! Python實戰:商務資料結構整理(附Python 程式碼)

一、讀入原始資料

# 導入分析資料
import pandas as pd
data = pd.read_csv('sales_data_new.csv', encoding = 'utf-8-sig')
圖 1 原始資料示意圖
# 只留下需要的欄位
data = data[['單價', '成本', '系列', '廣告代號all']]
# 取系列4作分析
data = data[data['系列']=='系列4']
圖 2 篩選後資料

二、重新整理廣告代碼

example = []
for i in data['廣告代號all']:
if '_B2K_' in i:
if i not in example:
example.append(i)
print(example)
['廣告_B2K_pid', '廣告_B2K_mqrukisleeve', '廣告_B2K_mqrukisleeve2', '廣告_B2K_MK', '廣告_B2K_ciccicqrtu', '廣告_B2K_mqrukitrqveltite', '廣告_B2K_ciccicqrtu2', '廣告_B2K_jqejqe', '廣告_B2K_cic2016']
rep = []
for i in range(0,data.shape[0]):
a = data['廣告代號all'][i].split('_')[1]
rep.append(a)
# rep中前十筆資料
rep[0:10]
['YND', 'YND', 'YND', 'YND', 'YND', 'YND', 'YND', '自然流量', '自然流量', '自然流量']
data['廣告代號all']=rep
圖 3 更改廣告代號後資料集

三、取出樣本數前三大廣告

len(data['廣告代號all'].unique())
36
from collections import Counter
count_list = Counter(data['廣告代號all'])
圖 4 廣告頻率示意圖
count_list=pd.DataFrame.from_dict(count_list,orient='index').reset_index()count_list=count_list.rename(columns = {'index' : '廣告名稱', 0: '樣本數'})
圖 5 轉換為DataFrame格式的廣告頻率表
import heapq
good_number = heapq.nlargest(3,list(count_list['樣本數']))[2]
good_number
1285
good_list = count_list[count_list['樣本數'] >= good_number]
圖 6 樣本數前三大的廣告表
data = pd.concat([data[data['廣告代號all']==good_list.iloc[0,0]],
data[data['廣告代號all']==good_list.iloc[1,0]],
data[data['廣告代號all']==good_list.iloc[2,0]]],
ignore_index=True)
圖 7 符合廣告需求條件的資料表
Photo by: Shopify Partners

四、計算利潤

data['利潤'] = data['單價'] - data['成本']
data = data.drop(['單價', '成本', '系列'], axis=1)
圖 8 完成資料前處理的可用分析資料

--

--

--

Marketing data science. 台灣第一個行銷資料科學(MDS)知識部落,本粉絲專頁在探討行銷資料科學之基礎概念、趨勢、新工具和實作,讓粉絲們瞭解資料科學的行銷運用,並開啟厚植數據分析能力之契機。粉絲專頁:https://www.facebook.com/MarketingDataScienceTMR

Love podcasts or audiobooks? Learn on the go with our new app.

Get the Medium app

A button that says 'Download on the App Store', and if clicked it will lead you to the iOS App store
A button that says 'Get it on, Google Play', and if clicked it will lead you to the Google Play store
行銷資料科學

行銷資料科學

Marketing data science. 台灣第一個行銷資料科學(MDS)知識部落,本粉絲專頁在探討行銷資料科學之基礎概念、趨勢、新工具和實作,讓粉絲們瞭解資料科學的行銷運用,並開啟厚植數據分析能力之契機。粉絲專頁:https://www.facebook.com/MarketingDataScienceTMR

More from Medium

Extending Tensorflow’s Window Generator for Multiple Time Series

An Article a Day: Meinecke et al (2021)

Beginning with Libraries in Python

Light & Shadows enriches digital twins with CAD data with the help of CAD Exchanger