要了解「假設驅動研究(Hypothesis-Driven Research)」與「資料驅動研究(Data-Driven Research)」的差異,還可以從母體與樣本的角度來觀察。以往在從事社會研究時,受限於人力、物力、財力,往往無法對母體進行普查,因此才有抽樣技術的出現。透過抽樣技術,大幅減少蒐集資料的成本,並能透過對樣本進行分析,進而推論回母體。
然而,在進行資料驅動研究時,由於研究的對象龐大,規模已經很接近母體,或者根本就是母體(例如:網路上人們所留下的龐大足跡,或是公司資料庫裡所有顧客的交易資料),研究過程中已不需透過抽樣來進行分析,因此也不會受限於抽樣而產生誤差(如圖1所示)。
不過,要提醒的是,如果單從母體與樣本的角度來看,資料驅動研究的優點以乎遠遠大於假設驅動研究。畢竟能對母體直接進行觀察,會比透過對樣本進行觀察再對母體進行推論,效果要來的好。但事實上,除非能在相同的條件下,例如在相同的題目和相同的母體等方面進行比較,否則這樣的說法,還是有其限制。
我們以之前探討「如何降低離職率」的例子來進行說明。在相同的研究題目(亦即「如何降低離職率」),針對相同的母體(亦即同一家公司的所有員工,並假設該公司員工有10萬人)。假設驅動研究會發展研究架構與假設,並進行抽樣設計(假設受限於成本,只對1,000人進行抽樣),透過對員工進行問卷調查與訪談,再透過統計分析,發展離職模型。
資料驅動研究則分析該公司所有與離職相關的可能資料,包括:員工的基本資料、性向測驗、就職年數、考績、出缺勤、遲到、所處部門基本資料、輪調、學習…等紀錄,再透過資料探勘或文字探勘,發展出對該公司的離職人員的預測模型。
從以上的例子,我們可以發現,「假設驅動研究」透過問卷,調查部分員工的知覺與想法。「資料驅動研究」則是從資料庫裡,直接撈取所有員工的基本資料與行為。所以,雖然假設驅動研究沒有對所有員工(亦即母體)進行普查,但假設驅動研究卻能調查出資料庫裡沒有的東西,像是造成離職者可能離職的動機(企業整體待遇不佳、昇遷制度失衡或主管領導能力等問題)。
根據以上的說明,我們可以了解到假設驅動研究與資料驅動研究各有其優缺點。在運用時,我們不應該將這兩種方法視為可以相互替代,相反的,應該把這兩種方法論,看成可以相輔相成。
作者:羅凱揚(台科大企管系博士)、蘇宇暉(台科大管研所博士候選人)
繪圖者:王舒憶(臺灣行銷研究特約設計師)