當STP「行銷策略」遇到資料科學 — 系列4 — 【資料蒐集】PTT貼文抓取模組教學

行銷資料科學
9 min readAug 31, 2020

--

接續系列3的文章,我們知曉了基本的Python爬蟲方法,並且深度講解了如何爬取PTT的標題、文章網址、作者等爬蟲方法,接下來我們要將系列3的文章內容整合成一個讀者可以爬取PTT資料的Python模組程式,讓爬取PTT外部輿情變得更簡單! 若讀者還沒有參考過我們過往系列3的文章或者對爬蟲方法還有點模糊的話,歡迎參考:

當STP「行銷策略」遇到資料科學 — 系列3 — 【資料蒐集】 Python網路爬蟲專案導向教學

PTT貼文抓取模組教學

作者在此直接附上寫好的PTT貼文模組教學,讓您一次可依照自己的需求爬取!

論模組使用方式,我們特別設定了一個crawl_ptt_page_auto函數,讓讀者能自由操作想要爬取的看板與頁,如圖2所示:

  1. 看板:在此稱為Board_Name,讀者可以輸入自己想要爬取的看板執行爬蟲作業。讀者可以至https://www.ptt.cc/cls/1 PTT分類看板中搜尋自己想要爬取的看板名稱,或者直接Google「ptt 想要的看板中文名稱」,如:「ptt 內衣」,Google大神就會協助讀者找到可能的ptt看板,然後再確認是否是讀者想要爬取的網站即可。最後將「看板」名稱,如圖1所示的「看板 underwear」英文複製並貼上至crawl_ptt_page_auto函數下的Board_Name數值,如:Board_Name = ‘underwear’即大功告成!
  2. 頁:在此稱為page_num,讀者可以輸入自己想要爬取的看板「頁數」,即會從最新的看板頁數開始往後爬取囉!
圖1. 如何抓取看板參數
圖2. crawl_ptt_page_auto函數說明

最後,我們抓取PTT看板結果如圖3呈現的內容:

  1. 版名:抓取的看板名稱
  2. 分類:有公告、贈送、心得、情報等分類,通常公告在我們後續的分析會移除,因為其用處對於輿情分析來說用途不大
  3. 標題:PTT不同文章的標題
  4. 內容:抓取文章的內容
  5. 時間:發表文章的時間
  6. 所有留言:該篇文章所有留言抓取下來,但是抓取下來的格式並不能直接進行分析,在後續系列文章中會開始講解如何整理留言資料,為後續的STP行銷策略分析有個好的開始!

實戰模組內容也歡迎讀者可以參考我們下述撰寫的Jupyter notebook鏈接哦~!

教學鏈接:STP資料科學_系列4-【資料蒐集】 PTT貼文爬取模組.ipynb

圖3. PTT模組抓取結果

系列3與4所有的程式教學檔案在此,歡迎參考:

敬請期待!

我們持續在行銷資料科學Medium平台推出一系列的【當STP「行銷策略」遇到資料科學】文章。

如同我們之前在本篇 — 盡信資料,不如無資料文章中所提到的大意,要有好的分析結果,勢必要有完整且乾淨的資料,所以在後續的文章中,我們開始要教導大家如何進行PTT【留言】資料蒐集與資料整理,開始資料處理與分析前的第一步!

所以敬請讀者期待下一個單元 —

資料蒐集_Python網路爬蟲_ptt【留言】爬取與PTT資料整理

歡迎透過telegram或Medium追蹤我們~ 及時掌握行銷資料科學最新動態!

作者:鍾皓軒(臺灣行銷研究有限公司創辦人)

Python jupyter notebook整理作者:陳俊凱(臺灣行銷研究特邀整理作者)、孔慶媛(臺灣行銷研究特邀整理作者)

歡迎加入我們的Telegram獲取即時訊息!https://t.me/marketingdatascience
歡迎加入我們的Line@獲取即時訊息!https://line.me/R/ti/p/%40cde8265r

您可能有興趣:

📢TMR限定88優惠即將結束!!

TMR為您量身打造「全方位數據課程」
👨‍🎓熱門Python程式語言結合全新商業思維,快來終生學習不間斷!
超值優惠僅此一次,多種好康別錯過~

1.【TMR】 X 【 好學校】
👨‍💼Python商業全系列數位課程👨‍💼

【優惠方案】
👉「單一課程」享88折限定優惠價
👉若同時購買以下「任兩門課程」則享❗79折❗優惠價
👉優惠期間:8/3–8/31
🏃趕緊手刀私訊粉專購買: https://bit.ly/39QpCcg

【適用課程】

#行銷人必學實用Python課程

《 Python 0到1 基礎商業數據分析實戰 》
💥88折限定價:2,800 (原價$3188)
👉 從0開始:手把手從頭學習,適合完全沒學過的學員
👉 商業應用全台最多:傳授市面上少見的Python實務應用
👉 網路輿情爬蟲演練:網路輿情商務爬蟲技法
👉 競品分析:競爭價值定位圖找出藍海策略
👉 貨架陳列視覺化:解析行銷策略及廣告預算配置方法
🛒 購買方式:私訊購買

《 顧客分類大師:Python x RFM 會員經營新觀點 》
💥88折限定價:2,100 (原價$2388)

🎯 Python X RFM最佳拍檔,輕鬆鎖定潛(錢)在顧客
不需要出門,在家也能學習專業課程,讓你擁有會員經營的新思維!

本課程以五個面向為您的企業,做更深入的健診:
👉 市場面:以最基本的顧客消費資料(頻率、購買次數),將現有顧客區隔分類。
👉 財務面:計算出在每個顧客身上所賺得毛利,在不同客群中的獲利。
👉 行銷面:藉由 RFM 的分析進行行銷預算重新分配。
👉 產品面:觀察在不同客群中,各個產品的銷售狀況。
👉 顧客回購面:分析顧客的購買週期後,進行精準推薦。
🛒 購買方式:私訊購買

《 AI 行銷學:用 Python 機器學習創造商業新價值 》
💥88折限定價:3,420 (原價$3888)
👉 全台第一門Python機器學習線上課程
👉 教導你快速理解Logistic Regression, XGBoost, Random Forest商務機器學習模型。
👉 建構老闆或主管們看得懂的模型評估指標,讓精準行銷方案更容易被接受且推出
👉 如何利用機器學習找出消費者心中的重要變數及客樣貌與特徵,做到個體及總體的商品推薦?
👉 如何從數以萬計的消費資料中偵測可能的詐欺名單?
🛒 購買方式:私訊購買

#實用投資分析課程

《 用 Python 打造自己的股票小秘書 》
💥88折限定價:3,770 (原價$4288)
👉 打造自動推播機器人,趁著股市最近低迷,找出最適進場點
👉 「到價提醒」功能,大大提升投資便利性
👉 了解Python雲端服務架構,完整的專案流程
👉 孰悉No SQL資料庫操作,未來大數據的基礎
🛒 購買方式:私訊購買

#好學校企業百大課程之一:

台科 EMBA 年年爆滿的一門 Word 課(A系列)
💥 8 折優惠價 : 760 (原價:950)
👉 系統性學習Office軟體功能,教您別人不知道的快捷鍵
👉 調整不受控制的行距與精準對齊排版
👉 一鍵轉換Word到Excel
👉 有效率處理企畫書、畢業論文、小組報告、公文等
🛒 購買方式:私訊索取折扣碼

台科 EMBA 年年爆滿的一門 Word 課(B+C系列)
💥 8 折優惠價 : 840 (原價:1,050 )
👉 傳授獨家快捷鍵字典
👉 分享好用的大綱模式,讓文章處理更有效率
👉 建立大綱模式、多層次清單、目錄與圖表目錄,掌握文件編輯規則
👉 優化文章的邏輯架構
🛒 購買方式:私訊索取折扣碼

— — — — — — — — — — — — — — — — -

【TMR】 X 【工研院】
🏭工業4.0大數據智慧應用課程🏭

《Python工業4.0人工智慧:製程資料處理大師》
🎉今天上架🎉

製程數據資料 X 資料科學,
為您開啟工業人工智慧領域的大門!
👉全球前十大智慧製程案例實戰
👉專業講師手把手帶您入門製程資料處理分析
👉課後完整模組心法讓您通通帶回家

💥價格 : 2,500
🏃趕緊手刀前往購買:https://bit.ly/39koNbn

— — — — — — — — — — — — — — — — -

2020課程地圖

💪 點我看更多

🏆 國內第一本行銷資料科學專書

💪 點我看書本資訊

🏆國內第一本「股票小祕書」專書

附上購書網址~ 國外的朋友也可以使用博客來與金石堂的通路轉運到國外哦!

  1. 天瓏書局:http://bit.ly/stock-secretaryBot
  2. 博客來:https://www.books.com.tw/products/0010833772

--

--

行銷資料科學

Marketing data science. 台灣第一個行銷資料科學(MDS)知識部落,本粉絲專頁在探討行銷資料科學之基礎概念、趨勢、新工具和實作,讓粉絲們瞭解資料科學的行銷運用,並開啟厚植數據分析能力之契機。粉絲專頁:https://www.facebook.com/MarketingDataScienceTMR