當STP「行銷策略」遇到資料科學 — 系列4 — 【資料蒐集】PTT貼文抓取模組教學

PTT貼文抓取模組教學

  1. 看板:在此稱為Board_Name,讀者可以輸入自己想要爬取的看板執行爬蟲作業。讀者可以至https://www.ptt.cc/cls/1 PTT分類看板中搜尋自己想要爬取的看板名稱,或者直接Google「ptt 想要的看板中文名稱」,如:「ptt 內衣」,Google大神就會協助讀者找到可能的ptt看板,然後再確認是否是讀者想要爬取的網站即可。最後將「看板」名稱,如圖1所示的「看板 underwear」英文複製並貼上至crawl_ptt_page_auto函數下的Board_Name數值,如:Board_Name = ‘underwear’即大功告成!
  2. 頁:在此稱為page_num,讀者可以輸入自己想要爬取的看板「頁數」,即會從最新的看板頁數開始往後爬取囉!
圖1. 如何抓取看板參數
圖2. crawl_ptt_page_auto函數說明
  1. 版名:抓取的看板名稱
  2. 分類:有公告、贈送、心得、情報等分類,通常公告在我們後續的分析會移除,因為其用處對於輿情分析來說用途不大
  3. 標題:PTT不同文章的標題
  4. 內容:抓取文章的內容
  5. 時間:發表文章的時間
  6. 所有留言:該篇文章所有留言抓取下來,但是抓取下來的格式並不能直接進行分析,在後續系列文章中會開始講解如何整理留言資料,為後續的STP行銷策略分析有個好的開始!

教學鏈接:STP資料科學_系列4-【資料蒐集】 PTT貼文爬取模組.ipynb

圖3. PTT模組抓取結果

敬請期待!

資料蒐集_Python網路爬蟲_ptt【留言】爬取與PTT資料整理

歡迎加入我們的Telegram獲取即時訊息!https://t.me/marketingdatascience
歡迎加入我們的Line@獲取即時訊息!https://line.me/R/ti/p/%40cde8265r

您可能有興趣:

📢TMR限定88優惠即將結束!!

1.【TMR】 X 【 好學校】
👨‍💼Python商業全系列數位課程👨‍💼

#行銷人必學實用Python課程

#實用投資分析課程

#好學校企業百大課程之一:

【TMR】 X 【工研院】
🏭工業4.0大數據智慧應用課程🏭

2020課程地圖

🏆 國內第一本行銷資料科學專書

🏆國內第一本「股票小祕書」專書

  1. 天瓏書局:http://bit.ly/stock-secretaryBot
  2. 博客來:https://www.books.com.tw/products/0010833772

--

--

--

Marketing data science. 台灣第一個行銷資料科學(MDS)知識部落,本粉絲專頁在探討行銷資料科學之基礎概念、趨勢、新工具和實作,讓粉絲們瞭解資料科學的行銷運用,並開啟厚植數據分析能力之契機。粉絲專頁:https://www.facebook.com/MarketingDataScienceTMR

Love podcasts or audiobooks? Learn on the go with our new app.

Get the Medium app

A button that says 'Download on the App Store', and if clicked it will lead you to the iOS App store
A button that says 'Get it on, Google Play', and if clicked it will lead you to the Google Play store
行銷資料科學

行銷資料科學

Marketing data science. 台灣第一個行銷資料科學(MDS)知識部落,本粉絲專頁在探討行銷資料科學之基礎概念、趨勢、新工具和實作,讓粉絲們瞭解資料科學的行銷運用,並開啟厚植數據分析能力之契機。粉絲專頁:https://www.facebook.com/MarketingDataScienceTMR

More from Medium

On Top of the World

Importance of Mulesoft Integration Platform

Mulesoft Integration with multiple layers

Data Cleansing made Simple using SimpleData Management

Performance tests needed? JMeter to your rescue. Part 1