FB 爬蟲可以更簡單-用Selenium自動登入FB-系列1(附Python程式碼)

行銷資料科學
9 min readOct 11, 2020

--

歡迎來到Selenium facebook爬蟲系列的第一篇文章!

Facebook已經是一個幾乎每個人都會使用的社群平台,現代人在茶餘飯後無聊時都會使用社群平台,因此我們每個人都不知不覺在FB及IG留下許多資料。不管是按讚或分享喜歡的文章,或是在文章下留言表達自己對這件事的看法等等,社群平台都有留下記錄,長期來看就形成所謂的「大數據」。

本系列文章將和大家分享動態網頁爬蟲技巧selenium在FB的一系列應用~

利用Selenium自動登入FB有什麼好處!?

在開始之前先來告訴大家利用Selenium自動登入有什麼好處呢? 我們在爬取資料時如果每次都要自己填寫帳號密碼,應該會覺得很麻煩吧! 而且在展示給其他人看自己爬蟲成果時,採用自動登入除了節省時間,看起來也比較酷炫!

因此這篇會教大家利用Selenium爬取Facebook的第一個步驟! 也就是如何自動登入臉書並前往要爬取的粉絲專頁,如下影(一)所示!!!!

是不是覺得很神奇呢!

影(一):自動前往頁面展示

接下來我們就來學習如何達到上面自動登入的成果吧~

我們將分成兩個步驟說明:

1.自動填入帳號及密碼,並登入facebook

2.前往要爬取的粉絲專頁

1.自動填入帳號及密碼,並登入facebook

透過Chromdriver,並前往facebook 登入頁面。可設定要前往的網址,並利用driver.get(url)自動前往該畫面,如下程式碼。

若想知道Chromedriver 是如何運作的朋友們,請點選:動態網頁爬蟲第一道鎖 — Selenium教學:如何使用Webdriver、send_keys(附Python 程式碼)

要達到第一個步驟前我們需要先學習如何找網頁元素,因此要先打開網頁檢視器(Windows系統:請按F12或者是ctrl + shift +iMacOS系統:請按option+command+c)可以看到以下畫面(圖一)

圖(一):網頁檢視頁面

在網頁檢視頁面的左上角點「Elements」這個按鈕後(圖二),只要把滑鼠移置想爬取的位置,就可以檢視它的網站的元素了~

圖(二):點選Elements的位置

既然我們想自動登入facebook,就必須先查找網頁中輸入帳號及密碼的網頁元素。聽起來可能有點複雜,其實只要重複前面Chromedriver 開啟網頁及尋找網頁元素所提到的方法就可以了,以下會進行詳細的介紹,就讓我們繼續看下去吧! 步驟流程可見(影二)

影(二):查找輸入電子郵件地址的網頁元素

如果要找尋特定位置,通常會使用網頁元素中的id標籤,由上述步驟我們可以發現輸入電子郵件或手機號碼的id=email,輸入密碼的id=pass。找到網頁元素後只需用send_keys這個function就能自動輸入帳號密碼囉,如下程式碼所示!! 是不是很簡單呢~

2.前往要爬取的粉絲專頁

登入facebook後,我們需要再次利用強大的Chormedriver前往想抓取資料的粉絲專頁。這個步驟非常簡單,您只需在下方程式的spec_url填寫該粉絲專頁的網址,就能前往囉~

以上就是如何自動登入並前往特定粉絲專頁的教學,接下來Python FB 爬蟲系列的文章會分別介紹如何抓取不同的粉專資料,敬請期待!!!!!

可點此查看本篇完整的程式碼

如果對FB爬蟲有興趣的朋友, 要繼續關注這個系列的文章呦 !我們下次再見

作者:孔慶媛(臺灣行銷研究特邀作者)、鍾皓軒(臺灣行銷研究有限公司創辦人)

歡迎加入我們的Telegram獲取即時訊息!https://t.me/marketingdatascience
歡迎加入我們的Line@獲取即時訊息!https://line.me/R/ti/p/%40cde8265r

您可能有興趣:

📢TMR為您量身打造「全方位數據課程」

👨‍🎓熱門Python程式語言結合全新商業思維,快來終生學習不間斷!

【TMR】 X 【 好學校】
👨‍💼Python商業全系列數位課程👨‍💼

#行銷人必學實用Python課程

《 Python 0到1 基礎商業數據分析實戰 》
💥 價格 :3188
👉 從0開始:手把手從頭學習,適合完全沒學過的學員
👉 商業應用全台最多:傳授市面上少見的Python實務應用
👉 網路輿情爬蟲演練:網路輿情商務爬蟲技法
👉 競品分析:競爭價值定位圖找出藍海策略
👉 貨架陳列視覺化:解析行銷策略及廣告預算配置方法
🛒 前往購買:https://hahow.in/cr/python0-1

《 顧客分類大師:Python x RFM 會員經營新觀點 》
💥 價格 :2388

🎯 Python X RFM最佳拍檔,輕鬆鎖定潛(錢)在顧客
不需要出門,在家也能學習專業課程,讓你擁有會員經營的新思維!

本課程以五個面向為您的企業,做更深入的健診:
👉 市場面:以最基本的顧客消費資料(頻率、購買次數),將現有顧客區隔分類。
👉 財務面:計算出在每個顧客身上所賺得毛利,在不同客群中的獲利。
👉 行銷面:藉由 RFM 的分析進行行銷預算重新分配。
👉 產品面:觀察在不同客群中,各個產品的銷售狀況。
👉 顧客回購面:分析顧客的購買週期後,進行精準推薦。
🛒 前往購買:https://hahow.in/cr/rfm-model

《 AI 行銷學:用 Python 機器學習創造商業新價值 》
💥 價格 :3888
👉 全台第一門Python機器學習線上課程
👉 教導你快速理解Logistic Regression, XGBoost, Random Forest商務機器學習模型。
👉 建構老闆或主管們看得懂的模型評估指標,讓精準行銷方案更容易被接受且推出
👉 如何利用機器學習找出消費者心中的重要變數及客樣貌與特徵,做到個體及總體的商品推薦?
👉 如何從數以萬計的消費資料中偵測可能的詐欺名單?
🛒 前往購買:https://hahow.in/cr/python-ml

#實用投資分析課程

《 用 Python 打造自己的股票小秘書 》
💥 價格 :4288
👉 打造自動推播機器人,趁著股市最近低迷,找出最適進場點
👉 「到價提醒」功能,大大提升投資便利性
👉 了解Python雲端服務架構,完整的專案流程
👉 孰悉No SQL資料庫操作,未來大數據的基礎
🛒 前往購買:https://hahow.in/cr/stock-secretary

#好學校企業百大課程之一:

台科 EMBA 年年爆滿的一門 Word 課(A系列)
💥 價格 :950
👉 系統性學習Office軟體功能,教您別人不知道的快捷鍵
👉 調整不受控制的行距與精準對齊排版
👉 一鍵轉換Word到Excel
👉 有效率處理企畫書、畢業論文、小組報告、公文等
🛒 前往購買:https://hahow.in/cr/tmr-word1

台科 EMBA 年年爆滿的一門 Word 課(B+C系列)
💥 價格 :1,050
👉 傳授獨家快捷鍵字典
👉 分享好用的大綱模式,讓文章處理更有效率
👉 建立大綱模式、多層次清單、目錄與圖表目錄,掌握文件編輯規則
👉 優化文章的邏輯架構
🛒 前往購買:https://hahow.in/cr/tmr-word2

— — — — — — — — — — — — — — — — -

【TMR】 X 【工研院】
🏭工業4.0大數據智慧應用課程🏭

《Python工業4.0人工智慧:製程資料處理大師》

製程數據資料 X 資料科學,
為您開啟工業人工智慧領域的大門!
👉全球前十大智慧製程案例實戰
👉專業講師手把手帶您入門製程資料處理分析
👉課後完整模組心法讓您通通帶回家

💥價格 : 2,800
🏃趕緊手刀前往購買:https://bit.ly/39koNbn

— — — — — — — — — — — — — — — — -

2020課程地圖

💪 點我看更多

🏆 國內第一本行銷資料科學專書

💪 點我看書本資訊

🏆 國內第一本行銷資料科學 ” 實作 ” 專書

💪 點我看書本資訊

🏆國內第一本「股票小祕書」專書

附上購書網址~ 國外的朋友也可以使用博客來與金石堂的通路轉運到國外哦!

  1. 天瓏書局:http://bit.ly/stock-secretaryBot
  2. 博客來:https://www.books.com.tw/products/0010833772

--

--

行銷資料科學

Marketing data science. 台灣第一個行銷資料科學(MDS)知識部落,本粉絲專頁在探討行銷資料科學之基礎概念、趨勢、新工具和實作,讓粉絲們瞭解資料科學的行銷運用,並開啟厚植數據分析能力之契機。粉絲專頁:https://www.facebook.com/MarketingDataScienceTMR