教你收集散落在網站各個角落的重要資訊
在Web網路世界中,網頁可以說是我們最常接觸的資訊單位,但我們都知道每一篇網頁能包含的資訊量極為有限,很多時候我們需要瀏灠大量的網頁才能匯整出我們想要的目標資訊。
而在大數據時代,光靠我們有限的時間和注意力是很難有效率的完成這些任務,這時我們需要全站式的網站爬蟲程式加上相關的文字處理與資訊檢索工具,用機器來幫助我們收集與匯整我們想要的內容。讓一切事半功倍。
本堂課屬於網路爬蟲進階工作坊,我們將使用Scrapy框架教你如何搭建一個網站級的爬蟲程式,透過Scrapy,你將能時時監控目標網站的各種改動,並即時收集上面的資料集,對於公開資訊網站監控與建置大數據資料集,例如股市、新聞、部落格、電商等服務都非常實用。
Python Scrapy網路爬蟲框架
課程內容
本工作坊規畫約90分鐘的網路爬蟲實戰工作坊,老師將帶領大家實作完整爬蟲專案。內容包括介紹專案所需要調整的scrapy框架設定、爬蟲程式碼分享、資料流處理、專案分享總結、經驗分享等重要實戰知識。
- 介紹專案所需要調整的scrapy框架設定
介紹因應專案所需,scrapy需要調整哪些設定以及原因
- 爬蟲程式碼分享
針對專案,介紹程式碼建立的過程及流程並實作
- 資料流處理
介紹如何根據專案所需,調整資料流的規劃
- 專案分享總結
總結專案所使用到的程式規畫邏輯,並介紹在不同情境下如何做不同的規劃
- 經驗分享
介紹常見反爬蟲手段及爬蟲專案常見問題,並介紹簡單的處理應對方式
- 用戶問答互動
建議預讀資料
- 建議學員有上過Python爬蟲馬拉松或其它網路爬蟲基礎課程。
- 對Scrapy有基礎的認識
- 請事先安裝Pycharm、scrapy作業環境
- 完成預讀教材的相關教學:教材區連結



