▌網路爬蟲 - AI工程師必修的基礎能力
真實世界的資料絕大多數都是非結構化,而在資訊爆炸的互聯網時代,許多有價值的知識藏在這些公開資料源背後,而且這些資料來源多樣並時時更新。因此,資料收集是資料科學中的基礎技能,如何高效的收集目標資料是AI工程師必修的課題。
機器學習的關鍵資源在於巨量資料,資料蒐集是 AI 應用的第一哩路,在 AI 的訓練模型與 BI 決策過程中更是需要大量的資料集。能善用「網路爬蟲」關鍵技術的人,將能更有效、完整、精確地獲取目標資訊,從網路自動化地收集海量資訊,為後續機器學習的資料集舖路。
能善用「網路爬蟲」技術的人,可以更有效、精確地獲取目標資訊,從網路自動化地收集海量資訊,為後續機器學習的資料集舖路。本課程將讓你學習如何打造自動高效的爬蟲程式,幫你邁出資料科學成功的第一步。

▌課程內容 - 七大學習里程碑
本活動從爬蟲與網頁的基礎知識、靜態網頁與動態網頁的爬蟲技術,到Scrapy網站等級爬蟲框架與各種進階的爬蟲與反爬蟲技術,最後是整合所學的期末實務專題,共包括7大學習里程碑,能夠完成大部分學習任務的學員,我們相信你已經能掌握Python網路爬蟲的重要基礎知識與實戰能力。
◤ 7 大學習里程碑◢
(1) 爬蟲基礎知識
介紹基本的 HTTP 網路通訊原理與 HTML 內容格式,搭配程式自動化收集資料
(2) 靜態網頁爬蟲技術
拆解靜態網頁的規格與原理,使用 Python 爬蟲解析 HTML / CSS / Javascript 並收集靜態網頁中特定的資料
(3) 動態網頁爬蟲技術
以使用 Selenium + BeautifulSoup 模擬瀏覽器執行動態網頁,解析收集各種動態網頁生成的特定資料,並學習用瀏灠器開發者工具解析網頁內容的特徵
(4) 資料視覺化
學習 Matplotlib, Seaborn, Plotly 等不同繪圖框架,將爬蟲蒐集到的資料進行視覺化呈現
(5) Scrapy 網站爬蟲框架
面對網站級別的多網頁爬蟲需求,學習用 Scrapy 建立爬蟲策略與爬蟲框架
(6) 進階爬蟲技術
有許多網站並非完全公開,本章將教你如何使用爬蟲進階技巧克服反爬蟲網站、自動登入、驗證碼等障礙和如何加速大量網頁的爬蟲執行效率。
(7) 期末實戰專題
綜合上述所學,提供三種題目讓學員展現學習到的技能
MoneyDJ 新聞網:即時新聞爬蟲與分析
PTT Stock 版:論壇文章爬蟲與關鍵詞分析
PressPlay:課程爬蟲與主題文本分析
▌完整即戰力 - 11個爬蟲實務實專題
本課程不僅教你網路爬蟲的各個重要知識點,更以實務專題帶學員操作各種類型專題,每個專題都有相當高的實務應用性,此外,每個專題都有提供解答寫法與註解予學員參考。讓你最短時間獲得網路爬蟲完整即戰力。

11個爬蟲實務專題:
(1) ETTODAY 靜態爬蟲實
(2) PTT (批踢踢)網路爬蟲實作練習
(3) Wikipedia 爬蟲實作練習
(4) Yahoo! 電影網頁實作練習
(5) 銀行即時匯率爬蟲實作練習
(6) 空氣污染網站爬蟲實作練習
(7) Hahow 好學校課程列表爬蟲實作練習
(8) 104 人力銀行網站爬蟲實作練習
(9) LinkedIn 個人聯絡人爬蟲實作練習
(10) 蝦皮電商圖片爬蟲實作練習
(11) 京東電商商品列表爬蟲實作練習
▌本課程將讓你將掌握下列技能

● 能使用 Python 獨立完成網路爬蟲程式之撰寫與實務應用
● 掌握網站架構解析與觀察 HTTP Request / Response 解析目標網站的資訊內容
● 能針對靜態網站與動態網站分別實作不同的網路爬蟲策略
● 實際完成真實網站的網路爬蟲挑戰與解決實際遭遇的爬蟲問題
● 使用爬蟲進階技術克服反爬蟲網站、自動登入、驗證碼等障礙和
● 加速大量網頁的爬蟲執行效率
● 當前主流類型的網站資料爬蟲能力
▌適合對象
▌作者介紹




▌AI 學習馬拉松學員評價回饋







