Name: 【線上課程】《 Python 網路爬蟲實戰研習馬拉松 》掌握網路大數據，學習資料驅動的核心競爭力
Start: 2022-07-13T00:00:00+08:00
End: 2022-09-14T00:00:00+08:00

▌網路爬蟲 - AI工程師必修的基礎能力

真實世界的資料絕大多數都是非結構化，而在資訊爆炸的互聯網時代，許多有價值的知識藏在這些公開資料源背後，而且這些資料來源多樣並時時更新。因此，資料收集是資料科學中的基礎技能，如何高效的收集目標資料是AI工程師必修的課題。

機器學習的關鍵資源在於巨量資料，資料蒐集是 AI 應用的第一哩路，在 AI 的訓練模型與 BI 決策過程中更是需要大量的資料集。能善用「網路爬蟲」關鍵技術的人，將能更有效、完整、精確地獲取目標資訊，從網路自動化地收集海量資訊，為後續機器學習的資料集舖路。

能善用「網路爬蟲」技術的人，可以更有效、精確地獲取目標資訊，從網路自動化地收集海量資訊，為後續機器學習的資料集舖路。本課程將讓你學習如何打造自動高效的爬蟲程式，幫你邁出資料科學成功的第一步。

▌課程內容 - 七大學習里程碑

工作區域 1 複本-100.jpg

本活動從爬蟲與網頁的基礎知識、靜態網頁與動態網頁的爬蟲技術，到Scrapy網站等級爬蟲框架與各種進階的爬蟲與反爬蟲技術，最後是整合所學的期末實務專題，共包括7大學習里程碑，能夠完成大部分學習任務的學員，我們相信你已經能掌握Python網路爬蟲的重要基礎知識與實戰能力。

◤ 7 大學習里程碑◢

(1) 爬蟲基礎知識
介紹基本的 HTTP 網路通訊原理與 HTML 內容格式，搭配程式自動化收集資料

(2) 靜態網頁爬蟲技術
拆解靜態網頁的規格與原理，使用 Python 爬蟲解析 HTML / CSS / Javascript 並收集靜態網頁中特定的資料

(3) 動態網頁爬蟲技術
以使用 Selenium + BeautifulSoup 模擬瀏覽器執行動態網頁，解析收集各種動態網頁生成的特定資料，並學習用瀏灠器開發者工具解析網頁內容的特徵

(4) 資料視覺化
學習 Matplotlib, Seaborn, Plotly 等不同繪圖框架，將爬蟲蒐集到的資料進行視覺化呈現

(5) Scrapy 網站爬蟲框架
面對網站級別的多網頁爬蟲需求，學習用 Scrapy 建立爬蟲策略與爬蟲框架

(6) 進階爬蟲技術
有許多網站並非完全公開，本章將教你如何使用爬蟲進階技巧克服反爬蟲網站、自動登入、驗證碼等障礙和如何加速大量網頁的爬蟲執行效率。

(7) 期末實戰專題
綜合上述所學，提供三種題目讓學員展現學習到的技能
MoneyDJ 新聞網：即時新聞爬蟲與分析
PTT Stock 版：論壇文章爬蟲與關鍵詞分析
PressPlay：課程爬蟲與主題文本分析

▌完整即戰力 - 11個爬蟲實務實專題

本課程不僅教你網路爬蟲的各個重要知識點，更以實務專題帶學員操作各種類型專題，每個專題都有相當高的實務應用性，此外，每個專題都有提供解答寫法與註解予學員參考。讓你最短時間獲得網路爬蟲完整即戰力。

11個爬蟲實務專題：

(1) ETTODAY 靜態爬蟲實

(2) PTT (批踢踢)網路爬蟲實作練習

(3) Wikipedia 爬蟲實作練習

(4) Yahoo! 電影網頁實作練習

(5) 銀行即時匯率爬蟲實作練習

(6) 空氣污染網站爬蟲實作練習

(7) Hahow 好學校課程列表爬蟲實作練習

(8) 104 人力銀行網站爬蟲實作練習

(9) LinkedIn 個人聯絡人爬蟲實作練習

(10) 蝦皮電商圖片爬蟲實作練習

(11) 京東電商商品列表爬蟲實作練習

▌本課程將讓你將掌握下列技能

● 能使用 Python 獨立完成網路爬蟲程式之撰寫與實務應用
● 掌握網站架構解析與觀察 HTTP Request / Response 解析目標網站的資訊內容
● 能針對靜態網站與動態網站分別實作不同的網路爬蟲策略
● 實際完成真實網站的網路爬蟲挑戰與解決實際遭遇的爬蟲問題
● 使用爬蟲進階技術克服反爬蟲網站、自動登入、驗證碼等障礙和
● 加速大量網頁的爬蟲執行效率
● 當前主流類型的網站資料爬蟲能力

▌適合對象

工作區域 11-100.jpg