線上活動學習

Python網路爬蟲工作坊|金融應用篇

1,639
38
2022.05.28 (Sat) 14:00 - 17:00 (GMT+8)加入行事曆

此活動為線上活動,購票後可於票券頁進入直播連結

線上活動

此為線上活動,不受地點限制,輕鬆享受活動樂趣!

大數據資料集是機器學習的關鍵基礎,現今在各種資訊大量充斥於網路,要能有系統地即時蒐集網路上不斷更新的資訊,網路爬蟲的技能是必不可少的,能掌握網路爬蟲技術才能蒐集到需要的資料,把所學的 AI 演算法應用於實際要解決的問題。
大數據資料集是機器學習的關鍵基礎,現今在各種資訊大量充斥於網路,要能有系統地即時蒐集網路上不斷更新的資訊,網路爬蟲的技能是必不可少的,能掌握網路爬蟲技術才能蒐集到需要的資料,把所學的 AI 演算法應用於實際要解決的問題。

線上活動

此為線上活動,不受地點限制,輕鬆享受活動樂趣!

活動簡介

大數據資料集是機器學習的關鍵基礎,現今在各種資訊大量充斥於網路,要能有系統地即時蒐集網路上不斷更新的資訊,網路爬蟲的技能是必不可少的,能掌握網路爬蟲技術才能蒐集到需要的資料,把所學的 AI 演算法應用於實際要解決的問題。

在入門爬蟲的同時,對台灣金融相關資料有初步認識;從簡單的資料爬蟲中做中學,了解爬蟲的基本步驟、邏輯和程式碼撰寫,並逐漸學會如何針對不同網站撰寫特定需求的爬蟲

■ 金融文本資料爬蟲工作坊學習目標:

  • 董監事持股明細爬蟲 (公開資訊觀測站)
  • 公司基本資訊爬蟲 (Goodinfo! 台灣股市資訊網)
  • 基金資訊爬蟲 (MoneyDJ 理財網-基金搜尋)
  • 財經新聞爬蟲 (鉅亨網 台股新聞)


課程說明:

使用用 Python 做股市分析,除了從 yfinance 套件取得股價之外,我們還有其他的資訊可以納入進行分析。本次爬蟲工作坊主要聚焦在金融文本資訊爬蟲。

第一堂從結構較單純的公開資訊觀測站開始,練習透過觀察網頁載入找到 API、串接取得每月更新的公司董監事持股比例明細表。

第二堂一樣是只要會 requests 就可以取得資訊,但是多了一個要克服的問題:網站擋爬機制。我們特別找 Goodinfo! 這個會限制同一IP爬取次數的網站,讓學員透過練習取得產業類別表的同時,學習如何取得免費 proxy,並在發出的 requests 中加入 proxy。

第三堂我們進階到需要 javascript 載入的網站:MoneyDJ 理財網。
除了個股以外,也可以分析基金資料,學員練習使用 webdriver 模擬瀏覽器行為,取得基金的基本資訊,例如基金名稱、交易量、經理人等(基金的持股比例需要註冊個資並登入,在這邊不納入課程)

第四堂則是一個整合題目,示範如何結合金融爬蟲與文字探勘。我們利用在第一堂學到的方法,在網頁中觀察並找出鉅亨網新聞API,透過迴圈取得一段時間的新聞資料;再透過他的個股統計,進行重要度計算,最後用視覺化圖表呈現。學員可以將前面所學結合,並做出進一步的圖表和文字分析。
 

■ 工作坊課程一 | API 串接:公開資訊觀測站 - 董監事持股明細  ( Free 免費 ) 

2022/05/28 14:00-17:00

◎ 學習目標
我們希望能取得每間上市櫃公司每月的董監事名單和持股數,人物跨公司的關係和持股數的變化,用來做對股價變化或投資標的選擇的運用。
資料單位:每月、每間公司,會有一份名單和持股數的表格

課程內容

  • 爬蟲目標說明:公開資訊觀測站 - 董監事持股明細
  • 使用工具進行目標頁面觀察
  • 爬蟲程式撰寫練習

■ 工作坊課程二 | Goodinfo! 台灣股市資訊網 - 類股分類表 

 僅供 Cupoy 訂閱用戶參加 

2022/06/04 14:00-17:00

◎ 學習目標
我們以取得類股一覽表為例,希望把所有的概念股、集團股抓下來。為什麼要爬類股一覽表呢?原因是這樣的資訊可以幫助我們建立其中一種股票(公司)之間的關係特徵;換句話說,越常被分類在同類別的股票,在所有股票的空間中是越相近的。

課程內容

  • 爬蟲目標說明:Goodinfo! 台灣股市資訊網 - 類股分類表
  • 目標頁面觀察
  • 爬蟲程式撰寫
    • 類股分類表抓取邏輯
    • 免費代理 IP 取得及失效更換邏輯

■ 工作坊課程三 |動態爬蟲:MoneyDJ 基金基本資料 

 僅供 Cupoy 訂閱用戶參加 

2022/06/18 14:00-17:00

◎ 學習目標
將 目標基金頁面上的每支基金資本基料爬取下來

課程內容

  • 爬蟲目標說明
    • MoenyDJ 基金基本資料
  • 目標頁面觀察
  • 爬蟲程式撰寫
    • selenium web driver 撰寫

■ 工作坊課程四 | 爬蟲資料視覺化:CNYES 鉅亨網財經新聞 

 僅供 Cupoy 訂閱用戶參加 

2022/07/02 14:00-17:00

◎ 學習目標
將指定日期的台股新聞爬取下來, 並進行資料視覺化

課程內容

  • 爬蟲目標說明
  • 目標頁面觀察
    • 學員學習如何從頁面中找到隱藏的新聞 API
  • 爬蟲程式撰寫
    • 學員應用之前工作坊所學,將參數加入要發送的 requests 中
  • 資料處理與視覺化程式撰寫
    • 教練示範幾個文本探勘的案例
    • 學員自己操作看看,並且發想自己的分析,可與教練QA討論
       

【注意事項】本系列課程第一堂免費參與  Free 

本系列課程為Cupoy訂閱用戶規畫之AI實作能力培訓課程,第一堂免費參與,後續其它堂數只提供 Cupoy 訂閱用戶使用。

 

【適合對象】

課程進行方式

avatar

聯成數網

verified

Python網路爬蟲工作坊|金融應用篇

2022.05.28 (Sat) 14:00 - 17:00 (GMT+8)

活動嘉賓

楊鈞宜/Abao
楊鈞宜/Abao
王健安
王健安
loading