***可選擇實體或遠距上課***
Google Cloud Certified: Professional Data Engineer認證考試推薦學習課程
Google Cloud Certified: Professional Data Engineer認證考試推薦學習課程
學習目標和取得技能
- 在Google Cloud Platform 上設計和建構數據處理系統
- 利用Cloud Dataflow 實施自動水平調節資源來處理批量數據和串流數據
- 使用BigQuery 從超大型企業資料倉儲系統中獲取有利的商業資訊和業務洞察
- 使用Tensorflow 和Cloud ML 訓練,評估和預測機器學習模型
- 使用Cloud Dataproc 上的Spark 和ML API 來利用、解析非結構化數據
- 從實時串流數據中即時洞察資訊
教學方式
Google認證講師課堂指導
教材與實驗
Google原廠教材與Qwiklabs實驗室
課程適合對象
負責管理企業大數據轉型業務之有經驗開發者,涵蓋任務包含:
- 提取,加載,轉換,清理和驗證數據
- 設計數據處理的渠道和架構
- 創建和維護機器學習和統計模型
- 操作和查詢數據集、將查詢結果視覺化和創建數據分析報告
前備知識
- 完成GCP Fundamentals: Big Data & ML ㇐日基礎課程或具備同等知識
- 熟悉常用資料庫,如SQL 的基礎語法
- 曾有數據建模、提取、轉換,和加載數據運行的經驗
- 可使用Python 等程式語言開發應用程序
- 熟悉機器學習和/或統計
課程大綱
課程包括課堂講解,演示和學員實作實驗
Module 1:介紹Google Cloud Dataproc
主題 | 實驗 |
創建和管理集群 | -- |
自定義機器類型和先占工作節點 | -- |
擴展和刪除集群 | Creating Hadoop Clusters with Google Cloud Dataproc |
Module 2:運行Dataproc 作業
主題 | 實驗 |
運行Pig 和Hive 工作 | Running Hadoop and Spark Jobs with Dataproc |
存儲和計算的獨立 | Submit and monitor jobs |
Module 3:利用GCP 整合Dataproc
主題 | 實驗 |
使用初始化操作自定義集群 | -- |
BigQuery 支援介紹 | Leveraging Google Cloud Platform Services |
Module 4:利用Google 的機器學習API 了解非結構化數據
主題 | 實驗 |
Google 的機器學習APIs | -- |
常見的ML 應用 | -- |
喚起實行ML API | Adding Machine Learning Capabilities to Big Data Analysis |
Module 5: 以BigQuery 進行無伺服器式資料分析
主題 | 實驗 |
什麼是BigQuery | Writing queries in BigQuery |
將數據加載到BigQuery 中 | -- |
從BigQuery 導出數據 | Loading and exporting data. |
巢狀與重複的資料欄 | -- |
查詢多個資料表(multiple tables) | Complex queries |
功能表現與收費定價 | -- |
Module 6: 以Dataflow 建構無伺服器、自動調整資源的數據渠道
主題 | 實驗 |
Beam SDK 整合式程式設計模型 | -- |
以Beam 中的Python API 開發渠道 | -- |
以Beam 中的Java 開發渠道 | Writing a Dataflow pipeline |
以Beam 做資源可調的大數據處理 | MapReduce in Dataflow. |
納入其他數據 | Side inputs. |
處理串流數據 | -- |
GCP 參考架構 | -- |
Module 7:機器學習入門
主題 | 實驗 |
什麼是機器學習(ML) | -- |
有效的ML:概念,類型 | -- |
ML 資料集:歸納化/㇐般化 | Explore and create ML datasets |
Module 8:使用Tensorflow 構建ML 模型
主題 | 實驗 |
TensorFlow 入門 | Using tf.learn |
TensorFlow 圖形和循環 | Using low-level TensorFlow + early stopping |
監控ML 訓練 | Charts and graphs of TensorFlow training |
Module 9:使用CloudML 擴展ML 模型
主題 | 實驗 |
為何選擇Cloud ML? | -- |
打包TensorFlow 模型 | -- |
End-to-end 訓練 | Run a ML model locally and on cloud |
Module 10:特徵工程
主題 | 實驗 |
構建好的特徵 | -- |
轉換投入資料 | -- |
合成特徵 | -- |
使用Cloud ML 進行資料預處理 | Feature engineering |
Module 11:串流分析渠道的基礎架構
主題 | 實驗 |
串流數據處理的挑戰 | -- |
處理變量資料卷(volumes) | -- |
處理無序/延遲數據 | Designing streaming pipeline |
Module 12:擷取變量數據
主題 | 實驗 |
什麼是Cloud Pub / Sub? | -- |
工作原理:主題和訂閱 | Simulator. |
Module 13:實現串流渠道
主題 | 實驗 |
即時資料處理中的挑戰 | -- |
處理延遲數據:watermarks、triggers、accumulation | Stream data processing pipeline for live traffic data. |
Module 14:串流資料分析和儀表板
主題 | 實驗 |
串流分析:從數據到決策 | -- |
使用BigQuery 查詢串流數據 | -- |
什麼是Google Data Studio? | build a real-time dashboard to visualize processed data |
Module 15:使用Bigtable 實現高傳輸量和低延遲
主題 | 實驗 |
介紹Cloud Spanner | -- |
設計Bigtable 架構 | -- |
擷取資料至Bigtable | streaming into Bigtable |


