Name: NLP機器學習馬拉松讀書會
Start: 2023-03-04T14:00:00+08:00
End: 2024-05-25T16:00:00+08:00

自然語言(NLP) x 機器學習 = 大量商機應用情境

真實自然語言處理(Natural Language Process, NLP)是一種讓電腦認知理解人類語言的技術，NLP機器學習是近年快速成長的 AI 技術，從電商、金融、法律、新聞輿情、專家系統.....等各領域無不涵蓋，NLP相關工作將成為你AI職涯的攻略目標。

本次讀書會將帶大家進行【NLP自然語言機器學習馬拉松】的重點導讀，幫助學員可將NLP馬拉松中的各種知識點應用於專題中，讓你從實作掌握NLP的各種應用。

本讀書會學習目標

課程內容_機器學習

一、自然語言處理(NLP)緒論與 NLP AI專案流程介紹

介紹自然語言處理理論及應用
自然語言(NLP) AI專案流程介紹

二、語料庫建構原則

認識語料庫與公開語料庫介紹
語料庫介紹及應用

三、Python 常用的文字處理工具介紹

資料前處理_語料清洗_字串處理函數應用
正規表達式 (Regular Expression) 語法介紹
資料前處理_語料清洗_Pandas套件應用
資料前處理_文字雲應用

四、詞彙處理與斷詞技術

斷詞(tokenization)技術介紹
基於詞典與統計的斷詞方法
基於統計與深度學習的斷詞方法
NLTK英文斷詞工具介紹及應用
SnowNLP、HaNLP斷詞工具介紹及應用
Jieba 中文斷詞工具介紹及應用
CkipTagger繁體中文斷詞工具介紹及應用

五、NLP特徵工程技術

詞袋模型(Bag of Word Model)理論介紹
Term Frequency - Inverted Document Frequency (TF-IDF 模型概論)
詞嵌入向量 - 詞庫與計數之方法
詞嵌入向量 - 以降維的方式改善計數方法
詞嵌入向量 - N-Gram介紹
詞嵌入向量 - N-Gram實作
詞嵌入向量 - Word2Vec介紹
詞嵌入向量 - Word2vec的讀取與訓練
詞嵌入向量 - FastText介紹與實作
詞幹/詞條提取(Stemming and Lemmatization)

六、常見的NLP機器學習應用

機器學習基礎-常見任務
機器學習基礎-損失函數(Loss function)
機器學習基礎-優化器(Optimizer)
機器學習基礎-效能衡量指標(混淆矩陣)
機器學習基礎-效能衡量指標(ROC/AUC)
詞性標註( Part-Of-Speech Tagging )
詞性標註實作
命名實體識別( Named Entity Recognition )
命名實體識別實作
文本分類( Text Classification )
文本分類實作
文本摘要提取( Text Summarization )
文本摘要提取實作

七、常見的機器學習模型

主成分分析(Principal Components Analysis, PCA)
K-近鄰演算法
K-近鄰演算法
KNN 實作
Naive Bayes 原理
手刻 Naive Bayes (單純貝氏)
Naive Bayes 實作 (單純貝氏)
決策樹演算法(Decision Tree)
隨機森林演算法(Random Forest)
Adaboost 演算法
實作樹型(Tree Base)模型
實作樹型(Tree Base)模型
XGBoost (Extreme Gradient Boosting)

課程內容_深度學習

一、Pytorch深度學習框架

Pytorch 深度學習框架與開發環境
認識 Pytorch 的張量與其基本操作
使用 Pytorch 進行微分與倒傳遞
以 Pytorch 進行基礎資料讀取
以 Pytorch 實現自由數據讀取
使用 Torchtext 進行 NLP 數據處理
搭建 PyTorch 神經網路基礎模型
PyTorch 模型修改與特定層擷取
使用 PyTorch 搭建神經網路模型
PyTorch 模型訓練

二、推論方法之詞向量技術 (Word2Vec / Glov)

推論手法的詞向量技術 - word2vec
word2vec 的 CBOW 模型與 Skip-gram 模型
推論方法的詞向量：實作簡易 word2vec
推論方法的詞向量 word2vec：的高速化
推論方法的詞向量：實作加速版 word2vec
gensim 自然語言處理工具包基礎教學
推論方法的詞向量：Glove 詞向量算法

三、NLP經典遞迴神經網路模型 (RNN / LSTM / GRU)

RNN 遞迴神經網路基礎介紹
使用 Pytorch 實作 SingleRNN
遞迴神經網路：認識LSTM / GRU / BiRNN

四、NLP Seq2Seq (Encoder - Decoder Model)

Seq2Seq- Encoder-Decoder 基本概念
實作 Seq2Seq (Encoder - Decoder Model)

五、NLP 注意力機制 (Attention mechanism 與 Transformer)

Attention mechanism(注意力機制)基礎教學
Attention Mechanism(注意力機制)的優點與分類應用
Transformer 架構與 encoder 層介紹
Transformer 架構與 embedding / decoder 層介紹
Transformer Performance 評估與應用討論

六、各種NLP預訓練模型 (ELMo / Bert & More / 預訓練模型調參)

NLP ELMo 預訓練模型介紹與範例實作
Transformer + 預訓練 : 集大成的 Bert 模型
輕量化 Bert 應用範例
調參版Bert應用範例
Bert 案例應用練習 (一)：「假新聞分類案例」
BERT的案例應用練習(二) ：「文法與中間詞預測」

適合對象

1. 活動時間：2023/03/04起每個月第一個星期六 14:00~16:00
2. 活動地點：線上Google meet 會議室、Youtube直播。
3. 通知方式：活動前一週會寄送通知信給予報名者，會議室連結皆會於通知信及課程教材區公告內公布。
4. 參加對象：直播活動不限對象皆可免費參加。
5. 學習內容與相關權利：本活動之直播階段為開放免費參與，唯直播回放內容與課程講義屬於Cupoy訂閱或課程購買用戶可以存取。本活動之所有內容均屬本活動單位所有，未經本單位書面授權，任何人不得轉載或於任何場合公開。
6. 本活動單位保有更動活動時間與內容之權利。

NLP機器學習馬拉松讀書會

線上活動