
在AI應用領域中,音訊AI(Voice Al)一直是極具展潛力與商業值研究的領域。而且隨著當前許多優秀成熟的技術可以應用於不同的場景,音訊A將有更廣泛的應用場景幫助人們解決實際問題。這些技術包括:
- 音訊分離與轉碼技術音樂生成技術
- 語音識別技術
- 語音分類技術
- 語音情感辨識技術
- 語音翻譯技術
- 語音分析技術
- 聲音生成與聲音分割技術
這些技術已成熟到足以應用於不同的行業和領域,例如音樂、教育、健康和旅遊等,它們可以為各行業與領域帶來巨大的商業價值,同時也是開發者與創業者們值得關注的重要領域。

- VoiceAI的發展趨勢與產業應用
- VoiceAI的技術簡介與應用場景
- 各行業商業應用範圍
- 具體案例介紹
﹡語音情感辨識技術用於身心科醫療領域
﹡使用語音識別與分離技術自動紀錄醫生與病人之訪談紀錄與重點摘要 - 如何發掘音訊AI的商業潛力






本次講座不只講解音訊AI的商業應用場景底層技術,我們同時規畫了音訊資料科學的基礎開發課程;適合音訊程式開發新手,本課程由台北圓山扶輪社贊助支持,全程免費,AI開發者們不要錯過 !
- D1|音訊是什麼?
介紹音訊基礎原理,與音訊相關的基本參數、儲存方式等 - D2|如何錄製音訊?
介紹一些基礎錄製音訊的工具,包括PC executable/Mobile APP/Package&Lib等 - D3|常見音訊儲存格式介紹
介紹音訊儲存格式,包含:未壓縮的wav/pcm/hd5/flac、壓縮的mp3/aac/ogg等 - D4|Python實用音訊處理工具介紹
介紹音訊處理相關的Python Package如Librosa、pydub、torch.audio等,並簡介其功能與特色 - D5|視覺化音訊處理基本視覺化呈現讀取的音訊,並簡單介紹波型/頻譜

- D6-7 |音訊基本特徵簡介
主要介紹音訊的基本特徵,讓學員對於後面的實作部分有所了解。 - D8 |Python 以時域方法實作音高
計算認識音高的意義,利用Day 7的音框切分實作音高計算 - D9|FFT意義介紹
認識頻譜轉換時所使用的方法-傅立葉變換、離散傅立葉變換與短時傅立葉變換等 - D10|Python 以頻域方法實作音高計算
以頻域為主的方法實作音高計算

- D11|哼唱辨識基礎介紹
介紹哼唱辨識的概念、使用到的資料與方法介紹,以讓學員能有一個基礎認識 - D12|MIDI格式介紹、讀取工具與資料庫準備介紹
介紹哼唱辨識所需資料格式的主要轉換來源: MIDI,與MIDI的讀取方式、並以MIDI格式為例實作資料存放架構 - D13-14|增進辨識率方法1:線性伸縮(Linear Scaling)
介紹線性伸縮的方法,並使用Python實作 - D15-16|增進辨識率方法2:動態時空扭曲(Dynamic Time Warping)
介紹動態時空扭曲的方法,並使用Python實作 - D17-18|增進辨識率方法3:類神經網路法
介紹使用類神經網路的方法,並使用Python實作 - D19|哼唱辨識的問題探討
介紹哼唱辨識主要會碰到的問題,與可能的解法

- D20|歌聲轉譜基礎介紹
介紹歌聲轉譜的基礎、使用特徵、主流方法等 - D21 | 人聲音符的起始點偵測法: energy-based方法與peak picking
介紹判斷人聲音高的起始點的方法,以偵測各個音符的出現處 - D22 | 人聲音符的起始點偵測法: spectral-based方法
介紹在歌聲轉譜下不同的起始點偵測法,並用python實際操作 - D23 | 人聲音符的起始點偵測法:評估方法
介紹如何評估音符起始點方法的好壞 - D24 | 人聲音符的起始點偵測法:應用機器學習提升效能
介紹如何利用基礎的機器學習方法來更加準確地預測人聲音符起始點 - D25|歌聲轉譜的問題與挑戰
討論現今歌聲轉譜遇到的問題,及可能的克服方法

- D26|原曲辨識基礎介紹
介紹原曲辨識的概念、使用到的資料與方法介紹,以讓學員能有一個基礎認識 - D27|原曲辨識的基礎方法 ─ 地標法討論與實作
簡單介紹原曲辨識的原點方法-地標法,對特徵及比對方法作介紹,並以Python實作 - D28|以雜湊法實作原曲辨識資料儲存
以位元編碼的方式儲存每首歌的地標特徵,並使用雜湊法作為取用地標特徵的方式,大幅降低儲存空間 - D27|實際服務探討 - 以Shazam為例
以實際商用服務Shazam為例,探討原曲辨識的使用情境,及其因應的可能架構設計 - D28|以深度學習為基礎的原曲辨識方法探討
介紹以深度學習法為基礎的原曲辨識,由訓練方式、模型架構等方向探討

- D29|來源分離基礎介紹
介紹來源分離的基礎、使用特徵、主流方法等,並說明各式來源分離的差別 - D30|主流方法介紹 - 非負矩陣分解 (Nonnegative Matrix Factorization)
介紹非負矩陣分解方法,並以非負矩陣分解來實作來源分離演算法 - D31|主流方法介紹 - Autoencoder
介紹深度學習著名的Autoencoder架構為主的來源分離演算法,並實際操作 - D32|主流方法介紹 - U-Net
介紹以深度學習為基底的U-Net架構為主的來源分離演算法,並實際操作 - D33|來源分離相關應用探討
討論來源分離的相關應用,藉此了解相關的技術底蘊

- D34|異音辨識基礎介紹
介紹異音辨識的基礎、使用特徵、主流方法等 - D35|以傳統機器學習方法實作異音辨識模型
介紹異音辨識利用的原理,並以傳統機器學習方法建構異音辨識模型 - D36|以Autoencoder實作異音辨識模型
使用Autoencoder實作異音辨識的模型 - D37|異音辨識的問題與挑戰
討論異音辨識相關的問題,及可能的克服方法

- D38|語音辨識介紹
基礎的語音辨識架構介紹、歷史沿革、使用特徵,及主流方法等介紹 - D39|語音辨識訓練工具: Kaldi介紹
介紹目前語音辨識上主流使用的Kaldi框架、與相關基礎知識 - D40|Kaldi實作(1) - 環境建置與前期準備
以官方Github建設Kaldi安裝環境 - D41|Kaldi實作(2) - 資料準備
準備相關的語音資料以利用Kaldi作後面訓練使用 - D42|Kaldi實作(3) - 特徵抽取
介紹如何使用Kaldi對準備的資料作特徵抽取 - D43|Kaldi實作(4) - 高斯混成模型訓練
利用Kaldi工具對資料集作高斯混成模型訓練 - D44|Kaldi實作(5) - 深度學習模型訓練
利用Kaldi工具,及Day 43訓練出來的高斯混成模型訓練深度學習模型 - D45|語音辨識延伸問題討論
介紹其餘部分如語言模型、端到端法等各式不同的語音辨識主題,並探討其想要解決的問題

本講座與免費公開課程由台北圓山扶輪社主辦贊助,迪威智能與Cupoy協辦。






