【活動簡介】
AI 到底達到什麼條件,才算可以驗收?
很多 AI 專案不是做不出來,而是做出來之後,沒有人說得清楚:這樣的表現,算不算夠好?
Demo 看起來很順,代表可以上線嗎?
工程師說準確率 85%,這在你的業務場景裡算及格嗎?
AI 回答怪怪的,到底是資料沒找對、模型亂編,還是測試題本身沒有設計好?
當 AI 專案進入驗收階段,真正困難的不是「再多學幾個 AI 名詞」,而是你能不能把模糊的感覺,轉換成團隊可以討論、可以追蹤、可以決策的判斷標準。
這堂體驗課會從企業最常見、也最容易誤判的 RAG 問答知識庫開始,帶你拆解 AI 成效診斷的核心邏輯:不只看最後答案,更要看資料有沒有找對、模型有沒有用對、測試題有沒有測對。
用真實案例練習,看懂一個 AI 回答錯誤時,問題可能藏在哪;也會初步理解 Golden Dataset 與 RAGAS 評估指標,在未來面對 AI 驗收會議時,知道從何該問起、下什麼判斷、怎麼跟技術團隊對齊。
你會學會把「感覺不錯」轉換成團隊可以討論的驗收問題,讓 AI 專案不再只靠主觀感受推進。
【精彩課綱】
1. 從 Demo、測試分數與常見品質盲點切入
理解為什麼 AI「看起來能用」,不代表真的可以上線。
2. 釐清 AI 專案上線前的驗收條件與團隊共識
看懂專案負責人如何協助團隊對齊:什麼叫夠好、哪些錯誤可以接受、哪些風險不能忽略。
3. 用真實案例拆解 AI 回答錯誤背後的問題來源
從 RAG 問答案例出發,理解問題可能來哪裡。
4. 理解為什麼測試題本身,也會影響成效判斷
好的測試題不是隨便問幾題,而是要反映真實場景、邊界情境與上線風險。
5. Q&A 問答環節
針對 AI 專案驗收、成效判斷與跨部門溝通問題,保留現場交流與提問時間。
【你會在這堂課理解】
為什麼 Demo 正常,不代表 AI 專案可以上線
Demo 通常「展示最順的情境」,但真實使用者會問出更多模糊、邊界、缺資料或高風險的問題。這堂課會幫你看懂,為什麼不能只用 Demo 來判斷 AI 是否成功。
為什麼分數提升,不一定代表專案真的變好
AI 專案常常會出現「指標看起來改善,但實際體驗沒有變好」的狀況。
你會理解分數背後還需要追問:測的是什麼?測試題代表真實情境嗎?錯誤類型是不是被分清楚?
如何拆解 AI 問答系統的問題來源
同樣是一個錯誤回答,問題可能不在模型,而是在資料、檢索、測試題,甚至一開始的需求定義。這堂課會帶你建立基本的診斷視角,不再只停留在「AI 答錯了」這種模糊描述。
如何把「感覺不錯」變成可以討論的驗收問題
AI 驗收最怕的是大家都在講感覺:工程覺得有改善、主管覺得可以試、使用者覺得有時好有時壞。這堂課會幫你建立一套更具體的討論語言,讓團隊能開始對齊「什麼叫夠好」。
【這堂課適合誰】
- 正參與AI專案,擔任決策或協作角色:專案/產品 PM、技術人員
- 擴展 AI 專案視野,培養跨域溝通力:提前了解 AI 成效驗收判斷盲點
- 也適合正在接觸 RAG、內部知識庫、客服問答、企業 AI 專案的人
尤其是你常被問到:
「這樣可以上線了嗎?」
「這個 AI 算不算達標?」
「Demo 看起來可以,但真實情境會不會出問題?」
「工程師給的成效數字,我該怎麼判斷?」
如果你希望擴展 AI 專案視野,提前理解 AI 成效驗收的判斷盲點,並培養與工程、主管、使用單位溝通的共同語言,這堂課會很適合你。


