【活動簡介】
很多 AI 專案最尷尬的時刻,不是在開發前,而是在 PoC 或 Demo 之後。
工程團隊說:「測試分數有提升,Demo 看起來也正常。」
主管接著問:「所以這個 AI 可以上線了嗎?」
使用單位可能覺得:「有些回答還行,但有時候會錯,可以再優化嗎?」
這時候,真正困難的問題才會出現:
你要怎麼判斷,這個 AI 到底算不算夠好?
很多團隊會直覺地看幾個測試分數、人工試問幾題,或依靠 Demo 當下的感覺做判斷。但 AI 專案麻煩的地方在於:看起來能回答,不代表可以穩定上線;分數變高,也不一定代表真實情境的風險降低。
這堂體驗課會帶你從一個的 AI 案例出發,理解為什麼 AI 驗收不能只看最後回答,也不能只靠主觀感覺。你會看見一個 AI 系統的成效問題,可能來自需求沒有定清楚、測試題設計錯位、檢索資料沒找對,或生成回答沒有按照依據。
這不是一堂技術實作課,也不是工具教學。
而是一堂給 AI 專案推動者、PM、主管、業務、顧問與跨部門協作者的判斷入門課。
我們會用一小時,幫你建立一個更清楚的視角:
當 AI 看起來「還不錯」時,你應該怎麼拆解問題、問出關鍵問題,並和工程團隊、主管、使用單位建立共同的成效討論語言。
【你會在這堂課理解】
為什麼 Demo 正常,不代表 AI 專案可以上線
Demo 通常「展示最順的情境」,但真實使用者會問出更多模糊、邊界、缺資料或高風險的問題。這堂課會幫你看懂,為什麼不能只用 Demo 來判斷 AI 是否成功。
為什麼分數提升,不一定代表專案真的變好
AI 專案常常會出現「指標看起來改善,但實際體驗沒有變好」的狀況。
你會理解分數背後還需要追問:測的是什麼?測試題代表真實情境嗎?錯誤類型是不是被分清楚?
如何拆解 AI 問答系統的問題來源
同樣是一個錯誤回答,問題可能不在模型,而是在資料、檢索、測試題,甚至一開始的需求定義。這堂課會帶你建立基本的診斷視角,不再只停留在「AI 答錯了」這種模糊描述。
如何把「感覺不錯」變成可以討論的驗收問題
AI 驗收最怕的是大家都在講感覺:工程覺得有改善、主管覺得可以試、使用者覺得有時好有時壞。這堂課會幫你建立一套更具體的討論語言,讓團隊能開始對齊「什麼叫夠好」。
【精彩課綱】
1. 從 Demo、測試分數與常見品質盲點切入
理解為什麼 AI「看起來能用」,不代表真的可以上線。
2. 釐清 AI 專案上線前的驗收條件與團隊共識
看懂專案負責人如何協助團隊對齊:什麼叫夠好、哪些錯誤可以接受、哪些風險不能忽略。
3. 用真實案例拆解 AI 回答錯誤背後的問題來源
從 RAG 問答案例出發,理解問題可能來哪裡。
4. 理解為什麼測試題本身,也會影響成效判斷
好的測試題不是隨便問幾題,而是要反映真實場景、邊界情境與上線風險。
5. Q&A 問答環節
針對 AI 專案驗收、成效判斷與跨部門溝通問題,保留現場交流與提問時間。
【這堂課適合誰】
- 正參與AI專案,擔任決策或協作角色:專案/產品 PM、技術人員
- 擴展 AI 專案視野,培養跨域溝通力:提前了解 AI 成效驗收判斷盲點



