1.客戶-語音→語音識別:機器人本身是無法完成識別語音的,因此第一步是將用戶的語音轉(zhuǎn)換為文本,該步驟需要依靠語音識別這一技術(shù)。單談?wù)Z音識別的話,是一項復(fù)雜、需要持續(xù)投資的技術(shù),在當(dāng)今社會,這一塊做的好的也就那么幾家,科大訊飛、谷歌、微軟、阿里、百度、騰訊等。因此很多做電話機器人使用的都是這些大廠的語音識別技術(shù)(國內(nèi)主要使用科大和阿里的)。
2.語音識別-文本→自然語言理解:這時候用戶說的話已經(jīng)被語音識別轉(zhuǎn)化為文字了,機器人拿到文字后,利用自然語言理解,分析用戶的意圖,通俗來說,就是要知道客戶在說什么
3.語言識別-意圖→對話管理:此時,機器已經(jīng)識別出客戶的意圖,下一步機器需要知道應(yīng)該如何正確回答客戶的問題。
4.對話管理-觸發(fā)→預(yù)設(shè)話術(shù):此時機器人已經(jīng)理解客戶在說什么,需要做的就是組織好語音回答客戶的問題,一般情況,這些回答都是提前預(yù)設(shè),機器人會自動調(diào)用然后回答客戶的問題,從而完成一次有效對話。
5.預(yù)設(shè)話術(shù)-呼叫→人工錄音:當(dāng)機器知道需要回答哪個話術(shù)時,就需要調(diào)用與該話術(shù)相對應(yīng)的錄音。此時,為了提高營銷效果,大多數(shù)客戶都選擇播放真人錄音,但效果更逼真。因此,人工錄音的效果在很大程度上決定了前端用戶接電話時的體驗。