廣東省路橋建設(shè)有限公司網(wǎng)站泉州seo按天收費(fèi)
聲明,此項(xiàng)技術(shù)需要root支持,如果因?yàn)樗C(jī)導(dǎo)致手機(jī)變磚或其他不可預(yù)料的后果請(qǐng)自行解決。
場(chǎng)景
我有一個(gè)朋友他是做業(yè)務(wù)的,主要還是做電銷,其實(shí)電銷相對(duì)于以前紀(jì)念沒那么好做了(我自己覺得主要是互聯(lián)網(wǎng)沖擊,各個(gè)細(xì)分領(lǐng)域把對(duì)應(yīng)的流量分走了,于是電銷的轉(zhuǎn)化效果就打了折扣,不過電銷由于使用的真人發(fā)音,在在建立信任度方面,會(huì)比文字聊天或者機(jī)器人更加有優(yōu)勢(shì))。
但是電銷的成本確實(shí)也在不斷提高,為了節(jié)約成本,大家都在想辦法,比如我這個(gè)朋友他就準(zhǔn)備用語音識(shí)別+真人錄制的方式做客服,因?yàn)樗臉I(yè)務(wù)本來就很單一,客戶問到的問題基本在他們的培訓(xùn)資料上都有標(biāo)準(zhǔn)回答,他們只需要按照這個(gè)標(biāo)準(zhǔn)回答回復(fù)即可,一方面他覺得枯燥乏味,另一方面,她希望能提高效率,擺脫這種困境。
針對(duì)這種場(chǎng)景,我覺得確實(shí)可以用自動(dòng)化來做,而且能大大節(jié)約成本,他們希望能把原來的硬件設(shè)備能用上,比如手機(jī),sim卡等。在經(jīng)過認(rèn)真思考后,我給出了我的低成本的技術(shù)架構(gòu)。
通話替換語音技術(shù)
業(yè)務(wù)分析?
首先,他們的手機(jī)是小米6的手機(jī),對(duì)于他們業(yè)務(wù)員來說,其實(shí)并沒有要求用多好的手機(jī),只要不卡,打電話夠用就行。二米6在二手市場(chǎng)上大量的存貨,價(jià)格基本也就是3,4百一臺(tái)的樣子。加上電話卡每個(gè)業(yè)務(wù)員的硬件成本并不高。主要的投入還是在龐大的業(yè)務(wù)人員薪資上。如果能夠?qū)崿F(xiàn)自動(dòng)化,在一定程度上能節(jié)省至少一半的業(yè)務(wù)員的支出。
他問我,最近不是出了個(gè)ChatGpt嗎,是不是可以用他來做人工客服,然后利用語音合成來做智能機(jī)器人。我給比較難,然后出了三點(diǎn)原因:
- ChatGpt投入比較大,目前垂直領(lǐng)域的公司用ChatGpt接入到現(xiàn)有系統(tǒng)的公司基本都是大公司,他們利用自己的語料庫在原本的大模型上進(jìn)行訓(xùn)練。而訓(xùn)練大模型需要大量的算例,頭部公司的硬件投入就在幾十上百萬張v100。這對(duì)于一般小公司來講不切實(shí)際。而如果僅僅是對(duì)于原有模型進(jìn)行微調(diào),需要用到的硬件成本也不會(huì)很低,包括訓(xùn)練工程師以及一個(gè)完整的團(tuán)隊(duì)。通常來講,這樣去做的都是本著做平臺(tái)去做的。
- ChatGpt的大模型里面包含了眾多的語料數(shù)據(jù),試想一下,你的智能客服本來是推廣產(chǎn)品的,但是和客戶聊著聊著變成了瞎聊,完全和業(yè)務(wù)不沾邊,這種情況肯定需要去規(guī)避,但是客戶可不是經(jīng)過專門訓(xùn)練的,他不知道應(yīng)該問那些問題,如果要分割這個(gè)大模型,這里面需要做的微調(diào)可就多了,不是一時(shí)半會(huì)能搞定的事情。
- 前面說的是成本,在接入后,使用效果也未必能達(dá)到想要的效果??赡芑吮葮I(yè)務(wù)員或者客服更多的錢,但是收效甚微,這就有點(diǎn)不劃算。綜合考慮,還是先用更容易施行的方案,等Gpt的服務(wù)成本下來后在考慮介入進(jìn)去。
?
解決方案
那怎么做呢?我是這樣架構(gòu)的:客戶通訊錄放在后臺(tái),應(yīng)用端請(qǐng)求通訊錄數(shù)據(jù)到手機(jī)上,手機(jī)開始撥號(hào),撥號(hào)出去后電話接通,通過檢測(cè)接通的信號(hào)開始播放預(yù)先錄制好的音頻流。當(dāng)客戶說話的時(shí)候停止播放音頻流,并將客戶過來的額音頻流推送到后臺(tái)服務(wù)器進(jìn)行識(shí)別處理,這種音頻識(shí)別技術(shù)在國內(nèi)已經(jīng)相當(dāng)成熟了,有配套的解決方案。轉(zhuǎn)化成文字后,對(duì)文字進(jìn)行關(guān)鍵詞檢索和匹配,匹配后利用關(guān)鍵詞去匹配預(yù)先錄制好的語料數(shù)據(jù),將預(yù)料數(shù)據(jù)推送到客戶的電話端。
這種情況下我們并不需要太多的語料,基本上只要將培訓(xùn)時(shí)用到的語料都覆蓋,就可以解決7成以上的問題,但是由于我們并不是真人,因?yàn)橐矔?huì)遇到一些處理不了的情況,比如說客戶的發(fā)言并沒有識(shí)別到準(zhǔn)確的關(guān)鍵詞,或者觸發(fā)了特定關(guān)鍵詞:如人工客服,人工服務(wù)等。這個(gè)時(shí)候就需要業(yè)務(wù)員或者客服主動(dòng)介入處理。
?
即是說,相對(duì)于全人工的情況,上面只有在觸發(fā)需要人工的時(shí)候才會(huì)介入。但卻又在一開始讓客戶認(rèn)為是真人在聽他們講話而且不會(huì)對(duì)他們的發(fā)言做出消極回應(yīng)。
實(shí)際上,我給他算了一下這套方案的成本,主要是這套程序的開發(fā),而這里面最大的技術(shù)難點(diǎn)在于手機(jī)在接通電話時(shí)候接入音頻并輸送到對(duì)方,同時(shí)錄制對(duì)方傳過來的聲音,以流的方式推送出去。而這套技術(shù)我們已經(jīng)實(shí)現(xiàn)了。剩下來的就是做關(guān)鍵詞的提取和匹配,以及語音識(shí)別等等。有一些系統(tǒng)甚至已經(jīng)介入了人工合成語音的機(jī)器人,但是效果不太理想,我覺得介入這個(gè)結(jié)束后,轉(zhuǎn)化率和效果會(huì)大大提高。