直擊WAIC2019現場:連接,進化與人工智能的新“頭牌”

“如果結果不夠好,那一定是還沒有到最后。”

撰文|裴一多

出品|產業家

“您好,我是齊天大圣孫悟空!”一個孫悟空的聲音在上海世博中心的場館中響起。

?別誤會,這可不是孫悟空配音者出現在現場,這個酷似孫悟空的聲音來自于智能語音企業標貝科技的一款語音合成互動產品——“你說我學”。而在場館現場,除了孫悟空特色合成聲音外,你還可以看到包括臺灣女聲小美、中文兒童冉冉等6個動漫IP形象,滑動到對應人物形象進行點擊,說出你想要的話語,人物就會將話語用個性化聲音表達出來。

直擊WAIC2019現場:連接,進化與人工智能的新“頭牌”

這一幕來自于8月29日在上海世博展館舉辦的WAIC2019世界人工智能大會。

?在人工智能行業飛速發展的如今,一個不爭的事實的是,語音開始扮演場景連接器的新角色,通過賦能產品,成為了AI服務的最新供應商。可以理解為,在這個最接近未來的行業里,“一個好的聲音,就是一門好生意”已經成為一個共識。

?跑馬圈地間,賽道新“頭牌”已經出現。

一、智能語音的產業新「抓手」

智能語音的東風已來。

一組來自語音產業聯盟白皮書的數據為證:人工智能行業在近幾年的產業增長率平均在43%左右,2018年市場規模達200億元,預計到2019年年末,整個人工智能行業規模將達到近300億元。

?而在這一組上揚曲線背后,智能語音的發展更為引人關注。作為如今人工智能賽道產業化程度相對成熟、產業規模較大的細分領域,2011年其整個市場規模只有6.3億,到2017年整個智能語音市場規模已經超過百億,整個行業的發展近乎呈現指數級增長。

?市場是宏大的,實操是具體的。盡管如今各家在語音識別領域呈現出你追我趕的進擊態勢,但在如今的這股智能語音東風中,一個微不可查的趨勢是,語音合成正在成為各家新的布局點。

?“很多從事做語音識別的大牛現在轉型做語音合成。以一些公司為例,它之前對合成的重視程度不是特別高,但從去年開始,重心逐漸轉向合成”。一位業內人士告訴產業家。

?時代趨勢永遠和個體行為相伴,事實確實如此。國外,Google系的Lyerbird推出了一套“只需一分鐘的聲音樣本就能模仿任何人說話”的系統;去年,微軟在其公有云平臺上推出了語音合成定制服務產品Custom Voice。國內,標貝科技推出有370余種音庫支撐的“聲音超市”,為客戶提供一整套的個語音合成解決方案;訊飛推出了“訊飛留聲”,只需要10段的聲音采集即可完成個人聲音的復刻。

直擊WAIC2019現場:連接,進化與人工智能的新“頭牌”

?就當下而言,與語音識別、語義理解等智能語音交互的技術相比,語音合成技術的體系更為獨立,也更被外界認為是有機會單獨存在而無需做全棧的一個方向。

不難看到,人工智能行業正在駛向深水區。

隨著人工智能賽道更為個性化的產品的出現,對聲音的要求不再是千篇一律,而是更加追求個性化和飽滿度,以通過更好地連接場景來完善基于產品本身的服務。這也意味著,語音定制化已經成為了一個新的剛需。

二、「拆解」語音合成這張牌

?事實上,相比于聚光燈下的語音識別、語義理解兩項技術,語音合成更為“低調”。

低調背后是其相較于其他兩種技術更為嚴苛的標準,“聲音是日常溝通交流的重要載體,想要讓大家在各種場景下都能享受到很好的聲音體驗,要讓聲音以假亂真,其苛求度非常高。”標貝科技聯合創始人兼CTO李秀林說道。

他是語音合成行業的老兵,見證了近年來語音合成技術在國內從無到有,不斷發展的每個階段,“怎么讓聲音更有溫度,更有靈性地與產品結合,是一個永遠需要探討的命題。”

?從時間軸來看,追溯語音合成技術還要回到上世紀90年代,彼時科大訊飛是最主要的玩家。早期的語音合成技術應用很受局限,主要應用在汽車導航、銀行叫號、醫院叫號和車站播報系統,可以理解為,那時候的合成技術處于萌芽期。

合成技術分兩種,第一種稱為拼接法。把語音里面所有的語料基礎片段都錄好,再根據需要,擇取語音單元,并拼接成具體話語,這種方法需要大量的語音錄制。第二種稱為參數法。基于有限的語料數據通過參數模型訓練,合成新語段,參數法的優勢在于對錄音數量要求較少,幾千句話就能出一個合成效果。

?“無論客戶用哪種合成技術,都離不開專業的語音數據服務。”標貝科技數據團隊負責人表示。可以理解為,在語音合成的賽道上,語音數據是一切服務的“基石”,唯有基于此才可以鑄造語音合成“更高層建筑”。

但這并不是全部。“盡管都認識到語音合成的重要性,但真正實現可落地的產品還是很少。”一位常年關注人工智能賽道的人告訴我們。

事實確實如此。相比于技術的研究,從實驗室到商用階段的跨越才是真正考量一家企業能否適應趨勢的最佳標準。

在AIOT和物聯網不斷發展的當下,人們需要的是可視化的聲音,進而輔助不斷涌現的新設備,打造更具生命力、溫度的智能硬件。

換個角度理解,對語音合成技術而言,數據、場景、產品、服務,四位一體,相互遞進,相互成就,缺一不可。語音連接場景,場景構建服務。

在這個被新置于大眾主流認知的跑道上,有人已出發,有人在觀望。

直擊WAIC2019現場:連接,進化與人工智能的新“頭牌”

三、標貝科技的“重生意”

語音合成技術的落地需要多少步?不可計量。

這是標貝科技給出的答案。發音人選擇、語料設計、語音采集、數據處理、語音深度加工……但凡你能想到的關于聲音合成全部環節,都早已成為標貝科技產品落地環節的家常便飯。

直擊WAIC2019現場:連接,進化與人工智能的新“頭牌”

據了解,標貝科技有一套專業化業務流程,大致包括語料設計、語音采集和數據處理等環節。作為定制化的數據服務提供商,由于流程繁復,貫穿每個環節的質量控制便成了最終結果的生命線。

“人工智能比較厲害在于不僅把簡單的標注處理好,還可以把后期的合成,通過技術手段提升準確度,最終接近真人發聲的狀態。”標貝科技語音團隊負責人表示。

標貝科技有這樣的底氣。首先,標貝科技有著專業的標注團隊和大量自有數據打底,為語音合成提供豐富不斷的“原料”,據了解,標貝科技目前有著3000余小時的自有合成數據庫;其次,它已經構建出了包含需求分析、立項設計、嚴格授權的數據采集,專業的數據加工處理流程,嚴格的校對及語音標注,統一整齊的結構處理、TTS評測系統等全部環節的完整業務鏈。

直擊WAIC2019現場:連接,進化與人工智能的新“頭牌”

?這也意味著,標貝科技不僅僅能提供語音合成標準化服務,更可以提供多場景個性化的語音定制方案。

數據壁壘輔以專業的技術模式,最終落地成了標貝科技的明星產品——聲音超市。其模式即為在標貝科技提供的匯集370余種音庫,同時包含多元音色、類型、明星、動漫IP和優質發音人等多個維度的聲音平臺上,自由挑選聲音,根據線程、調用次數等模式進行繳費。據了解,截至目前,語音數據超市的規模已經突破10萬小時。基于此,標貝科技還同步為有需求的大型企業提供定制化業務。

直擊WAIC2019現場:連接,進化與人工智能的新“頭牌”

另外,除了定制化、標準化的技術模式和超大容量的語音庫外,聲音超市同樣還有服務的加碼。基于此的是標貝科技的TTS評測系統,對于它的作用,你可以理解為“檢測師”——即利用系統為保障客戶后續產品的調試和完善。

?不難看出,標貝科技在此之中的角色不僅僅是“授魚人”,更是“授漁者”。

?截至目前,標貝已與百度、阿里、騰訊、微軟、京東、滴滴、字節跳動、網易、360、三星等國內外百余家企業客戶建立合作,服務項目累計超過300項,涵蓋汽車、教育、客服、零售、閱讀、智能硬件等領域。

除此之外,標貝科技還免費向社會開放了中文合成語音數據庫(10000句),主動承擔行業“水電煤”的角色,通過對行業數據庫等基礎設施的搭建賦能AI產業,加速產品在不同場景下的落地。可以理解為,在AI大火的當下,標貝科技真正將自己定位成了構筑行業基石的“底層搭建者”。

對它而言,這是一門“重”生意,更是一門“慢”生意。走得快,更要走的穩。

四、技術驅動的背后

時代正在變化。

?“標貝科技認為語音合成現在走入一個新的階段。”李秀林說,“功能性的時代已經過去了,語音合成功能并不稀奇,現在最主要的需要讓用戶有更多的可選擇性,需要滿足個性化的需求。”

?毫無疑問,AI、互聯網與5G的結合,將加快萬物互聯時代的到來。對產業而言,各方緊密協作,更需要強大且不斷迭代的基礎服務。對企業而言更應該找準自己的定位,建立自身壁壘,為產業發展提供基礎支持,構建基于自身有力的競爭優勢。

?在人工智能不斷躍進的當下,進化將是存活下來的唯一機會。

?但我們更應該給予關注的是,在不斷涌現出來的、改變時代節奏的新產品、新趨勢背后,像標貝科技等在技術領域十年如一日的挖井人。

?從海量數據收集到技術模型搭建,從前端產品設計到后端運維服務,每一個流暢的環節背后都有著成千上萬次的調試和計算,每一個新體驗、新需求背后都是一個個從0到1的算法和研究。

?吃水不忘挖井人,時代終將有所饋贈。一如那句話,“如果沒有最好的結果,那一定是還沒有到最后。”應如是。

原創文章,作者:產業家,如若轉載,請注明出處:http://www.ftnsqh.live/?p=2977

發表評論

電子郵件地址不會被公開。 必填項已用*標注

湖北体彩11选五奖结果