視頻會議的音視頻處理技術要點
- 2023-11-08 09:29:44
- 0
- 廣州市歐力音響設備有限公司
圖像預處理:
1)圖像清晰度優化
由于受光照、噪聲、焦距、鏡頭等的影響,攝像頭實際采集的圖像會出現清晰度、對比度、亮度等不佳等情況,無法給用戶最佳的視頻觀看體驗。
全時云會議結合詳細的客戶反饋以及最新的學術前沿,對采集的圖像通過銳化、亮度提升,膚色檢測、膚色調整、去噪等算法的結合進行清晰度優化,給予客戶最佳的體驗。與此同時考慮到客戶硬件資源的強弱情況,全時云會議采用了硬件加速策略,使得清晰度優化可以針對全部用戶使用。
2)虛擬背景
云會議中的虛擬背景主要用于用戶由于個人隱私或所處位置比較敏感時需要將背景信息用已有的圖像或視頻替換,簡稱虛擬化。
全時云會議結合2020 CVPR的最佳分割論文自研人像分割模型,通過改變數據的通道、多種不同的loss、Matting模塊、人臉檢測;增加圖像邊緣開閉運算、光流法、時域參考、高斯濾波等圖像后處理,給予客戶最佳的視覺體驗。
3)美顏
全時云會議依據自研人臉檢測和關鍵點檢測模型,對人臉區域進行磨皮、美白、大眼、瘦臉等操作。同時由于視頻會議的特殊性,不能對人臉區域進行力度較大的美顏效果,我們通過測試近百人進行效果調優,達到視頻會議中最佳的用戶體驗。
音頻前處理:
在實時語音通訊中用戶對語音的敏感度會很高,好的語音質量會大大提升視頻會議滿意度。全時自主研發了智能語音質量增強技術,解決了在實時語音通訊過程中影響用戶體驗的問題,其核心技術包括:
噪聲抑制(ANS)自適應各種平穩、非平穩噪聲環境,讓通話者專注于通話,不用擔心所處環境;回聲消除(AEC)覆蓋全平臺的回聲消除算法,收斂快,ERLE高,保證通話不受干擾;自動增益(AGC)控制,保證通話過程語音信號平穩;支持48khz全頻帶采樣,還原聲音高保真度,為用戶提供極致高清音質體驗。
全球分布式平臺可提供具有企業級可靠性和服務質量的高清安全語音服務,支持電話(PSTN)、網絡語音(VOIP)、硬件終端(H323)的無縫融合,兼容外置拾音器/揚聲器、耳機、聽筒、外放、藍牙模式,讓語音通訊不再受限于終端設備、變得更加便捷舒適。














網站首頁
產品中心
應用案例
一鍵撥打