背景及问题
目前,随着视频会议及监控的迅速发展,视频和音频的应用技术已经相对成熟。在实际应用中,音频的交互处理仍然处于最基本和最核心的部分,人们对音频的实时性要求更为苛刻,因此,在网络带宽允许的条件下,当不同地点的多个终端,需要进行实时音频交互时,需要将多路音频按照一定的策略进行混合,并最终编码发送给另外的终端。
多路音频交互的核心问题就是混音,而提供资源使用率相对低且音频交互质量更高的混音方法,以提升用户的实际体验效果,已成为本领域技术人员需要解决的技术难题。
传统多路音频混音方法分析
为解决此类问题,传统的方法是采用多点控制单元(MCU) 将多路音频信号混音为一路,如此可以有效降低网络数据的传输量。MCU混音的方式是:根据信号线性叠加的原理,将多路音频信号的采样量化数据叠加。随着终端数量的增多,此种方式会导致MCU的运算负荷和上传带宽急剧增大,所以此方式只能适用在较小规模的会议系统中。
将混音处理都集中在一台服务器来进行,对服务器的上传带宽和CPU处理能力要求很高,由此衍生出了分布式处理方式,即由多个终端来进行混音处理,而分布式的混音方法遇到的最主要问题就是对终端的下载带宽要求较高,同时也需要终端具有较高的多路音频解码和混音的处理能力,此外还需要终端配置良好的混音算法以获得高质量的混音效果。
目前,诸多的混音算法,用于处理4路以内的音频,还能获得较好的混音效果,然而对于4路以上的音频,混音后音质会急剧下降,而且极易出现量化溢出等问题(如图1所示效果)。为了确保各路音频的波形尽量能够在混音后保持原始的形态,以达到声音真实还原和音质更佳的效果,就必须解决数据叠加溢出的问题。
常见的几种解决溢出问题的方式如下:
平均化时域线性叠加的方法;
此法最为简单,但是混音效果很不好,存在混音后各路的音频衰减太多,音量偏小,不利于实时的沟通。
基于变换域的混音方法:
将各路音频转化为频域并做覆盖性差值,最后转换回时域得到混音数据的方法。此类方法虽然能很好解决溢出问题,但实现四路以上的混音难度较高,不具备普遍应用的优势。
图 1 现有直接叠加混音后的效果图(6路音频输入
【中安网原创稿件声明】转载中安网文章时应遵循以下三个规则:1、保持原创文章中图表、图片、音视频的完整性;2、完整标注文章作者[文章前后有说明];3、转载中安网原创中部分内容也要完整标注来源"中安网",违者本网将依法追究。
【想第一时间了解安防行业的重磅新闻吗?请立即关注中安网官方微信(微信号:cpscomcn)——安防行业第一人气微信,万千精彩,千万不要错过!!!
网友评论
共有0条评论 点击查看全部>>24小时阅读排行
本周阅读排行