混音是将两个或多个音频波形组合在一起的过程。它涉及将多个音频信号混合在一起,以创建一个整体音频混合物。混音可以用于音乐制作、电影制作、广播等领域。
在混音过程中,可以对每个音频信号应用各种处理,如音量调节、均衡器调整、时域处理(如混响和延迟)以及动态范围处理(如压缩和限制)。这些处理可以改变音频的声音特性、空间感和动态范围,以达到所需的效果。
- 音频对齐:如果有多个音频轨道,需要将它们在时间轴上对齐,以确保它们在正确的时间点播放。
- 音量均衡:调整每个音频轨道的音量水平,使它们在混音中达到适当的平衡。这可以通过调整每个轨道上的音量控制来实现。
- 音频处理:根据需要,对每个音频轨道应用各种音频处理效果,如均衡器、压缩器、混响等。这些效果可以改变音频的频率响应、动态范围和空间感。
- 空间处理:通过应用混响、立体声扩展和声像定位等效果,为音频创建适当的空间感。这可以使音频在立体声或环绕声系统中呈现出更广阔的声场。
- 动态处理:如果需要,可以应用动态处理效果,如压缩和限制,以控制音频的动态范围,使其在不同播放环境中保持一致的音量水平。
- 混音平衡:在整个混音过程中,不断调整各个音频轨道的音量和效果参数,以达到所需的混音平衡和音频质量。
- 导出混音:完成混音后,将混合后的音频导出为最终的音频文件,以供播放、发布或后续处理使用。
可视化混音例子
- 1Hz at 1 amplitude 1 振幅时为 1Hz
- 3Hz at 0.33 amplitude 0.33 振幅时为 3Hz
eg: 多个声音混合
eg: 如果两个音频刚好相位偏移 180 度,即两个音频刚好互相抵消,这也是降噪耳机的原理
音量标准化
不同音频的音量差别大,有时候我们需要调大音量看视频,有的又需要调小音量听音乐。
如果需要把伴奏和人声进行混音,我们肯定是需要他们的音量在一个合适的数值,这样才不会出现混音后,人声盖过伴奏或者伴奏盖过人声的情况。
对于这个问题音频行业其实是有解决方案的,即制定一个响度的标准,并以此进行音量标准化(将平台内所有的音频都调整到同一个标准值),表示响度水平的LUFS (又称LKFS,详见)由此诞生。
常见音视频播放平台的响度数值:
在音视频播放的用户场景如果需要用户体验好的话,是很有必要做音量标准化的。比如下面三个例子:
- 用播放器来播放播客,前一个播客声音很小,于是把系统音量调大了,所以下一个播客突然很刺耳。小宇宙播客 App 进行音量标准化的实现
- 使用腾讯会议开会的时候,有些发言用户声音比较小,有些声音比较大,希望可以对较小声音的发言者进行声音的增益等等。实现:计算音量 -> wasm 算法均值 -> 播放。
- 抖音上视频由于都由客户自己上传,因此声音大小不稳定,在切换视频后声音有时变大有时变小。希望在不手动调整声音的前提下,各个视频声音大小能够维持稳定。抖音的声音归一化的技术