背景
软考要考。
图像的本质是二维数组
音频的本质是一维数组
说实话不仅仅只是软考要考,个人认为每一个熟练使用图片处理软件、音频、编曲软件的人来说这些东西都应该知道。
图像
图像可以分为矢量图,svg类型的,和位图png、jpg类型的。这里只讨论位图。
图像的本质就是像素矩阵。可以看成二维数组
分辨率 m x n 就是二维数组的宽度和高度
颜色深度:24位,表示二维数组里的每个元素所占用的空间都是24个比特位。
音频
真实世界的音频可以看成一个波函数,有响度、频率的概念。
但是一旦被数字化记录下来,就离散化了。
就相当于把一个函数用一维数组表示了。所以就要采样,就像在函数中,x每隔0.1,打一个点,记录一下y值,追加到数组中。
这里就出现了 采样率 和位深度 的概念
采样率
采样率:决定了在函数上打点的密集程度,越密集肯定越逼真。它实际上表示一秒钟内打了多少个点,通常来说是非常多的,可能有44.1 k 这么多。所以这个时候,采样率=44.1 kHz
位深度
位深度(样本精度、量化位数):决定了一位数组中每个元素的类型,比如是double类型还是float类型。这只是举个例子,实际上它决定的是数组中每个元素占用多少比特,每个元素有可能占用16个比特。
它决定了音频的动态范围,也就是最大音量和最小音量之间的差异。(对比函数图像就知道肯定是和响度有关)
一般是16或者24位。
思考问题
如果在16位深度的情况下,把响度拉满,最终的音量响度大概能达到多大?
1 | 对于位深度为16位的音频,每个采样点可以表示的值的范围是从-32768到32767(包含两端的值)。位深度越高,可以表示的音量级别(即动态范围)也就越宽广。 |
16位音频的动态范围是96dB(每位约对应6dB)
1 | 在实际应用中,数字音频的"响度"不只是靠采样值的大小来决定,还受到编码、解码、播放设备等多个环节的影响。例如,高保真音响在播放相同的数字音频文件时,可能比小型便携音箱提供更大的音量和更丰富的动态范围体验。 |
压缩
wav是不压缩的格式,它太大了,一个三分钟的音乐都有50MB~80MB。
小扩展
扒谱通常可以使用到傅里叶变幻算法。