问:双击电脑桌面右下角的声音标志后,出现一个对话框。“波形”天平的作用是什么?
波形声音是最常用的Windows多媒体功能。波形声音设备可以通过麦克风捕捉声音,将其转换为数值,然后将其存储在内存或磁盘中的波形文件中。波形文件的扩展名是。哇哇。这样,声音就可以播放了。
声音和波形
在接触波形音API之前有一些预备知识是非常重要的,包括物理、听觉以及声音进出电脑的程序。
声音是振动。当声音改变耳膜上的空气压力时,我们会感觉到声音。麦克风可以感知这些振动,并将它们转化为电流。同样,电流通过放大器和扬声器,然后再次变成声音。传统上,声音是以模拟的方式存储的(如录音磁带和唱片),这些振动存储在磁性气体脉冲或轮廓凹槽中。当声音转换成电流时,可以用随时间振动的波形来表示。最自然的振动形式可以用正弦波来表示。
正弦波有两个参数——振幅(即一个周期内的最大振幅)和频率。我们知道振幅是音量,频率是音调。一般来说,人耳能感受到的正弦波范围是从20Hz(周期每秒)的低频声音到20,000Hz的高频声音,但随着年龄的增长,对高频声音的感受能力会逐年变差。
人对频率的感受能力是对数的而不是线性的。换句话说,我们感受到的从20Hz到40Hz的频率变化与我们感受到的从40Hz到80Hz的频率变化相同。在音乐中,这个倍频被定义为八度。因此,人耳大约能感受到10个八度的声音。钢琴的音域从27.5 Hz到4186 Hz,略小于7个八度。
虽然正弦波代表了绝大多数自然形式的振动,但纯正弦波在现实生活中很少单独出现,听起来并不悦耳。大多数声音都很复杂。
任何周期波形(即循环波形)都可以分解成多个正弦波,这些正弦波的频率都是整数倍。这就是所谓的傅立叶级数,它是以法国数学家和物理学家让·巴普蒂斯·约瑟夫·傅里叶(1768-1830)的名字命名的。周期的频率是基础。系列中其他正弦波的频率为2次、3次、4次(等等。)的基频。这些频率被称为泛音。基频也称为一次谐波。第一泛音是第二泛音,以此类推。
正弦波谐波的相对强度赋予每个周期的波形独特的声音。这就是“音质”,让喇叭发出声音,钢琴发出声音。
曾经认为电子合成乐器只需要将声音分解成谐波,再与多个正弦波重新组合。然而事实证明,现实世界中的声音并没有那么简单。现实世界中代表声音的波形没有严格的周期。乐器之间泛音的相对强度不同,泛音也随着每个音符的演奏时间而变化。尤其是乐器音符的起始位置——我们称之为起奏——相当复杂,但这个位置对我们感受音质非常重要。
由于近年来数字存储容量的提高,我们可以直接以数字形式存储声音,而无需复杂的重组。
脉冲编码调制
脉冲编码调制(PWM)
计算机处理的是数值,所以为了让声音进入计算机,我们必须设计一种可以将声音和数字信号相互转换的机制。
在不压缩数据的情况下实现这一功能的最常见方法称为“脉码调制”(PCM)。PCM可用于CD-ROM、数字音频磁带和Windows。脉冲编码调制实际上只是一个概念上简单的处理步骤的奇怪同义词。
使用脉码调制,可以以固定的周期频率对波形进行采样,通常是每秒上万次。对每个样本测量其波形的幅度。将幅度转换成数字信号的硬件是模数转换器(ADC)。类似地,数字信号可以通过DAC:数模转换器(DAC)转换回波形电子信号。但是通过这种转换获得的波形与输入的波形并不完全相同。合成波形具有由高频组成的尖锐边缘。因此,回放硬件通常在数模转换器后包含一个低通滤波器。该滤波器滤除高频,使合成波形更加平滑。在输入端,低通滤波器位于ADC之前。
脉码调制有两个参数:采样频率,即每秒测量波形幅度的次数;样本大小,即用于存储幅度电平的位数。如你所想:采样频率越高,样本量越大,原声的再现越好。但是增加采样频率和样本量有一个极点,超过这个极点就超过了人类语音分辨率的极限。此外,如果采样频率和样本大小太低,音乐和其他声音将无法准确再现。
采样率
采样频率决定了声音可以被数字化和存储的最高频率。特别是,采样频率必须是样本声音最高频率的两倍。这就是“奈奎斯特频率”,以1930年代研究采样过程的工程师哈利·奈奎斯特的名字命名。
当以过低的采样频率对正弦波进行采样时,合成波形的频率低于原始波形。这就是所谓的失真信号。为了避免出现失真信号,在输入端使用一个低通滤波器来阻止频率高于采样频率一半的所有波形。在输出端,数模转换器产生的粗糙波形边沿实际上是由频率大于采样频率一半的波形组成的泛音。因此,输出端的低通滤波器也会阻挡频率高于采样频率一半的所有波形。
声音CD中使用的采样频率为每秒44,100个样本,即44.1kHz。该唯一值的生成方式如下:
人耳可以听到高达20kHz的声音,因此要截取人可以听到的整个声音范围,需要40kHz的采样频率。然而,因为低通滤波器具有频率滑动效应,所以采样频率应该高10%左右。现在,采样频率已经达到了44kHz。此时我们需要在录制视频的同时录制数字声音,所以采样频率应该是美国和欧洲视频显示帧率的整数倍,分别为30Hz和25Hz。这将采样频率提高到44.1kHz。
一张采样频率为44.1kHz的CD会产生大量的数据,这对于某些应用来说有些吃不消,比如录声音而不是音乐。通过将采样频率减半至22.05 kHz,可以通过10 kHz的泛音简化再现声音的上部。将其减半至11.025 kHz,为我们提供了5 kHz的频率范围。44.1 kHz、22.05 kHz和11.025 kHz以及8 kHz的采样频率是波形声音设备通常支持的标准。
因为钢琴的最高频率是4186 Hz,所以你可能觉得录钢琴的时候11.025 kHz的采样频率就够了。但是4186 Hz只是钢琴的最高基频。过滤掉所有大于5000Hz的正弦波会减少可以复制的泛音,这将无法准确捕捉和复制钢琴的声音。
样本量
脉码调制的第二个参数是按位计算的样本大小。样本大小决定了可以录制和播放的最低和最高音调之间的差异。这通常称为动态范围。
声强是波形幅度的平方(即每个正弦波一个周期内最大幅度的合成)。和频率一样,人对声音强度的感知也是对数变化的。
两个声音之间的强度差异以贝尔(以电话发明者亚历山大·格雷厄姆·贝尔命名)和分贝(dB)来衡量。1钟的声强增加了10倍。1dB是1dB的十分之一,乘法步骤相同。因此,1dB可以将声强提高1.26倍(10的根)或波形幅度提高1.12倍(10的根)。1 dB是耳朵能感觉到的声音强度的最小变化。从最初能听到的音限到让人感到疼痛的音限的声强差约为100 dB。
Windows支持8位和16位样本大小。存储8位样本时,样本被视为无符号字节,静音被存储为值为0x80的字符串。16位的样本被视为有符号整数,静默将被存储为值为0的字符串。
要计算未压缩声音所需的存储空间,以秒为单位的声音持续时间可以乘以采样频率。如果您使用16位样本而不是8位样本,则加倍它们,如果您录制立体声,则再次加倍它们。例如,1小时的CD声音(或以每个立体声样本2字节、每秒44100个样本的速度播放3 600秒)需要635MB,接近一张CD-ROM的存储容量。
软件产生的正弦波
关于波形声音的第一个练习,我们不打算将声音保存到文件中或播放录制的声音。我们将使用一个低阶波形声音API(即以waveOut为前缀的函数)来构建一个声音正弦波发生器,称为正弦波。该程序以1 Hz的增量生成从20Hz(人能感觉到的最低值)到5,000Hz(人能感觉到的最高值相差两个八度)的正弦波。
我们知道,标准C运行时链接库包含一个sin函数,它返回一个弧度角的正弦值(2π弧度等于360度)。sin函数的返回值范围从-1到1(我们早在第5章就在SINEWAVE程序中使用了这个函数)。因此,应该很容易使用正弦函数来生成正弦波数据,以输出到波形声音硬件。基本上,缓冲区填充了表示波形(在本例中是正弦波)的数据,并传递给API。这个比我之前说的要复杂一点,不过我会详细介绍的。在波形声音硬件播放完缓冲区中的数据后,它应该将第二个缓冲区中的数据传递给它,以此类推。
当你第一次考虑这个问题的时候(而且你对PCM一无所知),你可能会认为把一个周期的正弦波分成固定数量的样本是合理的,比如360。对于20 Hz的正弦波,每秒输出7,200个样本。对于200 Hz的正弦波,每秒输出72,000个样本。这是可能的,但实际上做不到。对于一个5000Hz的正弦波,每秒需要输出1,800,000个样本,真的会增加DAC的负担!更重要的是,对于更高的频率,这种方法会比实际需要的更精确。
就脉码调制而言,采样频率是恒定的。假设正弦波程序中使用的采样频率为11,025Hz。如果要产生2,756.25Hz的正弦波(正好是采样频率的四分之一),正弦波的每个周期有4个样本。对于25Hz正弦波,每个周期有441个样本。通常,每个周期的样本数等于采样频率除以要获得的正弦波频率。知道每个周期的样本数后,将该数除以2π弧度,然后使用sin函数获得每个周期的样本数。然后重复采样一个周期以建立连续波形。
问题是每个周期的样本数可能会有小数,所以这种方法不太好用。每个周期结束都会有一个空档。
使其正常工作的关键是保持一个静态的“相角”变量。这个角度被初始化为0。第一个样本是0度的正弦。随后,相位角增加一个值,等于2π乘以频率并除以采样频率。将该相位角用作第二个样本,并以此方式继续。一旦相位角超过2π弧度,减去2π弧度,而不是将相位角重新初始化为0。
例如,假设使用11,025Hz的采样频率来产生1,000Hz的正弦波。也就是说,每个周期大约有11个样本。为了便于理解,这里以度为单位给出相位角——大约前半周的相位角为:0,32.65,65.31,97.96,130.61,163.27,195.92,228.57。31.84,64.49,97.14,129.80,162.45,195.5438+00等等。存储在缓冲器中的波形数据是这些角度的正弦值,并已换算为每个样本的位数。为后续缓冲器创建数据时,您可以继续增加最后一个相位角,而无需将其初始化为0。
WAV类型的格式
记录声音采样点数据的文件称为“波形声音”文件。波形声音组件专门用于播放WAV类型的声音文件。波形音和音频分量的区别在于,它只用于播放WAV类型。
●AVI格式:其英文全称是Audio Video Interleaved,即音视频交错格式。它是微软在1992年推出的,和Windows3.1一起被人们所认识和熟悉。所谓“音视频交错”,就是视频和音频可以交织在一起同步播放。这种视频格式的优点是画质好,可以跨多个平台使用。它的缺点是太大,更糟糕的是压缩标准不统一。最常见的现象是,高版本Windows media player无法播放早期编码编辑的AVI格式视频,低版本Windows media player无法播放最新编码编辑的AVI格式视频。所以我们在播放一些AVI格式的视频时,经常会出现一些莫名其妙的问题,比如视频因为视频编码问题无法播放,或者即使可以播放,但是也有一些莫名其妙的问题,比如无法调整播放进度,播放时只有声音没有图像。如果用户在播放AVI格式的视频时遇到这些问题,他们可以通过下载相应的解码器来解决。
●nAVI格式:nAVI是newAVI的缩写,是一个名为ShadowRealm的地下组织开发的一种新的视频格式(和上面提到的AVI格式关系不大)。它由微软ASF压缩算法修改而来,但与下面介绍的网络视频中的ASF视频格式不同。它以原始ASF视频文件的视频“流”特征为代价,通过提高帧速率来大大提高ASF视频文件的清晰度。
●DV-AVI格式:DV的全英文名称是Digital Video Format,是由索尼、松下、JVC等厂商联合提出的一种家庭数字视频格式。目前,非常流行的数码摄像机使用这种格式来记录视频数据。它可以通过计算机的IEEE 1394端口向计算机传输视频数据,也可以将编辑好的视频数据从计算机录制回数码相机。这种视频格式的文件扩展名通常是。avi,所以也叫DV-AVI格式。
●MPEG格式:它的全英文名称是Moving Picture Expert Group,即运动图像专家组格式,是人们在家经常观看的VCD、SVCD、DVD的格式。MPEG文件格式是运动图像压缩算法的国际标准。它使用有损压缩方法来减少运动图像中的冗余信息。说得更明白一点,MPEG压缩方法是基于相邻两幅图像大部分相同,去掉后一幅图像和前一幅图像中的冗余部分,从而达到压缩的目的(最大压缩比可以达到200:1)。目前MPEG格式的压缩标准有三种,分别是MPEG-1、MPEG-2和MPEG-4。此外,MPEG-7和MPEG-21还处于研发阶段。
MPEG-1:制定于1992,是为数据传输速率低于1.5Mbps的数字存储媒体运动图像和音频编码而设计的国际标准,也就是我们通常看到的VCD制作格式。使用MPEG-1的压缩算法,一部长度为120分钟的电影可以压缩到1.2GB的大小,这种视频格式的文件扩展名包括。mpg,。mlv,。mpe,。mpeg和。VCD中的dat文件。
MPEG-2:建立于1994,设计目标是先进工业标准的图像质量和更高的传输速率。这种格式主要用于DVD/SVCD的制作(压缩),以及一些HDTV(高清电视广播)和一些高要求的视频编辑和处理。使用MPEG-2的压缩算法,一部长度为120分钟的电影可以压缩到4到8GB的大小。这种视频格式的文件扩展名包括。mpg,。mpe,。mpeg,。m2v和。DVD上的vob文件。
MPEG-3 (MPEG音频层3)是一种高压缩率的音频信号文件。虽然它的音乐信号压缩比高,但还是可以媲美CD/MD的音质,MP3的压缩比是10到1。因此CD-R/RW可以容纳10张普通CD。这样音乐就可以播放很长时间。你可以从互联网或其他渠道获得MP3格式的音乐。
MPEG-4:MPEG-4是1998建立的,是专门为播放流媒体的高质量视频而设计的。它可以通过帧重构技术以极窄的带宽压缩传输数据,以最少的数据获得最佳的图像质量。目前MPEG-4最吸引人的特点是可以保存接近DVD质量的小容量视频文件。此外,这种文件格式还包含一些特殊的功能,如比特率的可伸缩性、动画向导、交互性甚至版权保护,这些都是以前的MPEG压缩标准所不具备的。这种视频格式的文件扩展名包括。asf,。mov和DivX AVI。
提示:细心的用户一定注意到了,中间没有MPEG-3编码。其实大家熟悉的MP3就是MPEG-3 (MPEG layeur 3)编码。
●DivX格式:这是MPEG-4衍生出来的另一种视频编码(压缩)标准,俗称DVDrip格式。它采用MPEG-4的压缩算法,集成了MPEG-4和MP3技术。说白了就是利用DivX压缩技术对DVD光盘的视频图像进行高质量压缩,用MP3或AC3对音频进行压缩,然后将视频和音频与相应的插件字幕文件进行组合而形成的视频格式。它的画质几乎和DVD一样,体积只有DVD的几分之一。这种编码对机器要求低,因此DivX视频编码技术可以说是对DVD威胁最大的一种新的视频压缩格式,被称为DVD杀手或DVD终结者。
●MOV格式:美国苹果公司开发的一种视频格式。默认播放器是苹果的QuickTimePlayer。它具有压缩比高、视频清晰度完美的特点,但它最大的特点是跨平台,即不仅可以支持MacOS,还可以支持Windows系列。
高级流格式
●ASF格式:其英文全称是Advanced Streaming format,是微软为了与目前的Real Player竞争而推出的视频格式。用户可以用Windows自带的Windows Media Player直接播放。因为它采用了MPEG-4压缩算法,所以压缩率和画质都很好(高压缩率有利于视频流的传输,但画质肯定会有损失,所以有时候ASF格式的画质不如VCD)。
●WMV格式:其全英文名称为Windows Media Video,也是微软推出的一种文件压缩格式,采用独立编码方式,可以直接在线实时观看视频节目。WMV格式的主要优点包括:本地或网络播放、可扩展的媒体类型、组件下载、可扩展的媒体类型、流优先级、多语言支持、环境独立性、丰富的流间关系和可扩展性。
●RM格式:Real Networks公司制定的音视频压缩标准称为Real Media。用户可以使用RealPlayer或RealOne Player播放符合RealMedia技术规范的网络音视频资源,RealMedia可以根据不同的网络传输速率设置不同的压缩比,实现图像数据在低速率网络上的实时传输和回放。这种格式的另一个特点是,用户可以使用RealPlayer或RealOne Player实现在线播放,而无需下载音视频内容。另外,RM作为目前主流的网络视频格式,也可以通过其Real Server服务器将其他格式的视频转换成RM视频,Real Server服务器负责发布和播放。RM和ASF格式可以说是各有千秋,通常RM视频比较柔和,而ASF视频相对清晰。
●RMVB格式:这是一种新的视频格式,由RM视频格式升级扩展而来。它的优势在于RMVB视频格式打破了原有RM格式的平均压缩采样方式,在保证平均压缩比的基础上合理利用了码率资源,也就是说静态、动作少的场景采用较低的码率,可以留出更多的带宽空间,当有快速移动的场景时,这些带宽就会被利用。这样在保证静止图像质量的前提下,大大提高了运动图像的画质,从而在画质和文件大小之间达到了微妙的平衡。另外,相对于DVDrip格式,RMVB视频也有明显的优势。一部700MB左右的DVD电影,如果转录成同样视听质量的RMVB格式,那么它的大小最多也就400MB左右。不仅如此,这种视频格式还具有内置字幕、无插件支持的独特优势。如果想播放这种视频格式,可以使用RealOne Player2.0或者RealPlayer8.0加RealVideo9.0以上版本播放。
●WAV格式是微软开发的一种声音文件格式,也叫波形声音文件。它是最早的数字音频格式,受到Windows平台及其应用程序的广泛支持。WAV格式支持多种压缩算法,支持多种音频位、采样频率和通道。它采用44.1kHz的采样频率,16位的量化位,所以WAV的音质和CD几乎一样。然而,WAV格式需要太多的存储空间用于通信和传播。
●WMA的全称是Windows Media Audio,是微软推广的一种音频格式。WMA格式旨在通过减少数据流量但保持声音质量来实现更高的压缩比。一般压缩比可以达到1:18,生成的文件大小只有对应MP3文件的一半。这对于只组装32M的车型来说非常重要。它支持WMA和RA格式,这意味着32M的空间无形中扩大了2倍。此外,WMA还可以通过DRM(数字版权管理)方案添加防复制功能,或者添加播放时间和次数的限制,甚至是播放机器,可以有效防止盗版。