保存Android股票语音识别引擎的audioinput

我正在试图保存在一个文件的audio数据收听android的语音识别服务。

其实我实现RecognitionListener这里解释：在Android上的语音到文本

将数据保存到缓冲区，如下所示：捕获发送到Google语音识别服务器的audio

并将缓冲区写入一个Wav文件，如在这里。 Android将Http Streaming的原始字节logging到WAVE文件中

我的问题是如何得到适当的audio设置保存在wav文件的标题。其实我在播放wav文件时只听到奇怪的噪音，用这个参数，

 short nChannels=2;// audio channels int sRate=44100; // Sample rate short bSamples = 16;// byteSample

或者与此无关：

 short nChannels=1;// audio channels int sRate=8000; // Sample rate short bSamples = 16;// byteSample

令人困惑的是，从logcat中查看语音识别任务的参数，我首先设置PLAYBACK采样率为44100HZ ：

  12-20 14:41:34.007: DEBUG/AudioHardwareALSA(2364): Set PLAYBACK PCM format to S16_LE (Signed 16 bit Little Endian) 12-20 14:41:34.007: DEBUG/AudioHardwareALSA(2364): Using 2 channels for PLAYBACK. 12-20 14:41:34.007: DEBUG/AudioHardwareALSA(2364): Set PLAYBACK sample rate to 44100 HZ 12-20 14:41:34.007: DEBUG/AudioHardwareALSA(2364): Buffer size: 2048 12-20 14:41:34.007: DEBUG/AudioHardwareALSA(2364): Latency: 46439

然后aInfo.SampleRate = 8000，当它播放文件发送到谷歌服务器：

  12-20 14:41:36.152: DEBUG/(2364): PV_Wav_Parser::InitWavParser 12-20 14:41:36.152: DEBUG/(2364): File open Succes 12-20 14:41:36.152: DEBUG/(2364): File SEEK End Succes ... 12-20 14:41:36.152: DEBUG/(2364): PV_Wav_Parser::ReadData 12-20 14:41:36.152: DEBUG/(2364): Data Read buff = RIFF? 12-20 14:41:36.152: DEBUG/(2364): Data Read = RIFF? 12-20 14:41:36.152: DEBUG/(2364): PV_Wav_Parser::ReadData 12-20 14:41:36.152: DEBUG/(2364): Data Read buff = fmt ... 12-20 14:41:36.152: DEBUG/(2364): PVWAVPARSER_OK 12-20 14:41:36.156: DEBUG/(2364): aInfo.AudioFormat = 1 12-20 14:41:36.156: DEBUG/(2364): aInfo.NumChannels = 1 12-20 14:41:36.156: DEBUG/(2364): aInfo.SampleRate = 8000 12-20 14:41:36.156: DEBUG/(2364): aInfo.ByteRate = 16000 12-20 14:41:36.156: DEBUG/(2364): aInfo.BlockAlign = 2 12-20 14:41:36.156: DEBUG/(2364): aInfo.BitsPerSample = 16 12-20 14:41:36.156: DEBUG/(2364): aInfo.BytesPerSample = 2 12-20 14:41:36.156: DEBUG/(2364): aInfo.NumSamples = 2258

那么，怎样才能find合适的参数将audio缓冲区保存在一个好的wavaudio文件中呢？

你没有把你的代码写入PCM数据，所以很难诊断，但是如果你听到奇怪的噪声，那么看起来很可能你在写数据的时候是错误的endian ，或者错误的数字通道。获取采样率错误只会导致audio声音变慢或变快，但如果听起来完全乱码，则可能是在指定字节stream的通道数或字节数时出错。

要知道肯定，只是直接将您的字节stream到一个文件没有任何头（原始PCM数据）。通过这种方式，您可以在编写文件头时排除任何错误。然后使用Audacity导入原始数据，试验不同的选项（比特深度，endian，频道），直到听到正确的audio文件（只有一个是正确的）。你可以从File-> Import-> Raw Data …

一旦以这种方式确定了字节格式，您只需要担心是否正确设置标题。您可能需要参考此参考文件http://www-mmsp.ece.mcgill.ca/Documents/AudioFormats/WAVE/WAVE.html获取文件格式。; 或者在编写audio文件， Java（读取，操作和编写WAV文件或FMJ）时查看现有Java解决scheme的以下链接。虽然我猜这些可能不适用于Android。

如果您不得不推出自己的WAV / RIFF编写器，请记住Java的数据types是big-endian，因此您写入文件的任何多字节基元都必须以相反的字节顺序写入，以匹配RIFF的小端。

8000 ，小端， 16位PCM ，单声道做的伎俩

在最新版本的onBufferReceived不起作用的情况下，您可以使用录音/保存来自语音识别意图的audio 。

保存Android股票语音识别引擎的audioinput

在录制声音剪辑的Android上的语音识别？

我怎样才能使用语音识别没有恼人的对话在Android手机

玻璃语音命令从给定列表最接近匹配

logging/保存来自语音识别意图的audio

C＃语音识别 – 这是用户说的吗？

Android中的离线语音识别（JellyBean）

如何：语音命令到Android应用程序

语音识别软件开发人员

连续语音识别Android

Android：语音识别，不使用谷歌服务器