从JavaScriptstring读取字节

我有一个string包含JavaScript中的二进制数据。现在我想读取，例如，从它的整数。所以我得到前4个字符，使用charCodeAt ，做一些移位等来获得一个整数。

问题是JavaScript中的string是UTF-16（而不是ASCII）， charCodeAt通常返回高于256的值。

Mozilla的参考文献指出：“前128个Unicode代码点是ASCII字符编码的直接匹配”。（ASCII值大于128的情况如何）。

如何将charCodeAt的结果转换为ASCII值？还是有更好的方法来将一个四字符的string转换为一个4字节的整数？

我相信你可以用相对简单的一点操作来做到这一点：

 function stringToBytes ( str ) { var ch, st, re = []; for (var i = 0; i < str.length; i++ ) { ch = str.charCodeAt(i); // get char st = []; // set up "stack" do { st.push( ch & 0xFF ); // push byte to stack ch = ch >> 8; // shift value down by 1 byte } while ( ch ); // add stack contents to result // done because chars have "wrong" endianness re = re.concat( st.reverse() ); } // return an array of bytes return re; } stringToBytes( "A\u1242B\u4123C" ); // [65, 18, 66, 66, 65, 35, 67]

通过读取字节数组来将输出加起来应该是一个简单的事情，就好像它是内存一样，并将其添加到更大的数字中：

 function getIntAt ( arr, offs ) { return (arr[offs+0] << 24) + (arr[offs+1] << 16) + (arr[offs+2] << 8) + arr[offs+3]; } function getWordAt ( arr, offs ) { return (arr[offs+0] << 8) + arr[offs+1]; } '\\u' + getWordAt( stringToBytes( "A\u1242" ), 1 ).toString(16); // "1242"

Borgar的答案似乎是正确的。

只是想澄清一点。 Javascript将按位操作视为'32位有符号整数，其中最后（最左边）位是符号位。也就是说，

 getIntAt([0x7f,0,0,0],0).toString(16) // "7f000000" getIntAt([0x80,0,0,0],0).toString(16) // "-80000000"

但是，对于八位字节数据处理（例如，networkingstream等），通常需要'unsigned int'表示。这可以通过添加一个'>>> 0'（零填充右移）运算符来实现，该运算符在内部告诉Javascript将其视为无符号的。

 function getUIntAt ( arr, offs ) { return (arr[offs+0] << 24) + (arr[offs+1] << 16) + (arr[offs+2] << 8) + arr[offs+3] >>> 0; } getUIntAt([0x80,0,0,0],0).toString(16) // "80000000"

有两种方法可以将utf-8string编码和解码为一个字节数组，并返回。

 var utf8 = {} utf8.toByteArray = function(str) { var byteArray = []; for (var i = 0; i < str.length; i++) if (str.charCodeAt(i) <= 0x7F) byteArray.push(str.charCodeAt(i)); else { var h = encodeURIComponent(str.charAt(i)).substr(1).split('%'); for (var j = 0; j < h.length; j++) byteArray.push(parseInt(h[j], 16)); } return byteArray; }; utf8.parse = function(byteArray) { var str = ''; for (var i = 0; i < byteArray.length; i++) str += byteArray[i] <= 0x7F? byteArray[i] === 0x25 ? "%25" : // % String.fromCharCode(byteArray[i]) : "%" + byteArray[i].toString(16).toUpperCase(); return decodeURIComponent(str); }; // sample var str = "Да!"; var ba = utf8.toByteArray(str); alert(ba); // 208, 148, 208, 176, 33 alert(ba.length); // 5 alert(utf8.parse(ba)); // Да!

虽然@Borgar正确回答了这个问题，但他的解决scheme非常缓慢。我花了一段时间来追查（我在一个更大的项目中使用了他的function），所以我想我会分享我的见解。

我最终得到了@Kadm之类的东西。这个速度不算快一点，就像500倍一样快（不夸张！）。我写了一个基准，所以你可以看到它自己:)

 function stringToBytesFaster ( str ) { var ch, st, re = [], j=0; for (var i = 0; i < str.length; i++ ) { ch = str.charCodeAt(i); if(ch < 127) { re[j++] = ch & 0xFF; } else { st = []; // clear stack do { st.push( ch & 0xFF ); // push byte to stack ch = ch >> 8; // shift value down by 1 byte } while ( ch ); // add stack contents to result // done because chars have "wrong" endianness st = st.reverse(); for(var k=0;k<st.length; ++k) re[j++] = st[k]; } } // return an array of bytes return re; }

博加的解决scheme完美的作品。如果你想要一个更具体的实现，你可能想看看vjeux中的BinaryReader类（logging是基于Jonas Raoni Soares Silva的二进制parsing器类）。

borgars解决scheme改进：

 ... do { st.unshift( ch & 0xFF ); // push byte to stack ch = ch >> 8; // shift value down by 1 byte } while ( ch ); // add stack contents to result // done because chars have "wrong" endianness re = re.concat( st ); ...

你是如何将二进制数据放入string的？如何将二进制数据编码成string是一个重要的考虑因素，在继续之前，您需要回答这个问题。

我知道将二进制数据转换为string的一种方式是使用XHR对象，并将其设置为期望UTF-16。

一旦它在utf-16中，可以使用"....".charCodeAt(0)从string中检索16位数字"....".charCodeAt(0)

这将是介于0和65535之间的数字

那么，如果你愿意，你可以将这个数字转换成0到255之间的两个数字，如下所示：

 var leftByte = mynumber>>>8; var rightByte = mynumber&255;

一个很好的和快速的黑客是使用encodeURI和unescape的组合：

 t=[]; for(s=unescape(encodeURI("zażółć gęślą jaźń")),i=0;i<s.length;++i) t.push(s.charCodeAt(i)); t [122, 97, 197, 188, 195, 179, 197, 130, 196, 135, 32, 103, 196, 153, 197, 155, 108, 196, 133, 32, 106, 97, 197, 186, 197, 132]

也许一些解释是必要的，为什么它的工作，所以让我分成几步：

  encodeURI("zażółć gęślą jaźń")

回报

  "za%C5%BC%C3%B3%C5%82%C4%87%20g%C4%99%C5%9Bl%C4%85%20ja%C5%BA%C5%84"

如果仔细观察的话 – 是所有字符的值大于127的原始string被replace（可能是多于一个）hex字节表示。例如字母“ż”变成“％C5％BC”。事实上encodeURI也是一些常规的ascii字符，比如空格，但是没关系。重要的是，在这一点上，原始string的每个字节或者逐字地表示（如“z”，“a”，“g”或者“j”的情况）或者作为百分比编码的字节序列就像“ż”原来的两个字节197和188一样，转换为％C5和％BC）。

现在，我们应用unescape：

 unescape("za%C5%BC%C3%B3%C5%82%C4%87%20g%C4%99%C5%9Bl%C4%85%20ja%C5%BA%C5%84")

这使

 "zaÅ¼Ã³ÅÄ gÄÅlÄ jaÅºÅ"

如果你不是波兰语的母语人士，你可能不会注意到，这个结果实际上和原来的“zażółćgęśląjaźń”不一样。对于初学者来说，它有不同数量的字符:)当然，你可以告诉，这个大字母A的奇怪版本不属于标准的ASCII集。实际上这个“Å”的值是197.（hex正好是C5）。

现在，如果你像我一样，你会问自己：等一下…如果这真的是一个值为122,97,197,188的字节序列，而JS真的使用UTF，那么为什么我会看到这个“ Å¼“字符，而不是原来的”ż“？

那么，（我相信）这个序列122,97,197,188（我们在应用charCodeAt时看到的）不是一个字节序列，而是一个代码序列。字符“Å”有一个代码197，但其实际上是两个字节长的序列：C3 85。

所以，这个技巧是可行的，因为unescape会将数字以百分比编码的string作为代码而不是字节值 – 或者更具体地说：unescape对多字节字符一无所知，所以当它逐个解码字节时，处理值低于128只是伟大的，但是当它们超过127和多字节时不是那么好 – 在这种情况下，unescape只是返回一个多字节字符，它恰好具有与请求的字节值相等的代码。这个“bug”实际上是有用的function。

我将假设你的目标是从string中读取任意字节。我的第一个build议是将你的string表示成二进制数据的hex表示。

您可以使用从hex转换为数字来读取值：

 var BITS_PER_BYTE = 8; function readBytes(hexString, numBytes) { return Number( parseInt( hexString.substr(0, numBytes * (BITS_PER_BYTE/4) ),16 ) ); } function removeBytes(hexString, numBytes) { return hexString.substr( numBytes * (BITS_PER_BYTE/BITS_PER_CHAR) ); }

这些函数可以用来读取任何你想要的：

 var hex = '4ef2c3382fd'; alert( 'We had: ' + hex ); var intVal = readBytes(hex,2); alert( 'Two bytes: ' + intVal.toString(2) ); hex = removeBytes(hex,2); alert( 'Now we have: ' + hex );

然后你可以解释字节string，但是你想要的。

希望这可以帮助！干杯!

从JavaScriptstring读取字节

如何通过JavaScript访问屏幕显示的DPI设置？

如何在MongoDB中search对象的数组

JavaScript重新加载哈希值的页面

BMP之外的JavaScriptstring

AngularJS：自动检测模型中的变化

Javascript函数添加X个月到一个date

在Angularjs中的模块的“run”方法中注入依赖项

即使通过javascript代码检查，如何触发checkbox单击事件？

如何避免“不能读取未定义的属性”的错误？

如何从表单中删除jQueryvalidation？