Tag: intel

运行Android的新英特尔仿真器: 最近谷歌和英特尔已经发布了一种运行仿真器的新方法，它应该比以前的版本（仿真ARM CPU）要好得多。这里有一些关于它的链接：这个和这个。但是，按照说明安装新组件并创build新的仿真器configuration后，出现错误，我也看不到任何改进。我已经尝试了API 10和API 15，并启用和禁用GPU。这些configuration都没有帮助。我也尝试过两台不同的电脑，并没有得到任何提升（并得到相同的错误）。看来，在我看过的文章中，没有人遇到任何问题，而且都报告了更快的模拟器。它显示的错误是： emulator: Failed to open the HAX device! HAX is not working and emulator runs in emulation mode emulator: Open HAX device failed 为什么会发生，有没有办法解决这个问题？有没有其他人得到这些错误，反之亦然？顺便说一句，我有一个英特尔CPU，如果这可能是一个问题。编辑：这是我在BIOS中看到的，所以它应该可用…：

使用双比浮动更快？: 双精度值存储更高的精度，是浮点大小的两倍，但英特尔CPU优化浮点数？也就是说，double操作的速度与+， – ，*和/或float操作一样快或者更快。对于64位体系结构，答案是否改变？

在英特尔Sandybridge系列CPU中为pipe道优化一个程序: 为了完成这个任务，我一直在想我的大脑一个星期，我希望这里有人能带领我走向正确的道路。让我从讲师的指示开始：你的任务与我们第一个实验任务相反，那就是优化素数程序。你在这个任务中的目的是让程序变得悲观，也就是让它运行得更慢。这两个都是CPU密集型的程序。他们需要几秒钟在我们的实验室PC上运行。你不能改变algorithm。为了使程序最优化，请使用您对Intel i7pipe道运行方式的了解。想象一下如何重新排列指令path来引入WAR，RAW和其他危险。想想如何最大限度地减lesscaching的有效性。是恶魔无能。这项任务给了Whetstone或Monte-Carlo项目的select。 caching有效性评论大多只适用于Whetstone，但我select了Monte-Carlo模拟程序： // Un-modified baseline for pessimization, as given in the assignment #include <algorithm> // Needed for the "max" function #include <cmath> #include <iostream> // A simple implementation of the Box-Muller algorithm, used to generate // gaussian random numbers – necessary for the […]

英特尔HAXM安装错误 – 此计算机不支持英特尔虚拟化技术（VT-x）: 我的HAXM安装有问题。这是事情。我每次都得到这个错误，我试图为我的电脑安装HAXM：问题是，我的电脑支持虚拟化技术（见下图）。任何想法如何解决这个问题？

如何使用gcc生成英特尔语法的汇编代码？: gcc -S选项会在AT＆T语法中生成汇编代码，有没有一种方法可以在英特尔语法中生成文件？或者有没有办法在两者之间进行转换？

为什么循环指令很慢？英特尔能不能有效地实现它？: loop递减ecx / rcx，然后在非零时跳转。速度很慢，但英特尔不能以低廉的速度让它变得更快？一个dec和分支uop已经是可能的了（唯一的区别是设置标志）。从Agner Fog的指令表中 loop使用各种微架构： K8 / K10：7米推土机家族/ Ryzen：1 m-op（与macros电子testing分支相同的成本，或jecxz ） P4：4个jecxz （与jecxz相同） P6（PII / PIII）：8个 Pentium M，Core2：11 uops Nehalem：6个uops。（11 loope / loopne ） SnB系列：7个。（11个为loope / loopne ）。对于jecxz只有2个jecxz Silvermont：7个uops AMD捷豹（低功耗）：8个微处理器，5c吞吐量通过Nano3000：2微软难道解码器只是解码像lea rcx, [rcx-1] / jrcxz ？那将是3个微笑。至less在没有地址大小的前缀的情况下是这样，否则如果跳转被使用，则必须使用ecx并截断RIP到EIP 。也许地址大小控制的减less宽度的奇数select解释了许多微软。或者更好，只是将它解码为一个融合的十进制分支，不设置标志？ jnz上的dec ecx / jnz解码为单个uop（设置标志）。我知道真正的代码并没有使用它（因为它至lessP5或者其他东西已经很慢了），但是AMD决定让推土机变得很快是值得的。 […]

微融合和寻址模式: 使用英特尔®架构代码分析器（IACA），我发现了一些意想不到的情况（对我来说）。以下指令使用[base+index]寻址 addps xmm1, xmmword ptr [rsi+rax*1] 根据IACA没有微熔丝。但是，如果我这样使用[base+offset] addps xmm1, xmmword ptr [rsi] IACA报告说它确实融合了。 “ 英特尔优化参考手册”第2-11部分提供了以下内容作为“可由所有解码器处理的微型熔合微操作” FADD DOUBLE PTR [RDI + RSI*8] Agner Fog的优化组装手册也给出了使用[base+index]寻址的微操作融合的例子。例如，请参见第12.2节“Core2上的相同示例”。那么正确的答案是什么？