Tag: 计算机视觉

什么是车牌检测的好algorithm？: 背景对于我在大学的最后一个项目，我正在开发车牌检测应用程序。我认为自己是一名中级程序员，但是我的math知识缺乏中学以上的知识，这使得制定正确的方程式比实际上更难。我花了很多时间查找学术论文，例如：在图像中检测车辆牌照使用图像显着性的强大的车牌检测车牌图像的局部增强用于车牌检测说到math，我迷路了。由于这种testing，各种graphics图像被certificate是有效的，例如：至然而，这种方法只适用于特定的图像，如果这些技术应用于不同的图像，我相信会发生较差的转换。我读过一个叫做“底帽形态变换”的公式，它有以下几点：基本上，变换保留了图片的所有黑色细节，并消除了其他所有内容（包括较大的黑色区域和较亮的区域）。我无法find有关这方面的很多信息，但报告结尾附近的文件中的图像显示了它的有效性。其他限制在C＃中开发将项目仅限于英国注册牌照我可以select要转换的图像作为演示题我需要关于我应该关注什么转换技术的build议，以及哪些algorithm可以帮助我。编辑：新信息目前继续 – 车牌照检测

我怎样才能从H264video文件用ffmpeg提取高质量的JPEG图像？: 目前我正在使用这个命令来提取图像： ffmpeg.exe -i 10fps.h264 -r 10 -f image2 10fps.h264_％03d.jpeg 但是，我怎样才能提高JPEG图像质量？

如何画一个内部有双色颗粒的水晶球: 我只是抛出一个closures的可能性的想法。我需要绘制一个水晶球，其中红色和蓝色的粒子随机定位。我想我必须去用photoshop，甚至试图在图像中的球，但这是为研究论文，并不需要花哨，我不知道是否有任何方式来编程与R，matlab，或任何其他语言。

探测器，提取器和匹配器的分类: 我是新来的opencv，并试图实现两个图像之间的图像匹配。为此，我试图理解特征描述符，描述符提取器和描述符匹配器之间的区别。我遇到了很多条款，并试图在opencv文档网站上阅读有关条款，但我似乎无法将我的头围绕概念。我明白了这里的基本区别。特征检测与描述符提取的区别但是在研究这个话题的时候我碰到了下面这些术语： FAST，GFTT，SIFT，SURF，MSER，STAR，ORB，BRISK，FREAK，BRIEF 我明白FAST，SIFT，SURF是如何工作的，但似乎无法弄清楚上面哪些只是检测器，哪些是提取器。然后是匹配器。 FlannBased，BruteForce，knnMatch和其他一些可能。经过一番阅读后，我发现某些匹配器只能用于某些提取器，如此处所述。 OpenCV ORB特征检测器如何工作？给出的分类是相当清楚的，但只有几个提取器，我不明白浮动和uchar之间的区别。所以基本上，可以请一个人如上所述，根据float和uchar分类检测器，提取器和匹配器的types，还是其他types的分类？解释float和uchar分类之间的差别还是使用哪种分类？提及如何初始化（代码）各种types的检测器，提取器和匹配器？我知道它要求很多，但我会非常感激。谢谢。

图像中的标识识别: 有没有人知道最近在图像中进行标识识别的学术工作？请仅在您熟悉此特定主题的情况下回答（我可以自己searchGoogle“标识识别”，非常感谢）。任何熟悉计算机视觉，并且已经完成目标识别工作的人都可以发表评论。更新：请参考algorithm方面（您认为合适的方法，现场的论文，是否应该对真实世界的数据进行工作（并经过testing），效率的考虑），而不是技术方面（使用的编程语言或无论是在OpenCV中…）在图像索引和基于内容的图像检索方面的工作也可以提供帮助。

如何selectTesseract和OpenCV？: 我最近遇到了Tesseract和OpenCV 。它看起来像Tesseract是一个成熟的OCR引擎，OpenCV可以用作创buildOCR应用程序/服务的框架。我尝试在我的一些图像上使用Tesseract，其准确性似乎不错。后来，我遇到了一个非常简单的使用OpenCV来使用Python进行OCR的教程，给我留下了深刻的印象。几分钟后，我完成了系统的训练，其准确性很好。但是，当然，采取这种方法意味着我需要使用大型训练集广泛地训练我的系统。我的具体问题如下：如何selectTesseract和使用OpenCVbuild立一个自定义的OCR应用程序？有针对不同语言的Tesseract可用的培训数据集。 OpenCV是否有类似的东西，所以我不必为了实现OCR而着手开展工作？哪一个更适合想要成为商业应用？有什么build议么？注：我在计算机视觉领域有24个小时的工作经验，但愿意花时间和精力学习先决条件。

我如何find与Python的Wally？: 无耻地跳上了潮stream:-) 启发如何findWaldo与Mathematica和后续如何find与R的Waldo ，作为一个新的Python用户，我很想看看如何做到这一点。似乎python会比R更适合这个，我们不必担心像Mathematica或Matlab那样的许可证。在下面的例子中，显然简单地使用条纹是行不通的。如果一个简单的基于规则的方法可以用于这样的困难例子，那将是有趣的。我已经添加了[机器学习]标签，因为我相信正确答案将不得不使用ML技术，例如Gregory Klopper在原始主题中提倡的限制玻尔兹曼机（RBM）方法。 Python中有一些可用的RBM代码，可能是一个很好的开始，但显然这种方法需要训练数据。在2009年IEEE国际信号处理机器学习研讨会（MLSP 2009）上，他们进行了一个数据分析竞赛：Wally在哪里？。训练数据以matlab格式提供。请注意，该网站上的链接已经失效，但数据（以及Sean McLoone及其同事所采取的方法的来源可以在这里find（请参阅SCM链接）。似乎只有一个地方可以开始。

如何训练一个人造neural network使用视觉input来玩“暗黑破坏神2”？: 我目前正在试图让人工neural network玩一个电子游戏，我希望能从这个美妙的社区获得一些帮助。我决定使用“暗黑破坏神2”（Diablo 2）。因此，玩家可以实时从等轴测视angular观看，并且玩家可以控制相机所在的一个angular色。为了使事情具体化，任务是让你的angular色x的经验值不降低到0，通过杀死怪物获得经验值。这是一个游戏的例子：现在，因为我希望networking完全基于从屏幕像素获得的信息进行操作，为了有效地播放它，它必须学习非常丰富的表示，因为这可能需要它知道（至less隐含）如何把游戏世界分成对象和如何与之交互。而所有这些信息都必须被教给networking……不知何故。我不能为了我的生活想到如何训练这个东西。我唯一的想法是有一个单独的程序从屏幕上直观地提取游戏中天生好/坏的东西（例如健康，黄金，经验），然后在强化学习过程中使用该属性。我认为这是答案的一部分，但我认为这还不够。从原始视觉input到目标导向行为的抽象层次太多，以至于这种有限的反馈，在我的有生之年就要训练一个networking。所以，我的问题：你还有什么其他的方式可以用来培养一个networking来完成这个任务的至less一部分？最好不要制造数千个标记的例子… 只是稍微指出一点：我正在寻找一些其他的强化学习来源和/或任何无监督的方法来提取有用的信息在这个设置。或者是一个监督algorithm，如果你可以想办法从游戏世界中获取标签数据而不需要手动标记它。 UPDATE（04/27/12）：奇怪的是，我仍然在努力，似乎正在取得进展。让neural network控制器工作的最大秘诀就是使用适合于这个任务的最先进的neural network架构。因此，我一直在使用深度信念networking组成的条件限制玻尔兹曼机器，我已经在一个无监督的方式（在我玩游戏的video）训练之前微调与时间差异向后传播（即强化学习与标准前馈人工neural network）。仍然在寻找更有价值的input，特别是在实时动作select的问题上，以及如何为ANN处理编码彩色图像:-) UPDATE（15年10月21日）：只记得我今天回答了这个问题，我想我应该提一下，这不再是一个疯狂的想法。自从我上次更新以来，DeepMind发布了他们关于让neural network从视觉input中玩atari游戏的自然论文。事实上，阻止我使用他们的体系结构玩“暗黑破坏神2”的一个有限子集的唯一原因是缺乏对底层游戏引擎的访问。渲染到屏幕然后redirect到networking太慢，无法在合理的时间内进行训练。因此，我们很可能不会在近期看到这种机器人玩“暗黑破坏神2”，但只是因为它会播放开源或API访问渲染目标的东西。（地震也许？）

如何检测圣诞树？: 哪些image processing技术可用于实现检测下列图像中显示的圣诞树的应用程序？我正在寻找能够处理所有这些图像的解决scheme。因此，需要训练haar级联分类器或模板匹配的方法并不是很有趣。我正在寻找可以用任何编程语言编写的东西，只要它只使用开源技术。该解决scheme必须在此问题上共享的映像进行testing。有6个input图像，答案应显示处理每个图像的结果。最后，对于每个输出图像，都必须绘制红线以包围检测到的树。你将如何去编程检测这些图像中的树？

如何识别这个图像中的矩形？: 我有一个水平和垂直线的图像。事实上，这个形象是BBC网站转换成横向和纵向的线条。我的问题是，我想能够find图像中的所有矩形。我想编写一个计算机程序来查找所有的矩形。有谁知道如何做到这一点或build议如何开始的想法？这个任务对我来说很容易find视觉矩形，但我不知道如何将其描述为一个程序。图片是BBC网站http://www.bbc.co.uk/ 谢谢，菲利普更新到这里，我写了将BBC网站图片转换成水平和垂直线的代码，问题是这些线条在angular落处并不完全相遇，有时它们并不完全形成矩形。谢谢！