OCR已被破解？

有没有使用任何编程方法来击败reCAPTCHA？

我感兴趣的是看到证据和潜在的certificate，特别是reCAPTCHA已经被完全自动化，无人的方法所淘汰。

澄清，不要以任何方式寻找涉及人类的reCAPTCHA作弊解决scheme，无论是负责填写CAPCHA，色情search者或Mechanical Turk的团队。

我也没有寻找替代reCAPTCHA，如select动物的types，或背景字段或JavaScript欺骗。

我注意到，这里几乎所有的答案都与原理上的CAPTCHA 概念的无效性有关 – 虽然我非常同意他们，但事实上几个月前在OWASP上做了一个演讲，解释了这个问题 – 这个问题是非常具体的，所以我会提供一个示范。
但首先，我将重申这一示范，重新阅读其他评论，因为这是事实，validation码是毫无意义的，没有帮助，与执行无关….

但是，真的，看看CAPTCHA杀手。您可以上传CAPTCHA图像，如果不是立即，它会自动提供OCR的答案。它也提供了一个API（REST，我想，但也许也是SOAP）。我个人尝试了很多reCAPTCHA的图片，实际上是一些最简单的（或者至less是最快的）破解。

更新：CAPTCHA杀手的网站现在被取下来，显然是在法律的压力下。有关该主题的完整概述，请参阅http://captcha.org/ 。

是的，OCR不是打破CAPTCHA保护网站的最好方式 – 还有其他更好的方法。

你可能会对这个关于4chan如何击败reCAPTCHA的详细报告感兴趣，并用它来操纵Time.com的年度TIME 100 Poll结果。

黑客Recaptcha（又名'阴茎洪水'）

使用的下一个策略是看他们是否能够在reCAPTCHA实施中发现缺陷。他们发现的关于reCAPTCHA的一件事是，它总是给用户解释两个单词 – 一个单词是reCAPTCHA系统已知的控制单词，另一个单词是未知单词（reCAPTCHA使用人类来帮助纠正OCR错误）。维基百科描述了这个过程：“扫描的文本受到两个不同光学字符识别程序的分析; 在程序不同意的情况下，可疑字被转换成CAPTCHA。该词与已知的控制字一起显示，并由人标记。这些被人类法官一致地赋予一个单一标签的词汇被重新当作控制词“。匿名者意识到，如果他们总是用同一个单词标记未知的扫描文本 – 如果他们这样做了成千上万次，最终很大比例的未知单词将被贴上他们的单词。他们所要做的只是查看validation码中的两个单词，为“简单”的一个input正确的标签（大概是两个光学扫描仪会同意的），然后input“阴茎”很难。如果他们经常做到这一点，那么相当大比例的图像将被标记为“阴茎”，并且autovote的能力将被恢复（一个副作用，在匿名中没有丢失，是未来几年的概念本书中随机插入了一些数字书籍，更新：我问reCAPTCHA总工程师Ben Maurer关于这次“阴茎溢洪”的攻击，Ben说他们已经预料到了这种types的攻击而且他们有很多的保护措施，防止阴茎渗透到reCAPTCHA的障碍。

优化reCAPTCHA

作为将“阴茎”这个词散布在文本中的概念，匿名小组知道时钟在滴滴答答，如果他们要恢复信息，他们没有时间等待自动交易者回到网上 – 他们将不得不手动投票，很多次。所以他们需要能够尽可能快地inputvalidation码。他们制定了一套指导方针，使他们能够快速决定哪些reCAPTCHA字可以跳过。例如：

你会得到2个字：1真实，1假。

对于[REAL FAKE]或[FAKE REAL] ，您只需inputREAL ，即可接受。

如果是[LOOKSREAL LOOKSREAL]或[LOOKSFAKE LOOKSFAKE] ，那么input这两个单词通常会更快。不要浪费宝贵的时间来决定哪一个是真实的。

使用词的外观和types来识别假词。不要只依赖其中的一个。

整个规则集在这里：伪captcha 。

CAPTCHA系统的薄弱之处在于人们在中国设立了满是人的房间，唯一的工作就是查看CAPTCHA的形象并input结果，插入到实际上正在进行垃圾邮件的自动化系统中。

没有太多的事情可以做到。

它比实际图像上的图像识别，OCR等要便宜得多（您可能会得到0.01美元以下的回应）。

在承认使用validation码的压力之前，请考虑一些创造性的解决方法，例如在CSS中隐藏标有“您的评论”的字段。如果input该字段，请求将被服务器删除。即使仍然没有一个好的方法来打败房间里没有工资的工人，大多数的机器人都会因此而失败。

更新：只要阅读一个案例研究，删除CAPTCHA提高转换率近10％。这会告诉我，如果你为了过滤机器人而损失了10％的线索，那么这个问题就相当严重了。想象一下，对大多数企业来说，10％意味着什么。

我最喜欢的captcha来自微软： http : //research.microsoft.com/en-us/um/redmond/projects/asirra/

Asirra（限制访问的动物物种图像识别）是一个HIP，通过询问用户识别猫和狗的照片来工作。这个任务对于计算机来说是困难的，但是我们的用户研究表明人们可以快速准确地完成任务。许多人甚至认为这很有趣！

这是一个免费的服务，他们有示例代码，让你开始。

我想知道它会被破解多久。

reCAPTACHA没有坏掉，也不会很长时间。事情是，如果你实现自己的validation码，如果它被破坏，可能需要很长时间才能修复。

这是从关于reCAPTCHA安全性的页面中获取的：

reCAPTCHA是一项Web服务。这意味着所有的图像都是由我们的服务器生成和分级的。（…）这也提供了额外的保护：我们的CAPTCHA可以自动更新，无论何时发现安全漏洞。

例如，如果有人写了一个可以读取我们失真的图像的程序，我们可以在很短的时间内添加更多的失真， 并且没有网页大师不得不改变任何东西。

我相信，由于他们专注于validation码，他们已经改进了存储的版本，如果需要，可以在短时间内部署。（为什么当弱者尚未破产时，他们会创造更强的安全感？）

它不仅被击败，而且还成功build立了一个有用的应用程序，成为最令人惊讶的工具，可以打败大量直接下载站点的所有types的免费帐户保护（不仅是megaupload和rapidshare ）。

Jdownloader是开源的，用Java编写的，所以对源代码的看法不仅可以回答，而且可以回答如何。

编辑：大多数直接下载网站不使用reCaptcha，但更简单的validation码方法（3大写字母不同的颜色）。尽pipe如此，Jdownloader和Cryptload （类似于Jdownloader的程序）是我知道的唯一可行的实现，它已经破坏了Captcha方法。我还没有听说任何破解reCaptcha的实施。

更新：似乎至less有一个reCaptcha（不是整个reCaptcha本身）的实现也被破解。

2010年12月更新 ：Jdownloader 似乎终于击败了reCaptcha 。该插件仍然是实验性的，只能在Windows版本的Jdownloader上运行，但是，正如我曾经试过的一个配偶告诉的那样，它确实有效。

Defcon在去年发表了一个讲话，总体上解释了CAPTCHA的问题。他们所做的一件事就是使用多个免费的OCR引擎，并让他们对最好的单词进行投票。这样做，他们能够取得成功的机会。有一种是40％左右，我认为这不是reCaptcha。

“事实上， [2011年1月4日] ，垃圾邮件发送者显然是通过一款软件来避免reCAPTCHA，并允许进行全自动注册，所以它变得毫无用处。，自从“ [1]

2 – 3年前，基于文本input的validation码方法在失败的时候侵入了线路，即进一步的复杂性使得它们相对更为复杂（因为计算机的功率正在增加，而不是人类的）更容易被机器使用，更多的反感和排斥完全不可能，对人类。这与CAPTCHA的原始模式相关，作为testing以确保响应不是由计算机生成的

更新：
请注意， reCAPTCHA归Google公司所有，但Google Inc.不会通过自己的服务使用它。
这是一个链接包含网页与谷歌自己/内部使用的captcha用于Gmail注册：

替代文字

请注意，Google的reCAPTCHA总是有2个字。
以下是Google提供给其他人使用的reCAPTCHA的图片链接。

和reCAPTCHA的截图：

替代文字

我留下来给读者一个明显的结论。

被引：[1]
vBulletin论坛击中reCAPTCHA破解垃圾邮件机器人| PC专业博客
发表于2011年1月12日由戴维Winder

我在一个受reCAPTCHA保护的系统上看到博客评论，页面加载，1秒后邮件成功。用户代理是无稽之谈（在这种情况下，它声称是运行Ubuntu 9.25 / Firefox 3.8），引用来自一个完全无关的网站，没有链接给我们。

这显然是自动的。

reCAPTCHA没有被击败。如果是这样的话，Google为什么要购买它，并宣布他们将在Google内使用该技术来增加对Google产品的欺诈和垃圾邮件保护？

来自Google Acquires reCAPTCHA于9/16/09发布在Google Blog上：

通过这种方式，reCAPTCHA独特的技术改进了将扫描图像转换为纯文本的过程，称为光学字符识别（OCR）。该技术还支持Google Books和Google News Archive Search等大型文本扫描项目。具有文本的文本版本很重要，因为可以search纯文本，在移动设备上轻松呈现并向视障用户显示。因此，我们将在Google内部应用该技术，不仅会增加Google产品的欺诈和垃圾邮件保护，还会改进我们的图书和报纸扫描stream程。

打败Captchas最简单的方法是亚马逊Mechanical Turk。有一个名叫Kermit Welda的人，每个人都会付钱给Hotmail，AOL和Gmail帐户。这是6000美元假电子邮件帐户，每天5美分= 300美元。当其他人为你做脏活时，做生意的成本相当便宜。难怪我们的服务器的垃圾邮件filter想要拒绝来自Hotmail的任何东西。

AFAIK实际上，没有任何工具可以破解RE-captcha实现，但是最终我认为有人会得到它。

有趣的是，如果有人设法得到它，那么整个RE-captcha项目是毫无意义的，因为重新devise的数字化书籍不能以自动的方式完成。

顺便说一句：

CAPTCHA系统的薄弱之处在于人们在中国设立了满是人的房间，唯一的工作就是查看CAPTCHA的形象并input结果，插入到实际上正在进行垃圾邮件的自动化系统中。

你不能保证这样的系统思维，这就像说：“如果你的主机不在旧的军事掩体中，你的Web应用程序不够安全，因为现在人们可以窃取你的机器了。

有很多方法是用来废话recaptcha。虽然它很难使用neural network程序自动解决它们，但它可能抓住图像，并有亚马逊的机械turk或一些等效的程序来解决它们。

http://codemagician.wordpress.com/2010/01/22/solving-recaptcha/

reCaptcha是否被破解/黑客入侵/ OCR已被破解？

防伪令牌问题（MVC 5）

Html.ValidationSummary（false，“message”）总是显示，即使在页面加载

使用DataAnnotations和DataType进行电子邮件模型validation

如何检查一个有效的Base64编码的string

如何限制EditText只接受字母数字字符

为什么客户端validation不够？

没有为文档检测到语法约束（DTD或XML模式）

检查一个string是否是有效的Windows目录（文件夹）path

Angular JS：在提交之前validation表单域

嵌套的HTML评论可能吗？