Das ist das Motto von
reCaptcha.
Die Idee dahinter ist, dass jeden Tag eigentlich ziemlich viel Zeit in das Loesen von
Captchas investiert wird. Laut Wikipedia werden sogar 60 Millionen davon taeglich geloest. Das soll 150.000h Arbeit am Tag entsprechen.
Eigentlich schade diese ganze Arbeit die geleistet wird im Nirvana verpuffen zu lassen.
Aus diesem Grund gibt es das reCaptcha Projekt. Die Idee dahinter ist es, den Mensch zum OCR zu benutzen. Auf
Archive.org (wohl am meisten bekannt wegen der WaybackMachine) gibt es eine
Universal Library. Ziel dieses Projekts ist es alte Buecher zu digitalisieren. Buecher nur einzuscannen ist zwar ganz nett, letztendlich habe ich dann aber den Text nicht wirklich zugaenglich. Hier soll reCaptcha helfen. Dem Benutzer werden 2 Woerter zum lesen als Captcha vorgelegt. Eines davon ist schon geloest und dient dem System zur Verifizierung, ob da nun ein Bot oder ein Mensch sitzt. Die Loesung fuer das 2. Wort wird dann einfach in einer Datenbank gespeichert und spaeter noch mehreren Leuten zum loesen gegeben. Gibt es fuer ein bestimmtes Wort nun zum Beispiel fuenf Loesungen die sich gleichen, kann man davon ausgehen, dass die Loesung auch wirklich dem Wort entspricht. So uebersetzt man eigentlich ohne grossen Aufwand irgendwelche Buecher von Bildern zu Text
Eingebunden wird reCaptcha entweder direkt ueber die
API oder ueber jede Menge
Plugins fuer phpBB, Serendipity (auch schon im Spartacus, Wordpress, Drupal, MediaWiki, Typo3, etc.
[
via]