پروژه reCAPTCHA و استفاده از نیروی انسانی رایگان

پروژه reCAPTCHA در سال 2008 توسط محققین دانشگاه Carnegie Mellon و با ارائه مقاله‌ای به نام “reCAPTCHA: Human-Based Character Recognition via Web Security Measures” متولد شد.
هدف اصلی از این پروژه، استفاده از نیروی انسانی رایگان برای کمک به صنعت OCR است.
همانطور که می‌دانید، تصاویر کپچا (Captcha)، روشی برای تشخیص انسان از ماشین بوده که با هدف جلوگیری از نفوذ بات‌های نرم‌افزاری به سیستم‌های ثبت نام وبسایت‌ها، دسترسی به پروفایلها و آدرسهای ایمیل و غیره طراحی شده‌اند.
در واقع برای دسترسی به هر اطلاعاتی که ممکن است توسط spammer ها مورد سوء استفاده قرار بگیرد، می‌توان از کپچا استفاده نموده تا مطمئن شد که شخص بیننده اطلاعات، یک انسان است. (البته این روزها صنعت عبور از کپچا هم درآمد قابل توجه‌ای دارد)
محققین این پروژه، ایده بسیار جالبی را مطرح نمودند. استفاده مفید از زمانی که توسط میلیون‌ها کاربر، صرف خواندن کپچاهای مختلف در وبسایت‌های اینترنتی می‌شود.
منظور از این استفاده مفید، کمک به سیستم‌های OCR جهت تبدیل متون قدیمی به نسخه‌های دیجیتالی است. در واقع با نمایش عکس بخش‌هایی از متون قدیمی که برنامه‌های OCR موفق به خواندن آنها نشده‌اند، می‌توان از نیروی انسانی رایگان برای کشف محتوای آنها استفاده نمود.
در حال حاضر پروژه reCAPTCHA مشغول تهیه نسخه دیجیتالی از عکس آرشیو مجله نیویورک تایمز در 130 سال اول انتشار آن می‌باشد.
شیوه کار به این صورت است که تصویر بخشهایی از متن روزنامه که به درستی توسط برنامه‌های OCR تشخیص داده نشده، جدا شده و جهت تشخیص انسانی آماده می‌شود.
 
سپس تصویر اول به همراه یک تصویر دیگر که متن صحیح آن از قبل مشخص است به صورت یک فایل کپچا در آمده و در اختیار وبسایت‌های حامی پروژه قرار می‌گیرد. پس از دریافت متنی که کاربران برای کپچای فوق وارد نموده‌اند، در صورتی که متن قسمت معلوم، به درستی وارد شده باشد، فرض می‌گردد که متن قسمت نا معلوم هم به درستی وارد شده است.
البته روشن است که برای کاهش ضریب خطا در این فرآیند، از یک سیستم امتیاز دهی استفاده شده و هر کپچا، به دفعات و توسط کاربران مختلف مورد بررسی قرار می‌گیرد تا از صحت متن وارد شده برای آن اطمینان حاصل شود.
در حال حاضر وبسایت‌های معروفی از این پروژه حمایت می‌کنند که از جمله می‌توان به Facebook، Twitter، CNN، StumbleUpon و گوگل اشاره نمود. گفته می‌شود که روزانه بیش از 100 میلیون از کپچاهای این پروژه مورد تشخیص کاربران قرار می‌گیرد.
پروژه reCAPTCHA دارای افزونه‌های مختلفی برای استفاده در وبسایت‌ها و تکنولوژی‌های ASP.Net، PHP و Ruby می‌باشد. برای کسب اطلاعات بیشتر به وبسات آن مراجعه نمایید: http://recaptcha.net

About محمد شمس

برنامه‌نویس، طراح انیمیشن و علاقمند به هوش مصنوعی

2 Comments

  1. مطلب جالبیه…
    البته یه پروژه ایرانی هم برای کاری تقریبا مشابه در حال اجرا هست ، البته اونا به این که از این کار تشخیصی که توسط کاربران داده میشه به عنوان ابزاری برای امنیت استفاده کنند ، فکر می کنم توجهی نکردن.
    به فقط به صورت همیاری کاربران متون قدیمی را می خوانند و می نویسند و یا نوشته ها را اصلاح می کنند ، فکر می کنم اسم پروژه کنجور بود…
    موفق و پیروز باشید

  2. سلام
    بله، وبسایتشان را دیده‌ام، بر روی تبدیل متن اشعار کار میکنند. کار با ارزش و قابل احترامی است.

پاسخ دهید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *


6 × = 30