/captcha_break

Primary LanguagePythonMIT LicenseMIT

captcha_break

This project for get data from rrk site ( Official Iranian newspaper ) I needed to break it down to get information on every ad.

I used the following tools python to do this: selenium sklearn pillow pandos

These modules must be installed.

برای دریافت اطلاعات هر آگهی نیاز است تا از کپچای آن عبور کنیم . برای اینکار از شبکه عصبی و پردازش تصویر استفاده می کنیم. در این روش مراحل زیر باید انجام شود. ابتدا تعداد زیادی تصاویر کپچا از سایت دریافت می نماییم. سپس هر تصویر را با استفاده از الگوریتم های پردازش تصویر ابتدا تبدیل به خاکستری کرده. سپس مقداری از نویزهای تصویر را حذف می کنیم . سپس بااستفاده از الگوریتم خوشه بندی k-means محل تصویر هر کاراکتر را در تصویر بدست می آوریم سپس کاراکتر های بدست آمده را از تصویر جدا کرده و در شاخه train ذخیره می کنیم . در شبکه عصبی استفاده شده از svm (support vector machine) استفاده شده است که ابتدا آنرا توسط تصاویر بدست آمده ازکاراکتر های مرحله قبل آموزش می دهیم . سپس هنگام خواندن تصویر کپچای سایت ، مجددا ابتدا با استفاده از روش جدا سازی کاراکتر ها جای هر کاراکتر را مشخص و تصویر انرا جدا می کنیم و سپس با استفاده از الگوریتم دسته بندی انجام شده با svm این کاراکتر را شناسایی می کنیم و در نهایت تمام کاراکتر های موجود در کپچا به این روش خوانده شده و از این مرحله به صورت اتوماتیک عبور خواهیم کرد.