Видеоурок Теплицы: что такое веб-скрейпинг

Скрейпинг (от англ. Scraping — соскабливание) это технология, использующая скрипты для захода на сайт под видом обычного пользователя и собирающая информацию по заранее установленным параметрам.
Скрейпинг (от англ. Scraping — соскабливание) это технология, использующая скрипты для захода на сайт под видом обычного пользователя и собирающая информацию по заранее установленным параметрам.

Веб-скрей­пинг — срав­ни­тель­но недав­нее изоб­ре­те­ние, при­зван­ное зна­чи­тель­но упро­стить жизнь всем, кто так или ина­че стал­ки­ва­ет­ся с необ­хо­ди­мо­стью сбо­ра дан­ных в Интер­не­те. Скрей­пинг (от англ. Scraping — соскаб­ли­ва­ние) — это тех­но­ло­гия, исполь­зу­ю­щая скрип­ты для захо­да на сайт под видом обыч­но­го поль­зо­ва­те­ля и соби­ра­ю­щая инфор­ма­цию по зара­нее уста­нов­лен­ным пара­мет­рам. Таким обра­зом, мож­но полу­чать, обра­ба­ты­вать, систе­ма­ти­зи­ро­вать и сохра­нять в обыч­ном тек­сто­вом фор­ма­те дан­ные тысяч веб-стра­ниц за счи­тан­ные мину­ты.

По сути скрей­пинг — это то, что дела­ет чело­век, захо­дя на сайт. Он соскаб­ли­ва­ет нуж­ные ему дан­ные, зано­сит их в кору голов­но­го моз­га и, воз­мож­но, даже рас­кла­ды­ва­ет их там по ячей­кам, столб­цам и так далее. Веб-скрей­пинг — это то же самое. Созда­ет­ся скрипт, скрипт ими­ти­ру­ет поль­зо­ва­те­ля, захо­дит под видом бра­у­зе­ра на сайт, полу­ча­ет HTML код стра­ни­цы, так же, как полу­чил бы бра­у­зер поль­зо­ва­те­ля, но не соби­ра­ет из него стра­ни­цу, а вытас­ки­ва­ет нуж­ную тек­сто­вую инфор­ма­цию, клас­си­фи­ци­ру­ет и рас­кла­ды­ва­ет по ячей­кам.

Для каче­ствен­но­го скрей­пин­га нуж­но обла­дать навы­ка­ми про­грам­ми­ро­ва­ния, но на поверх­ност­ном уровне вы може­те озна­ко­мить­ся с тех­но­ло­ги­ей, посмот­рев наш видео­урок. Тех­но­ло­гию рабо­ты мы пока­зы­ва­ем на осно­ве про­грам­мы Outwit Hub, базо­во­го инстру­мен­та, не тре­бу­ю­ще­го навы­ков про­грам­ми­ро­ва­ния.