Видеоурок Теплицы: разбираем инструмент для веб-скрейпинга Portia

Веб-скрейпинг сильно упрощает жизнь тем, кто сталкивается с необходимостью собирать и обрабатывать большие массивы данных, полученных из Интернета.
Веб-скрейпинг сильно упрощает жизнь тем, кто сталкивается с необходимостью собирать и обрабатывать большие массивы данных, полученных из Интернета.

Веб-скрей­пинг силь­но упро­ща­ет жизнь тем, кто стал­ки­ва­ет­ся с необ­хо­ди­мо­стью соби­рать и обра­ба­ты­вать боль­шие мас­си­вы дан­ных, полу­чен­ных из Интер­не­та. Напри­мер, это удоб­но, если вы реши­ли собрать базу дан­ных кон­так­тов с како­го-либо сай­та, выбрать назва­ния и цены това­ров или анон­сы меро­при­я­тий.

Если базы доста­точ­но боль­шие, то на пере­ход по стра­ни­цам, копи­ро­ва­ние и встав­ку мож­но потра­тить мно­го вре­ме­ни. Веб-скрей­пинг авто­ма­ти­зи­ру­ет и силь­но сокра­ща­ет этот про­цесс. Подроб­но о скрей­пин­ге мы рас­ска­зы­ва­ли в этом видео­уро­ке, а сего­дня хотим рас­смот­реть новый инстру­мент для скрей­пин­га от scrapinghub.com под назва­ни­ем Portia.

Portia отно­сит­ся к про­грам­мам с откры­тым исход­ным кодом, что в пере­во­де озна­ча­ет «рас­про­стра­ня­ет­ся бес­плат­но». Про­грам­ма раз­ра­бо­та­на как веб-при­ло­же­ние, то есть вам ниче­го не нуж­но ска­чи­вать и уста­нав­ли­вать на ком­пью­тер. Более того, после реги­стра­ции вам авто­ма­ти­че­ски выде­ля­ет­ся место на Обла­ке, и все ваши дан­ные будут дуб­ли­ро­вать­ся в без­опас­ном месте.