Semalt предлага 5 чекори за да ги избришете веб-страниците

Scrapy е отворен извор и рамка за вадење информации од различна веб-страница. Тој користи API и е напишан во Пајтон. Страпијата во моментот ја одржува компанија за веб-стружење како „Scrapinghub Ltd.“.

Тоа е едноставен туторијал за тоа како да напишете веб пребарувач користејќи Scrapy, парсиран Craigslist и да ги чувате информациите во формат CSV. Петте главни чекори на овој туторијал се споменати подолу:

1. Креирај нов проект за скропирање

2. Напишете пајак за да пребарувате веб-страница и да извлечете податоци

3. Изнесете ги изнесените податоци користејќи ја командната линија

4. Променете го пајакот за да следите врски

5. Користете аргументи на пајакот

1. Креирај проект

Првиот чекор е да се создаде проект. Wouldе треба да ја преземете и инсталирате Scrapy. Во лентата за пребарување, треба да го внесете името на директориумот каде што сакате да ги чувате податоците. Скрапијата користи различни пајаци за да извлече информации, и овие пајаци прават првични барања за создавање директориуми. За да ставите пајак да работи, треба да го посетите списокот со директориуми и да вметнете одреден код таму. Внимавајте на датотеките во вашиот тековен директориум и забележете две нови датотеки: цитати-а.html и цитати-б.html.

2. Напишете пајак за да пребарувате веб-страница и да извлечете податоци:

Најдобар начин да се напише пајак и да се извлечат податоци е создавање различни селектори во школка на Скрапи. Секогаш треба да ги приложувате УРЛ-адресите во наводници; во спротивно, Scrapy ќе ги промени природата или имињата на тие URL-адреси веднаш. Треба да користите двојни наводници околу URL за соодветно да напишете пајак. Треба да користите.extract_first () и да избегнете грешка во индексот.

3. Изнесете ги избришаните податоци користејќи ја командната линија:

Важно е да се извезуваат отфрлените податоци користејќи ја командната линија. Ако не го извезувате, нема да добиете точни резултати. Пајакот ќе генерира различни директориуми што содржат корисни информации. Треба да ги користите клучните зборови со принос Python за да ги извезувате овие информации на подобар начин. Внесување на податоци во датотеки JSON е можно. JSON-датотеките се корисни за програмерите. Алатките како JQ помагаат во извозот на избришани податоци без проблем.

4. Променете го пајакот за да следите врски:

Во мали проекти, можете да ги менувате пајаците за соодветно да ги следите врските. Но, тоа не е неопходно со големи проекти за стружење податоци . Датотеката за чувари на места за цевководи со ставки ќе се постави кога ќе го промените пајакот. Оваа датотека може да се наоѓа во делот туториал / piplines.py. Со Scrapy, можете да изградите софистицирани пајаци и да ја промените нивната локација во секое време. Можете да извлечете повеќе страници истовремено и да спроведувате различни проекти за вадење податоци.

5. Користете аргументи на пајакот:

Повратен одговор на parse_author е аргумент на пајакот што може да се користи за извлекување податоци од динамични веб-страници. Вие исто така може да им дадете аргументи на командната линија на пајаците со специфичен код. Аргументите на пајакот стануваат атрибути на пајакот во ниеден момент и го менуваат целокупниот изглед на вашите податоци.

Во овој туторијал, ги покривме само основите на Scrapy. Постојат многу карактеристики и опции за оваа алатка. Треба само да ја преземете и активирате Scrapy за да дознаете повеќе за нејзините спецификации.