Semalt deelt een gemakkelijke manier om informatie uit websites te halen

Webscraping is een populaire methode om inhoud van websites te verkrijgen. Een speciaal geprogrammeerd algoritme komt op de hoofdpagina van de site en begint alle interne links te volgen, waarbij de interieurs van divs die u hebt gespecificeerd, worden samengesteld. Als resultaat klaar CSV-bestand met alle noodzakelijke informatie in een strikte volgorde. De resulterende CSV kan in de toekomst worden gebruikt om bijna unieke inhoud te creëren. En over het algemeen zijn dergelijke gegevens als tabel van grote waarde. Stel je voor dat de volledige productlijst van een bouwwinkel in een tabel wordt gepresenteerd. Bovendien worden voor elk product, voor elk type en merk van het product, alle velden en kenmerken ingevuld. Elke copywriter die voor een online winkel werkt, zou graag zo'n CSV-bestand hebben.

Er zijn veel tools voor het extraheren van gegevens van websites of webscraping en maak je geen zorgen als je geen programmeertalen kent, in dit artikel zal ik een van de gemakkelijkste manieren laten zien - met behulp van Scrapinghub.

Ga allereerst naar scrapinghub.com, registreer en log in.

De volgende stap over uw organisatie kan gewoon worden overgeslagen.

Vervolgens kom je op je profiel. Je moet een project maken.

Hier moet je een algoritme kiezen (we zullen het algoritme "Portia" gebruiken) en een naam aan het project geven. Laten we het op de een of andere manier ongebruikelijk noemen. Bijvoorbeeld "111".

Nu komen we in de werkruimte van het algoritme waar u de URL moet typen van de website waarvan u gegevens wilt extraheren. Klik dan op "New Spider".

We gaan naar de pagina die als voorbeeld zal dienen. Het adres wordt bijgewerkt in de koptekst. Klik op "Deze pagina annoteren".

Beweeg uw muiscursor naar rechts waardoor het menu verschijnt. Hier zijn we geïnteresseerd in het tabblad "Extracted item", waar u op "Edit Items" moet klikken.

Toch wordt de lege lijst van onze velden weergegeven. Klik op "+ veld".

Alles is hier eenvoudig: u moet een lijst met velden maken. Voor elk item moet u een naam invoeren (in dit geval een titel en inhoud), specificeren of dit veld vereist is ("Verplicht") en of het kan variëren ("Variëren"). Als u opgeeft dat een item "vereist" is, slaat het algoritme eenvoudig pagina's over waar het dit veld niet kan vullen. Indien niet gemarkeerd, kan het proces voor altijd duren.

Klik nu gewoon op het veld dat we nodig hebben en geef aan wat het is:

Gedaan? Klik vervolgens in de koptekst van de website op 'Voorbeeld opslaan'. Daarna kunt u terugkeren naar de werkruimte. Nu het algoritme weet hoe iets te krijgen, moeten we er een taak voor instellen. Klik hiervoor op "Wijzigingen publiceren".

Ga naar het taakbord en klik op "Run Spider". Kies website, prioriteit en klik op "Uitvoeren".

Welnu, het schrapen is nu aan de gang. De snelheid wordt weergegeven door uw cursor te wijzen op het aantal verzonden verzoeken:

De snelheid van het gereedmaken van tekenreeksen in CSV - door naar een ander nummer te wijzen.

Klik op dit nummer om een lijst met reeds gemaakte items te zien. Je zult iets soortgelijks zien:

Als het klaar is, kan het resultaat worden opgeslagen door op deze knop te klikken:

Dat is het! Nu kunt u informatie van websites halen zonder enige ervaring met programmeren.