Was ist Web Scraping und für welche Ziele wird es eingesetzt?
So entstand Parser. Seine Hauptaufgabe besteht darin, Probleme beim Verständnis komplexer Daten zu beseitigen. Es wandelt unstrukturierte oder unlesbare Informationen in möglichst einfache und verständliche Strukturen um. Web Scraping (auch bekannt als Screen Scraping), Web Data Mining, Web Harvesting, Web Data Extraction, Web Data Parsing, ist ebenfalls eine Art der Masseninformationsbeschaffung. Es handelt sich um den Prozess der massenhaften Sammlung von Informationen von verschiedenen Websites.
Dieser Prozess ermöglicht Ihnen, unstrukturierte Daten von Websites Dritter zu sammeln und sie in strukturierter Form bereitzustellen, indem Sie sie in den Formaten HTML, JSON, XML, CSV, XLSX auf Ihren Server hochladen. Dies ermöglicht den Produkt- und Preisabgleich, die Analyse und ggf. die Visualisierung der Daten.
Die Programme, die zum Sammeln der Informationen benötigt werden, heißen Parser oder Scraper und sind in verschiedenen Programmiersprachen geschrieben, meisten sind es folgende Sprachen: Ruby, cURL, Python, Node JS, C#, PHP, Java, GoLang usw.
Beispiele für die Anwendung von Web Scraping
-
Unternehmen X wird sein Produkt auf Amazon verkaufen. Durch die Analyse der Preise ist es möglich, deren Entwicklung und die Anzahl ähnlicher Produkte, die auf Amazon.com und/oder Amazon.de verkauft werden, zu verfolgen. Dies wird benötigt, um den besten Preis zu wählen und das Verkaufsvolumen vorherzusagen.
-
Unternehmen Y entwickelt eine Website oder eine App zur Auswahl von Hotels in einem Urlaubsgebiet. Es muss alle Informationen über Hotels in dieser Region (Lage, Beschreibungen, Preise) von Airbnb, Booking, Hotels.com, Google Hotels und regionalen Websites sammeln. Nicht alle diese Websites stellen Informationen für Drittentwickler über API zur Verfügung. Parsing ist nicht dasselbe wie eine API. Ein Unternehmen kann beispielsweise eine API zur Verfügung stellen, um anderen Systemen die Interaktion mit seinen Daten zu ermöglichen; die Qualität und Quantität der über die API verfügbaren Daten ist jedoch in der Regel geringer als die, die durch Parsing gewonnen werden können. Darüber hinaus liefert das Parsing aktuellere Informationen als die API und ist strukturell viel einfacher einzurichten.
Welche Rolle Proxys beim Scraping spielen
Die Notwendigkeit, eine große Anzahl von Proxy-Servern zu verwenden, ist im Fall von Massen-Parsing/Scraping unvermeidlich. Proxyserver werden beim Parsing in erster Linie zum Schutz vor einer Blockierung durch den Server, der die Zielsite hostet, eingesetzt. Beim Parsing sendet Ihre IP-Adresse Anfragen an den Server, und wenn Sie zu viele Anfragen in kurzer Zeit senden oder zu viele Daten anfordern, kann der Server Ihre IP-Adresse blockieren.
Mit einem Proxy-Server können Sie Ihre echte IP-Adresse verbergen und Anfragen im Namen eines anderen Servers senden. Dies kann verhindern, dass Ihre IP-Adresse blockiert wird, und verringert das Risiko, dass Ihr Scrambler identifiziert und blockiert wird.
Darüber hinaus kann die Verwendung eines Proxys die Geschwindigkeit der Analyse erhöhen, da Sie die Anfragen auf mehrere Proxyserver verteilen können, wodurch Sie mehr Daten in kürzerer Zeit analysieren können.
Welche Arten von Proxyservern eignen sich am besten für Scraping?
Es gibt viele verschiedene Proxyserver. Die für die Datenerfassung am besten geeigneten Proxys sind im Rechenzentrum gehostete Proxys und mobile Proxys.
-
Data Center Hosted Proxies. Die IP-Adressen solcher Proxys sind auf IT-Unternehmen registriert. Die Software solcher Proxys wird in Datenzentren gehostet. Dies ist einer der schnellsten und billigsten Proxys. Der größte Vorteil solcher Proxys ist, dass für den genutzten Datenverkehr keine Gebühren anfallen. Das bedeutet, dass Sie jede beliebige Menge an Daten herunterladen und hochladen können. Dadurch wird der Preis in keiner Weise erhöht.
Ein Beispiel für einen der Dienste, die Zugang zu Proxy-Servern dieser Art bieten, ist Fineproxy.de. Der Preis für 1 IP-Adresse eines Proxys beginnt bei 6 Cent und ist damit der niedrigste unter allen ähnlichen Diensten.
-
Mobile Proxies. Die IP-Adressen dieser Proxys sind formal bei mobilen Internetanbietern registriert, aber in Wirklichkeit sind sie es nicht und werden ausschließlich als Proxys verwendet. Die Software wird auf dedizierten Servern in speziell eingerichteten "mobilen Farmen" gehostet.
Mobile Proxies sind wesentlich teurer und sollten nur in Ausnahmefällen verwendet werden, wenn es um das Parsen von Websites geht, die vor einer massenhaften Datenerfassung geschützt sind. Das bedeutet also, wenn anstelle des Seiteninhalts ein Captcha angegeben wird.
Man sollte bedenken, dass solche Dienste zusätzlich zur Grundgebühr für den Dienst auch für den genutzten Datenverkehr gesondert berechnet werden. Dies kann einen erheblichen Einfluss auf die Endkosten haben.
Hinweise für eine effektive Datenerhebung
-
(!) Sie sollten sich an die Gesetzgebung halten und die Zustimmung des Eigentümers zur Datenerhebung einholen.
-
Es ist illegal, vertrauliche Informationen, Geschäfts- oder Staatsgeheimnisse zu sammeln.
-
Es ist nicht zulässig, Parsing zu verwenden, um eine Website mit einer großen Anzahl von Anfragen zu blockieren. Da das Prinzip von Parsern auf dem Sammeln von Daten durch eine Reihe von Abfragen beruht, können sie von skrupellosen Nutzern zum Zweck eines DDOS-Angriffs verwendet werden, der zum Ausfall der Website führt.
-
Beim Parsen ist es nicht empfehlenswert, Bilder herunterzuladen. Sie brauchen nur den Link zum Bild zu analysieren. Andernfalls kommt es zu Urheberrechtsproblemen und es wird viel Datenverkehr verschwendet.
-
Sie sollten Proxyserver wählen, die so nah wie möglich am Webserver der Zielseite liegen. Ein Proxyserver in Deutschland ist beispielsweise ideal für das Parsen europäischer Websites.
-
Wenn Sie sich nicht sicher sind, welche Art von Proxy Sie benötigen, ist es am besten, mit einem im Rechenzentrum gehosteten Proxy zu beginnen. Wenn sich Ihre Datenerfassungseffizienz als schlecht erweist, sollten Sie zu einem mobilen Proxy wechseln.
-
Sie sollten keine personenbezogenen Daten aus Benutzerkonten sammeln. Dies gilt auch für die Erfassung nicht personenbezogener Daten, deren Weitergabe durch den Eigentümer der Website oder den Nutzer selbst verboten ist.
-
Das Parsen einer Website in einer Cloud (z. B. Cloudflare) ist kein Problem. Das Problem ist sehr oft die Parsing-Geschwindigkeit.
-
Je mehr Captchas es gibt, desto teurer wird das Parsen. Sie können die Anticaptcha-Funktion anschließen.