Websites

Neue Software erkennt Bots-Scraping von Web-Site-Daten

Macro Recording and UI Automation Wizards - UiPath 2.1

Macro Recording and UI Automation Wizards - UiPath 2.1
Anonim

Websites wie Jobbörsen stehen vor einem anhaltenden Problem: Ihre Daten werden ständig von automatisierten Bots gestohlen.

Die Daten landen auf anderen konkurrierenden Jobbörsen, die den Inhalt gestohlen haben. Es ist ein Problem, das jede Website plagt, deren geistiges Eigentum kostenlos veröffentlicht werden muss, oder sogar solche mit Abonnementmodellen.

Aber eine in Atlanta ansässige Sicherheitsfirma, die sich auf die Erkennung von Bots spezialisiert hat, hat Software entwickelt, die diese Bildschirmausbrüche erkennt und Data-Mining-Bots.

[Weiterführende Literatur: So entfernen Sie Malware von Ihrem Windows-PC]

Pramanas Hauptprodukt, HumanPresent, erkennt automatisierte Bots, die beispielsweise Spam in webbasierte Formulare eingeben oder sich kostenlos registrieren E-Mail-Konten, die für Spam verwendet werden sollen.

Pramana hat jetzt für HumanPresent ein Modul namens "Data Mining und Screen Scraping Prevention" entwickelt. Es arbeitet nach vielen gleichen Prinzipien wie sein Hauptprodukt, wurde aber für Data-Mining-Szenarien modifiziert, sagte David Crowder, Pramanas CEO.

HumanPresent kann Bots erkennen, indem er Unterschiede in der Art wahrnimmt, wie ein Mensch normalerweise mit einem Web interagiert Seite und kontrastiere das mit dem Verhalten von Bots. Es sieht mehr als 30 Metriken wie Tastaturstriche, Mausklicks und das Timing dieser Aktionen an.

HumanPresent betrachtet einzelne Transaktionen, aber das Data-Mining-Modul wurde so modifiziert, dass es einen zeitgesteuerten Zeitraum sieht, wenn ein Bot angezeigt wird oder Mensch ist auf der Seite, sagte Crowder.

Data-Mining-Bots neigen dazu, die Benutzeroberfläche eines Browsers vollständig zu umgehen. Zum Beispiel kann ein Bot eine Webseite mit vielen und vielen Daten anfordern, aber niemals scrollt oder klickt er auf eine Seite. Wenn eine Reihe von Seiten auf diese Weise geöffnet und betrachtet wird, könnte dies bedeuten, dass ein Data-Mining-Bot angekommen ist.

Pramana weist dem Besucher eine eindeutige ID zu und kann nach der Analyse des Verhaltens des Besuchers entscheiden, ob er sie beschriften soll der Besucher ein Bot oder nicht. Es gibt verschiedene Möglichkeiten, wie ein Website-Betreiber mit der Situation umgehen kann:

Die IP-Adresse (Internet Protocol) des Bot-Computers kann dauerhaft blockiert werden. Eine Autoauktions-Website, die das Data Mining-Modul von Pramana testet, entschied, verdächtige Bots in eine "Sandbox" zu verlegen, in der völlig falsche Daten bereitgestellt werden.

"Sie sind tatsächlich Data Mining - es ist einfach falsch", sagte Crowder.

Andere Optionen beinhalten, den Webseitenbesucher mit einer Aufgabe oder Aufgabe zu konfrontieren, die einige Bots nicht ausführen können.

Data Mining kostet Unternehmen teuer. Unternehmen, die Premium-Daten verkaufen, werden feststellen, dass ihre Konkurrenten ein Abonnement kaufen und dann automatisierte Bots verwenden, um die Daten für ihre eigenen Websites zu stehlen. In einem Beispiel fand eine Website mit Gigabytes an Daten zu Gebrauchtwagenpreisen heraus, dass ihre Daten gekratzt und bei eBay verkauft wurden.

"Sie konkurrieren tatsächlich mit ihren eigenen Inhalten", sagte Crowder.

Einige Websites haben schlechte Designs, die das Scraping von Daten wesentlich erleichtern. Auf der Website des Gebrauchtwagens könnten URLs (Uniform Resource Locators) sequenziell geändert werden, um mehr Daten zu offenbaren, sagte Crowder.

Das Data-Mining-Modul wird zunächst in das HumanPresent-Produkt integriert, aber Anfang nächsten Jahres plant Pramana den Verkauf getrennt, sagte Crowder. Pramana bietet HumanPresent entweder als On-Premise-Appliance oder als Software-as-as-Service-Konfiguration an.

Für das SaaS-Angebot (Software as a Service) wird Pramanas Technologie in eine Web-Anwendung integriert und Sitzungsinformationen werden zurückgesendet Pramana zur Analyse. Crowder sagte, dass Pramana in der Lage sei, die Latenzzeit in seiner neuesten Version deutlich zu reduzieren. Für Kunden, die mehr Geschwindigkeit benötigen, ist die Appliance verfügbar.