Crawl-Tools fournit des outils en ligne dédiés aux administrateurs réseau, aux webmasters de site internet et à toute personne souhaitant automatiser des opérations en ligne. Les logiciels sont distribués en mode SaaS (Software as a Service) et ne nécessitent aucune installation ou de mise à jour régulière. Les logiciels maintenus par Crawl-Tools sont pour la plupart disponibles gratuitement dans un système d'exploitation. L'innovation réside dans le fait d'avoir regroupé les outils et de prendre en charge la collecte des données. Bien plus qu'un archivage en ligne, le cloud de Crawl-Tools se compose des fonctionnalités de transport de données et de normalisation des résultats accessibles en ligne ou via une api.
Un réseau informatique se compose de plusieurs équipements qui communiquent entre eux. L'enjeu de la sécurité est de collecter des informations sur le trafic et sur l'identité des serveurs connectés aux réseau. Les outils de Crawl-Tools sont comptatibles avec les protocoles HTTP, HTTPS et SOCKS4/5 pour les requetes de type GET et gèrent le port 43 pour les demandes Whois.
Le Whois (contraction de who is) est une fiche d'information sur une adresse ip, sur un ASN ou encore sur un nom de domaine.
Les données sont mises à disposition par des registres internet, par exemple les RIR pour les IPv4 ou les IPv6.
Les whois contiennent des informations sur le réseau, l'hebergeur et le propriétaires d'un site internet.
Lorsque le navigateur charge une ressource sur internet, le serveur accompagne les données d'un header HTTP. Cet échange de donnée facile et sécurise la communication sur un réseau.
En variant l'identité (user agent), l'audit mesure l'accessibilité de la page, la vitesse de chargement, la compression HTML et la taille du document.
Ces deux outils sont destinés aux administrateurs de serveur web ou aux webmasters de site internet. En mode mode SaaS (Software as a Service), la collecte d'information et les différents sont éffectués comme un utilisateur extérieur au réseau. Le but est d'identifier les menaces et les risques auxquels sont exposés l'application que l'on a mis en ligne. Un second aspect est de comprendre la manière dont les robots d'indexation tel que Google comprennent les données et l'architecture des données sur internet.
Au premier abord, un site internet se démarque par son ergonomie et l'aspect de son interface que voit l'internaute. Les outils de Crawl-tools ont pour but de visualiser une page internet telle que le verrait un moteur de recherche. Les audits techniques permettre de faire l'analyse des aspects techniques des pages HTML, de mesurer la performance et de proposer des améliorations SEO.
Toutes les pages sur internet utilisent un langage de balisage pour mettre en forme les données à afficher. Le format de document le plus courant est le HTML (HyperText Markup Language). L'analyse de structure met en évidence les titres, les liens et la longueur du texte de la page web.
Pour afficher du contenu, un ensemble de technologies est nécéssaire sur le serveur d'hébergement et sur le navigateur internet. L'audit technique sur un site internet détermine le CMS (content management system), le langage de programmation, les ressources Javascript chargées, l'hébergeur du site web, ...
Le réseau internet est en mouvement perpetuel avec ses risques et des opportunités à saisir. L'outil collecte le maximum de données sur les moteurs de recherche, sur des sites tiers et par des tests internes. Les données sur un site internet sont analysées pour évaluer sa répudation.
Les trois applications effectuent de nombreux tests afin de trouver des améliorations à apporter sur un site internet. Les suggestions portent autant sur la répartion des liens sur une page web que sur le choix des balises Hn, essentiels au référencement naturel. Les audits techniques et l'évaluation de la réputation mettent en évidence les choix technologiques, l'historique d'un site internet et les actions SEO utilisées par le référenceur.
L'accumulation de données en grande quantité (Big Data) est devenue une étape obligatoire. Les outils de Crawl-Tools ont pour but de vous soutenir dans cette quête en fournissant des logiciels de collecte et de traitement de l'information.
Le code source d'une page internet est la première ressource qui est téléchargée par le navigateur internet. Le document regroupe le contenu de la page et l'ensemble des instructions pour l'affichage. L'outil sert à automatiser l'extraction de données, par exemple les liens, les images ou encore un code produit.
Le text mining est une branche du traitement automatique du langage ayant pour but l'analyse et l'extraction de données.
Le logiciel utilise des techniques d'analyse linguistique pour la reconnaissance des entités nommées qui seront utilisées pour classifier les documents ou pour résumer un corpus de référence.