Back to Question Center
0

Semalt Islamabad Expert - Ce que vous devez savoir sur un robot Web

1 answers:

Un moteur de recherche robot d'exploration est une application, un script ou un programme automatisé qui parcourt le World Wide Web d'une manière programmée pour fournir des informations mises à jour pour un moteur de recherche particulier. Avez-vous déjà demandé pourquoi vous obtenez différents ensembles de résultats chaque fois que vous tapez les mêmes mots-clés sur Bing ou Google? C'est parce que les pages Web sont téléchargées chaque minute. Et comme ils sont en cours de téléchargement web crawlers sur les nouvelles pages Web. (dix)

Michael Brown, un éminent expert de Semalt , raconte que les robots d'exploration, également connus sous le nom d'indexeurs automatiques et d'araignées Web, travaillent sur différents algorithmes pour différents moteurs de recherche. Le processus d'exploration Web commence par l'identification de nouvelles URL qui doivent être visitées, soit parce qu'elles viennent d'être téléchargées, soit parce que certaines de leurs pages Web ont un contenu récent. Ces URL identifiées sont appelées graines dans le terme du moteur de recherche - угловой диван август. (dix)

Ces URL sont finalement visitées et re-visitées en fonction de la fréquence à laquelle le nouveau contenu est téléchargé pour eux et les politiques guidant les araignées. Au cours de la visite, tous les hyperliens sur chacune des pages Web sont identifiés et ajoutés à la liste. À ce stade, il est important d'indiquer clairement que différents moteurs de recherche utilisent des algorithmes et des politiques différents. C'est pourquoi il y aura des différences à partir des résultats de Google et des résultats de Bing pour les mêmes mots-clés, même s'il y aura beaucoup de similitudes aussi.

Web crawlers font des travaux énormes en gardant les moteurs de recherche à jour. En fait, leur travail est très difficile à cause de trois raisons ci-dessous.

1. Le volume de pages Web sur Internet à chaque instant. Vous savez qu'il existe plusieurs millions de sites sur le Web et que d'autres sont lancés chaque jour. Plus le volume du site sur le net est important, plus il est difficile pour les robots d'être à jour .

2..Le rythme auquel les sites Web sont lancés. Avez-vous une idée du nombre de nouveaux sites Web lancés chaque jour?

3. La fréquence à laquelle le contenu est modifié même sur les sites Web existants et l'ajout de pages dynamiques.

Ce sont les trois problèmes qui rendent difficile la mise à jour des araignées sur le Web. Au lieu d'explorer des sites Web sur la base du premier arrivé, premier servi, beaucoup d'araignées du Web donnent la priorité aux pages Web et aux hyperliens. La hiérarchisation est basée sur seulement 4 stratégies de moteur de recherche de moteur de recherche général. (dix)

1. La politique de sélection est utilisée pour sélectionner les pages à télécharger en premier pour l'analyse.

2. Le type de politique de re-visite est utilisé pour déterminer quand et à quelle fréquence les pages Web sont revisitées pour d'éventuels changements. (dix)

3. La politique de parallélisation est utilisée pour coordonner la distribution des robots pour une couverture rapide de toutes les graines .

4. La politique de politesse est utilisée pour déterminer comment les URL sont explorées afin d'éviter la surcharge de sites Web .

Pour une couverture rapide et précise des graines, les crawlers doivent avoir une grande technique d'exploration qui permet de prioriser et de réduire les pages web, et ils doivent également avoir une architecture hautement optimisée. Ces deux moyens leur faciliteront l'exploration et le téléchargement de centaines de millions de pages Web dans quelques semaines. (dix)

Dans une situation idéale, chaque page Web est tirée du World Wide Web et prise à travers un téléchargeur multi-thread après quoi, les pages Web ou les URL sont mises en file d'attente avant de les passer par un programmeur dédié pour la priorité. Les URL prioritaires sont reprises dans le téléchargeur multithread afin que leurs métadonnées et leur texte soient stockés pour une analyse correcte .

Actuellement, il existe plusieurs moteurs de recherche ou robots d'exploration. Celui utilisé par Google est le Google Crawler. Sans pages Web, les pages de résultats des moteurs de recherche renverront des résultats nuls ou du contenu obsolète puisque les nouvelles pages Web ne seront jamais répertoriées. En fait, il n'y aura rien comme la recherche en ligne.

November 29, 2017