Discovery znanje
/ Knowledge Discovery >> Discovery znanje >> tech >> računalnik >> internet >> internet osnove >>

Kako Internet Iskalniki Work

osluje posebne programske opreme robotov, imenovane pajki, za izgradnjo sezname besed najdemo na spletnih straneh. Ko je pajek gradnjo svojih seznamov, se proces imenuje Web lezenjem. (Obstajajo nekatere slabosti kliče del interneta World Wide Web - velika množica pajkov-centric imen za orodje je eden izmed njih.) Da bi zgradili in ohranili koristen seznam besed, pajki iskalnika imajo pogled na veliko strani.

Kako koli pajek začnete svoje potovanje preko spleta? Običajni začetni točke so seznami močno rabljenih strežnikov in zelo priljubljena strani. Pajek se bo začel s priljubljeno spletno stran, indeksiranje besed na svojih straneh in po vsaki povezave najdete v mestu. Na ta način je sistem spidering hitro začne potovanje, razprostiranje čez najbolj uporabljanih delov spleta.

Google je začel kot akademski iskalniku. V dokumentu, ki opisuje, kako je bil zgrajen sistem, Sergey Brin in Lawrence Page dati zgled, kako hitro lahko njihovi pajki delo. Zgradili so svojo prvotno sistem za uporabo več pajki, navadno tri naenkrat. Vsak pajek lahko vodi okoli 300 povezav do spletnih strani, odprtih naenkrat. Na svojem vrhuncu uspešnosti, s štirimi pajki, bi njihov sistem plazijo več kot 100 strani na sekundo, ki ustvarjajo okoli 600 kilobajtov podatkov vsako sekundo.

Vse Vodenje teče hitro pomenilo izgradnjo sistema za dovajanje potrebne informacije za pajki. Zgodnji Google sistem imel strežnik namenjen zagotavljanju URL za pajki. Namesto odvisno od ponudnika internetnih storitev za domensko ime strežnika (DNS), ki prevaja ime strežniku je v naslova, Google imela svoj DNS, z namenom ohraniti zamud na minimum.

Ko je Google pajek pogledal na strani HTML, da se je seznanil z dvema stvarema:

  • Besede v stran
  • Če je bilo ugotovljeno, da se besede

    Besede, ki se pojavljajo v Naslov, podnapisi, meta oznake in druge pozicije relativne pomembnosti so bile ugotovljene za posebno obravnavo v poznejšem iskanja uporabnikov. Google pajek je bila zgrajena za indeks vsako pomembno besedo na stran, pri čemer ven članke " a, " " znakom " in ". " Drugi pajki različne pristope.

    Ti različni pristopi običajno poskus, da bi pajek deloval hitreje, uporabnikom omogočajo bolj učinkovito iskanje, ali pa oboje. Na primer, bodo nekateri pajki slediti besed v naslovu, pod tarifni in povezavami, skupaj z 100 najbolj pogosto uporabljenih besed na strani in vsake besede v prvih 20 vrstic besedi

    Page [1] [2] [3] [4] [5] [6]