Discovery znanje
/ Knowledge Discovery >> Discovery znanje >> tech >> računalnik >> internet >> internet osnove >>

Kako Internet Iskalniki Work

stejši primer, lahko iskalnik preprosto shranite besedo in URL, kjer je bilo ugotovljeno. V resnici pa bi to naredile motor omejeno uporabo, saj ne bi bilo način povedal, ali je beseda uporabljena v pomemben ali trivialna način na strani, ali je bila beseda uporablja enkrat ali večkrat ali strani vsebovala povezave do drugih spletnih strani, ki vsebujejo besedo. Z drugimi besedami, ne bi bilo nobenega načina gradnje prednostni seznam, ki poskuša predstaviti najbolj uporabnih strani na vrhu seznama rezultatov iskanja.

Če želite več uporabnih rezultatov, večina iskalnikov store več kot le besede in URL. Motor lahko shranite, kolikokrat se pojavi beseda na strani. Motor se lahko utež Za vsak vnos, s povečanjem vrednosti, ki so mu dodeljene besedami, kot se pojavljajo na vrhu dokumenta, v podnaslovi, v povezavah, v meta oznake, ali v naslovu strani. Vsaka poslovna iskalnik ima drugačno formulo za dodeljevanje težo besede v svoj indeks. To je eden od razlogov, da se bo iskanje za isto besedo v različnih iskalnikov proizvajajo različne sezname, s strani predstavljena v različnih naročil.

Ne glede na natančne kombinacije dodatnimi informacijami, ki jih hrani iskanje Motor, bodo podatki kodirani, da prihranite prostor za shranjevanje. Na primer, original Google Članek opisuje uporabo 2 bajtov za vsako 8 bitov, za shranjevanje podatkov o utežjo - ali je bila beseda z veliko začetnico, njena velikost črk, položaj in druge informacije, ki pomagajo pri razvrstitvi hit. Vsak dejavnik, lahko traja 2 ali 3 bitov znotraj 2-byte skupine (8 bitov = 1 bajt). Kot rezultat, lahko veliko informacij, ki se shranijo v zelo kompaktno obliko. Potem ko je informacija zgoščena, da je pripravljena za indeksiranje

Indeks ima en sam namen:. Omogoča informacije je na voljo v najkrajšem možnem času. Obstaja kar nekaj načinov za indeks, ki bo zgrajena, vendar je eden izmed najbolj učinkovitih načinov je, da zgraditi razpršene tabele. V hašiš, se uporablja formula za pritrditev številčne vrednosti za vsako besedo. Formula je zasnovan tako, da enakomerno vpise poda vnaprej določeno število oddelkov. Ta številčna razporeditev je drugačna od porazdelitve besed po abecedi, in da je ključ do uspešnosti neke hash tabele je.

V angleščini, obstaja nekaj črk, ki se začnejo veliko besed, drugi pa začnejo manj. Boste našli, na primer, da je " M " prerez slovarju veliko debelejši od " X " oddelek. Ta neenakost pomeni, da se najde besedo, ki se

Page [1] [2] [3] [4] [5] [6]