Če želite več uporabnih rezultatov, večina iskalnikov store več kot le besede in URL. Motor lahko shranite, kolikokrat se pojavi beseda na strani. Motor se lahko utež Za vsak vnos, s povečanjem vrednosti, ki so mu dodeljene besedami, kot se pojavljajo na vrhu dokumenta, v podnaslovi, v povezavah, v meta oznake, ali v naslovu strani. Vsaka poslovna iskalnik ima drugačno formulo za dodeljevanje težo besede v svoj indeks. To je eden od razlogov, da se bo iskanje za isto besedo v različnih iskalnikov proizvajajo različne sezname, s strani predstavljena v različnih naročil.
Ne glede na natančne kombinacije dodatnimi informacijami, ki jih hrani iskanje Motor, bodo podatki kodirani, da prihranite prostor za shranjevanje. Na primer, original Google Članek opisuje uporabo 2 bajtov za vsako 8 bitov, za shranjevanje podatkov o utežjo - ali je bila beseda z veliko začetnico, njena velikost črk, položaj in druge informacije, ki pomagajo pri razvrstitvi hit. Vsak dejavnik, lahko traja 2 ali 3 bitov znotraj 2-byte skupine (8 bitov = 1 bajt). Kot rezultat, lahko veliko informacij, ki se shranijo v zelo kompaktno obliko. Potem ko je informacija zgoščena, da je pripravljena za indeksiranje
Indeks ima en sam namen:. Omogoča informacije je na voljo v najkrajšem možnem času. Obstaja kar nekaj načinov za indeks, ki bo zgrajena, vendar je eden izmed najbolj učinkovitih načinov je, da zgraditi razpršene tabele. V hašiš, se uporablja formula za pritrditev številčne vrednosti za vsako besedo. Formula je zasnovan tako, da enakomerno vpise poda vnaprej določeno število oddelkov. Ta številčna razporeditev je drugačna od porazdelitve besed po abecedi, in da je ključ do uspešnosti neke hash tabele je.
V angleščini, obstaja nekaj črk, ki se začnejo veliko besed, drugi pa začnejo manj. Boste našli, na primer, da je " M " prerez slovarju veliko debelejši od " X " oddelek. Ta neenakost pomeni, da se najde besedo, ki se