Latvijas SEO Web Lapu indeksēšana

Web Lapu indeksēšana Google.com Yahoo.com Bing / Live.com Ask.com

Meklējuma dzinējs indeksācija vāc, analīzes, un veikali dati pie atvieglināt ātru un precīzu informatīvu atradumu. Index projekts apvieno interdisciplinary jēdzienus from lingvistika, izzinošā psiholoģija, matemātika informātikafizika un informātika. Papildus vārds for process meklējuma dzinēju kontekstā projektēja pie atrast interneta lapas on internets ir Web indeksācija.

Populāri dzinēji focus on operatīvas, dabiskas mēles dokumentu full-texindeksācija ; mēdija tipi kā piemēram video un skanisks un grafikas ir tāpat searchable.

Meta meklējuma dzinēji reuse citu apkalpošanu indeksus un ne iegaumējiet lokālu indeksu, whereas cache-based meklējuma dzinēji pastāvīgi iegaumē indeksu līdzās the kodekss. Atšķirībā no full-texindeksiem, partial-text apkalpošanas ierobežo dziļumu indeksēts pie saīsināindex izmēru. Lielas apkalpošanas tipisks perform indeksāciju at predestinēta laika atstarpe pateicoties pieprasītajam laikam un apstrādi patēriņus, kamēr aģents-nodibinātais meklējuma dzinēju indekss in reāls laiks.

Zirnekļtīkls 3.0 nodibināts on tehnoloģijas of Semantisks zirnekļtīklszirnekļtīkls ICDL šablonietc. will nodrošināt nākamo paaudzi meklējuma dzinēji ar intelektuālāku analizēšanu un indeksācijas tehnoloģijām.

Saturi

  • 1 Indeksācija
    • 1.1 Index projekta faktori
    • 1.2 Index datu struktūras
    • 1.3 Izsaukumi paralēlismā
    • 1.4 Ačgārni indeksi
    • 1.5 Index saplūdums
    • 1.6 Priekšējais indekss
    • 1.7 Kompresija
  • 2 Dokumenta analizēšana
    • 2.1 Izsaukumi sarunvalodas apstrādē
    • 2.2 Tokenization
    • 2.3 Mēles atzīst
    • 2.4 Formatējiet analīzi
    • 2.5 Section atzīst
    • 2.6 Meta pazīmes indeksācija
  • 3 Paskatieties tāpat
  • 4 Tālāk izlasa
  • 5 Atsauces

Indeksācija

Glabāšanas mērķim indeksu vajag pie optimizēt ātrumu un izpildi meklējumā iederīgus dokumentus for meklējuma pieprasījums. Bez indeksa, meklējuma dzinējam vajag scan katrs dokuments kodeksā, kuram vajag pieprasīt nozīmīgu laiku un aprēķināšanas power. Piemēram, kamēr 10,000 dokumentu indekss var būt queried within milisekundes, katra vārda secīgs scan 10,000 lielos dokumentos varēja ņemt stundas. Papildus computer glabāšana pieprasīja pie iegaumēt indeksu, tāpat kā nozīmīgais palielinājums laikā pieprasīja for modifikācija pie ņemt vietu, ir traded no jo laiks saglabāja laikā informatīvs atradums.

Index projekta faktori

Galvenie faktori projektēšanā meklējuma dzinēja's arhitektūru iekļauj:

Pārņemiet faktorus 
Kā dati ieved indeksu, vai kā vārdi vai subject īpatnības tiek pielikti piindeksa laikā text kodeksa šķērsojums, un vai multiple indeksatori var strādāasynchronously. Indeksatoram vajag pirmā pārbaude vai it atjaunina vecu saturu vai pieliek jaunu saturu. Šķērsojums tipisks korelāti pie the datu krājums polise. Meklējuma dzinēja indekss pārņem ir tamlīdzīgs jēdzienā pithe SQL saplūdums komanda un citi saplūduma algoritmi.
Storage metodes 
Kā pie iegaumēt indeksu datitas ir, vainformācijai vajag būt datus saspiests vai filtrēts.
Index izmērs 
Cik computer glabāšana tiek pieprasīta pie atbalstīt indeksu.
Meklējuma ātrums 
Kā ātri vārds var būt atrasts ačgārnajā indeksā. Meklējuma ātrums ieeju datu struktūrā, salīdzināms ar kā ātri it var būt atjaunināts vai pārvietots, ir informātikas centrālu centru.
Atbalsts 
Kā indekss tiek atbalstīts augstāk laiks.
Defekta tolerance 
Kā svarīgs it ir for apkalpošana pie būt uzticamam. Problēmas iekļauj kontaktu ar index korupciju, noteic vai slikti dati var būt ārstēts izolācijā, dealing ar sliktu hardware dalīšanaun shēmas kā piemēram hash-based vai compositdalīšana tāpat kā kopija.

 

Index datu struktūras

Meklējuma dzinēja arhitektūras vary ceļā indeksē ir performed un index glabāšanas metodēs pie satikt atšķirīgos projekta faktorus. Indeksu tipiekļauj:

Piedēkļa koks 
Tēlains strukturēts līdzīgi koks, atbalsta lineāra laika meklējumu. Built by glabāšana vārdu piedēkļus. Izmantots for meklēšana paraugi in DNS secības un grupēšanās. Galvens trūkums ir ka vārda glabāšana kokā var pieprasīt vairāk glabāšanu nekā glabāšana vārdu itself. Papildus priekšstats ir piedēkļa masīvu, kurš tiek uzskatīts pie pieprasīt mazāk virtuālu atmiņu un atbalsta datu kompresiju kā piemēram the BWT algoritms.
Koks 
A pasūtīts tree datu struktūra ka tiek izmantots pie iegaumēt associative masīvu kur atslēgas ir rindas. Vērtēts kā ātrs nekā a drumstalo galdu bet mazāk izplatījums-efektīvs. Piedēkļa koks ir tipu of trie. Mēģina atbalsta stiepjamo drumstalošanu, kurš ir svarīgs for meklējuma dzinēja indeksācija.
Ačgārns indekss 
Iegaumē katra atoma meklējuma kritērija gadījumu sarakstu tipisks formā of a drumstalojiet galdu vai binary koks .
Citāta indekss 
Iegaumē citātus vai hyperlinks starp dokumentiem pie atbalstīt citāta analīzi, temats of Bibliometrics.
Ngram indekss 
Iegaumē datu garuma secības pie atbalstīt atraduma citus tipus vai texkalnrūpniecību.
Termiņa dokumenta matrica 
Izmantots latentā semantiskā analīzē, iegaumē vārdu gadījumus dokumentos two-dimensional sparsmatrica.

Paralēlās datu apstrādes pieaugums

Galvens izsaukums meklējuma dzinēju projektā ir pārvaldi ar paralēliem aprēķināšanas procesiem. Tur ir daudz iespējas for race nosacījumus un secīgi defekti. Piemēram, jauns dokuments tiek pielikts pie kodeksa un indeksam vajag būt atjauninātam, bet indeksam vienlaikus vajag pie turpināt atbildi pimeklējuma pieprasījumiem. Šis ir kolīziju starp diviem konkurē uzdevumiem. Aplūkojiet ka autori ir informācijas ražotājus, un web crawler ir šīs informācijas patērētāju, saķer tekstu un iegaumē it paslēptuvē (vai kodekss). Priekšējais indekss ir informācijas ražots by kodekss patērētāju, un ačgārnais indekss ir informācijas ražots by priekšējais indekss patērētāju. Šis ir kopējs saucams a producer-consumer modelis. Indeksators ir searchable informācijas ražotāju un lietotāji ir patērētājus, kuram vajag pie meklēt. Izsaukums tiek palielināts kad strādā ar izplatīto glabāšanu un izplatīto apstrādi. Piepūlē piizmērīt ar indeksētās informācijas lielajiem daudzumiem, meklējuma dzinēja's arhitektūra var ieslēgt izplatīts aprēķinakur dažu mašīnu darbojas unisonā meklējuma dzinēja consists. Šis palielina iespējas for nesakarība un izdara it grūtāks pie atbalstīt fully-synchronized, izplatīja, paralēla arhitektūra.

Ačgārni indeksi

Daudz meklējuma dzinēji savienojas a ačgārns indekss kad vērtē a meklējiet pieprasījumu piātri izvietot dokumentus satur vārdus pieprasījumā bet pēc tam grezns thesdokumenti by iederība. Tā kā ačgārnie index veikali dokumentu satur katru vārdu saraksts, meklējuma dzinējs var izmantot direct piekļūšana pie atrast dokumentus sasiets ar katru vārdu pieprasījumā pavēlē pie renovēt atbilst dokumentus ātri. Following ir ačgārna indeksa vienkāršotu ilustrāciju:

Ačgārns indekss
Vārds Dokumenti
the Dokuments 1, dokuments 3, dokuments 4, dokuments 5
govs Dokuments 2, dokuments 3, dokuments 4
runā Dokuments 5
moo Dokuments 7

Šis indekss var tikai noteikt vai vārds eksistē within specifisks dokuments, since it iegaumē nekādu informāciju regarding biežums un vārda pozīcija; it tiek tādēļ uzskatīts pie būt a boolean indekss. Tāds indekss noteic kāddokumenti atbilst pieprasījumu bet ne klasificē atbilstos dokumentus. Dažos projektos indekss iekļauj papildus informāciju kā piemēram katra vārda biežums katrā dokumentā vai vārda pozīcijās katrā dokumentā. Pozīcijas informācija atļauj meklējuma algoritmu pie identificēt vārda tuvību piatbalstīt meklēšanu frāzes; biežums var būt izmantots pie palīdzēt klasificēšanā dokumentu iederību pie pieprasījuma. Tādi temati ir centrālo research centru of informatīvs atradums.

Ačgārnais indekss ir a sparse matricasince ne visi vārdi ir klāt katrā dokumentā. Pie saīsināt computer storage atmiņas prasības, it tiek iegaumēts savādāk from divi dimensional masīvs. Indekss ir tamlīdzīgs pie the termiņa dokumenta matrices izmantots by latenta semantiska analīze. Ačgārnais indekss var būt aplūkots forma of a drumstalo galdu. Dažos gadījumos indekss ir formu of a binary kokskurš pieprasa papildus glabāšanu bet var saīsināt meklējuma laiku. Lielos indeksos arhitektūra ir tipisks izplatīts drumstalo galdu.

Ačgārni indeksi var būt programmēts dažās programmē mašīnvalodās.

Priekšējais indekss

Priekšējie index veikali vārdu saraksts for katrs dokuments. Following ir priekšējā indeksa vienkāršotu formu:

Priekšējais indekss
Dokuments Vārdi
Dokuments 1 the, govs, uzskati, moo
Dokuments 2 the, kaķis, un, the, cepure
Dokuments 3 the, cepešbļoda, skrēja, tālu, ar, the, karote

Rationale behind attīstība priekšējo indeksu ir ka kā dokumenti analizē, iir labāks pie tiešs iegaumēt vārdus pa dokumentu. Attēls atļauj asinhronisku system apstrādi, kurš daļēji apiet ačgārno index modifikāciju bottleneck. Priekšējais indekss ir šķirots pie pārveidot it pie ačgārna indeksa. Priekšējais indekss ir pēc būtības pāru consisting of dokuments un vārds, salīdzināts by dokuments sarakstu. Pārveide priekšējo indeksu pie ačgārna indeksa ir tikai šķirošanas tematu pārus by vārdi. Šai uzmanībā, ačgārnais indekss ir a word-sorted forward indekss.

Kompresija

Ražo vai atbalsta liela meklējuma dzinēja indeksu iedomājas būtisku glabāšanu un apstrādā izsaukumu. Daudz meklējuma dzinēji izmanto kompresijas formu pisaīsināt indeksu izmēru on disks. Aplūkojiet nākamo scenāriju for pilns teksts, internet meklējuma dzinējs.

  • Vērtēts 2,000,000,000 atšķirīgas interneta lapas eksistē kā of gads 2000
  • Suppose tur ir 250 vārdi on katrs webpage (nodibināts on pieņēmums tie ir tamlīdzīgi pie noveles lapaspusēm.
  • It ņem 8 gabalus (vai 1 baits) piiegaumēt vienīgu simbolu. Dažs kodēšanass izmantojiet 2 baitus pa simbolu
  • Simbolu vidējais skaitlis jebkādā dotajā vārdā on lapaspuse var būt vērtēts at 5 (Wikipedia:Size salīdzinājumi)
  • Average personisks dators atnāk ar aptuveni 20 gigabaiti of usable izplatījums

Dots šim scenārijam, uncompressed indekss (assuming a nesavienotsvienkāršs, indekss) jo 2 biljona interneta lapām vajag vajag pie iegaumēt 500 biljona vārda ieejas. At 1 baits pa simbolu, vai 5 baitiem pa vārdu, šim vajag pieprasīt storage izplatījuma 2500 gigabaitus tikai, vairāk kā personiska datora average brīvais disk izplatījums. Šī kosmiska prasība var būt pat liels jo fault-tolerant izplatīja storage arhitektūru. Atkarībā no compression tehnikas izvēlas, indekss var būt saīsināts pie šā izmēra frakcijas. Tradeoff ir laiku un apstrādā power pieprasīts pie perform kompresiju un dekompresiju.

Tikai, liela mēroga meklējuma dzinēja projekti apvieno glabāšanas vērtību tāpat kā elektrības patēriņus pie pastiprināt glabāšanu. Tādēļ compression ir vērtības pasākumu.


 


Meklēšanas Rezultāti