SEO LV Latvijas SEO Interneta Mārketings

Dokumenta / Lapu analizēšana

Dokuments analizē pārkāpj atsevišķi dokumenta komponentus (vārdi) vai masu informācijas līdzekļi citu formu for iestarpinājums into priekšējie un ačgārnindeksi. Vārdi atrasts tiek dēvēti zīmesun tā, meklējuma dzinēja indeksē un kontekstā sarunvalodas apstrādeanalizē ir vairāk kopējs griezās pie kā tokenization. It tiek tāpat dažbrīd dēvēts vārda robežas disambiguation, marķējums, text segmentācija, content analīzetexanalīze text kalnrūpniecība, piekrišana paaudze referāta segmentācija, lexingvai leksiska analīze. Terminu 'indeksācija', 'analizē', un 'tokenization' tiek izmantoti savstarpēji aizvietojams korporatīvā slengā.

Sarunvalodas apstrāde, kā of 2006, ir continuous research un tehnoloģisks pilnveidošanas tematu. Tokenization iedomājas daudz izsaukumus izdabūšanā necessary informāciju from dokumenti for indeksācija pie atbalstīt kvalitatīvu meklējumu. Tokenization for indeksācija ieslēdz multiple tehnoloģijas, kurš izpilde tiek kopējs turēti kā korporatīvi noslēpumi.

Interneta Reklāma: Labākais bezmaksas hostings Latvijā - 10GB disk vietas + 99GB datu / mēnesī
Atbalsta PHP, MySQL datu bāzes, .LV .COM vai jebkura cita jūsu domēna hostings par brīvu.

Valodas atpazīšana

Ja meklējuma dzinējs atbalsta multiple valodas, kopējam initial solim laikā tokenization vajag pie identificēt katra dokumenta's mēli; pēcnākamo soļu daudzir valodas apgādājamo (kā piemēram izcelsme un referāta daļa marķējums). Mēlrecognition ir procesu by kurš computer programma mēģina pie automātiskiedalīt, vai kategorizēt, the valoda of dokuments. Citi vārdi for valoda recognition iekļauj valodas klasificēšanu, valodas analīzi, valodas iedala, un valodas marķējums. Automatizētā valoda recognition ir turpinās pētījuma tematu in sarunvalodas apstrāde. Atrod kāda valoda vārdi pieder pie var ieslēgt use of a valodas atzīst diagramma.

Izsaukumi sarunvalodas apstrādē

Vārda robežas divdomība 
Dzimts English spīkeri var sākumā uzskatīt tokenization pie būt vienkāršu uzdevumu, bet šis ir ne gadījumu ar projektēšanu a daudzvalodu indeksators. Ciparu formā, citu mēļu teksti kā piemēram Ķīnisks, Japanese vai Arābu iedomājieties lielu izsaukumu, kā vārdtiek ne skaidrs apzīmēti by whitespace. Mērķim laikā tokenization vajag pie identificēt vārdus for kurš lietotāji will meklēt. Language-specific loģika tiek izmantota pie properly identificēt vārdu robežas, kurš ir bieži rationale for projektēšana analizatoru for katra valoda atbalstīts (vai for mēļu grupas ar tamlīdzīgiem boundary marķieriem un sintaksi).
Valodas divdomība 
Pie assist ar properly klasificē atbilstību dokumentus, daudz meklējuma dzinēji vāc papildus informāciju par katru vārdu, kā piemēram viņa valoda vai leksiska kategorija (referāta daļa). Thesmetodes ir language-dependent, kā sintakse varies mēļu starpā. Dokumenti nvienmēr skaidrs identificē dokumenta mēli vai iedomājas it precīzi. Tokenizing dokuments, daži meklējuma dzinēji mēģina pie automātiski identificēt dokumenta mēli.
Daudzveidīgi faila formāti 
Pavēlē pie pareizs identificēt kurš dokumenta baiti iedomājas simbolus, faila formātam vajag būt pareizs handled. Meklējuma dzinējiem, kurš atbalsta multiple faila formātus, vajag būt var pie pareizs open un access dokumentu un būt var pie tokenize dokumenta simboli.
Kļūdaina glabāšana 
Sarunvalodas datu kvalitāte var ne vienmēr būt perfect. Dokumentu unspecified rinda, specifisks on internets, ne tuvu paklausa proper faila protokolu. binary simboli var būt kļūdains kodēts into dokumenta atšķirīgas daļas. Bez these simbolu atzīst un attiecīga apstrāde, index kvalitāte vai indeksatora izpilde varēja degrade.

Tokenization

Atšķirībā no lasītpratējs cilvēciski pieaugušie, datori ne saprot sarunvalodas dokumenta struktūru un var ne automātiski atzīt vārdus un piedāvājumus. Pie datora, dokuments ir tikabaitu secību. Datori ne 'know' ka atstarpe nodala vārdus dokumentā. Tā vietā, humans vajag programmēt datoru pie identificēt kas ieceļ individuālu vai skaidru vārdu, griezās pie kā zīme. Tāda programma tiek kopējs dēvēta a tokenizer vai analizators vai lexer. Daudz meklējuma dzinēji, tāpat kā cita sarunvaloda apstrādā programmas nodrošinājumu, savienojas specializētās programmas for analizēšana, kā piemēram YACC VAI Likums.

Laikā tokenization, analizators identificē simbolu, kurš iedomājas vārdus un citas stihijas, secības, kā piemēram punctuation, kurš iedomājas by skaitliskkodi, kurš dažs ir non-printing kontroles simbolus. Analizators var tāpaiedalīt objekti kā piemēram email adreses, telefona numuri, un URLs. Kad identificē katru zīmi, daži raksturojumi var būt iegaumēts, kā piemēram zīmes's gadījums (augšējs, zemāk, sajauca, proper), valoda vai kodēšana, leksiska kategorija (referāta daļa, līdzīgi 'noun' vai 'verbs'), pozīcija, piedāvājuma numurs, piedāvājuma pozīcija, garums, un līnijas numurs.

Formatējiet analīzi

Ja meklējuma dzinējs atbalsta multiple dokumenta formātidokumentiem vajag būt gatavam for tokenization. Izsaukums ir ka daudz dokumenta formāti satur formatēšanu informāciju bez tam pie textual saturs. Piemēram HTML dokumenti satur html pazīmes, kurš konkretizē formatēšanu informāciju kā piemēram jauni līnijas sākumi bold akcents, un šrifts izmērs vai stils. Ja meklējuma dzinējs vajag pie ignorēt starpību starp saturu un 'paaugstinājumu', ārējai informācijavajag būt iekļautam indeksā, atved pie nabadzīgiem meklējuma rezultātiem. Formāta analīze ir iedala un handling of formatē saturs iebūvēja within dokumenti kurš controls ceļu dokuments tiek izrādīts on computer ekrāns vainterpretēts by programmas nodrošinājuma programma. Formāta analīze ir tāpasaucama structure analīze, formatē analizēšanu, piestiprina demontāžu, formatē demontāžu, text normalizācija, text attīrīšana, un text gatavojas. Formāta analīzes izsaukums tiek bez tam sarežģīts by atšķirīgu faila formātu mudžekļi. Noteikti faila formāti ir privāti ar ļoti mazu informāciju atklāja, kamēr others tiek labi dokumentēti. Kopējs, well-documented fails formatē ka daudzi meklējuma dzinēju atbalsts iekļauj:

  • Microsoft vārds
  • Microsofpārspēj
  • Microsoft Powerpoint
  • IBM Lotoss atzīmē
  • HTML
  • ASCII text faili (text dokuments bez jebkādas formatēšanas)
  • Adobe's portabldokumenta formāts (PDF)
  • Postscript (PS)
  • Latekss
  • The UseNet arhīvs (NNTP) un citi deprecated biļetena valdes formāti
  • XML un atvasinājumi līdzīgi RSS
  • SGML (šis ir kopēja protokola vairāk)
  • Multimēdijs meta dati formatē līdzīgi ID3

Izvēles for kontakts ar atšķirīgiem formātiem iekļauj izmantošanu sabiedrisks pieejamu komerciālu analizē instrumentu, kurš tiek piedāvāts by organizācija, kurš attīstījās, atbalsta, vai ir formāts, un uzraksta klientūru analizators.

Daži meklējuma dzinēji atbalsta failu, kurš tiek iegaumēts in a, inspekciju saspiests vai kodēja faila formātu. Kad strādā ar saspiestu formātu, indeksators pirmoreiz decompresses dokumentu; šis solis var beigties viens vai vairāk failos, kurš katram vajag būt indeksētam atsevišķi. Kopējs atbalstīts saspiestie faila formāti iekļaujiet:

  • BRAKŠĶĒŠANA - brakšķēšanas fails
  • RAR - arhīva fails
  • TAKSIS - Microsoft Windows Cabinet fails
  • Gzip - Gzip fails
  • BZIP - Bzip fails
  • DARVAun TAR.GZ - Unix Gzip'ped arhīvi

Formāta analīze var ieslēgt kvalitatīvas pilnveidošanas metodes piizskraidīt ieslēgšanu 'sliktu informāciju' indeksā. Saturs var manipulēt formatē informāciju pie iekļaut papildus saturu. Abusing piemēri dokumentu formatē for spamdexing:

  • Tai skaitā simtus vai vārdu tūkstošus sekcijā, kurš tiek apslēpts from skatiens on computer ekrāns, bet visible pie indeksatora, by formatēšanas us(piemēram apslēpts "nodalījuma" pazīme in HTMLkurš var apvienot use of CSS vai Javascript pie izdarīt tā).
  • Uzstāda vārdu prioritāra šrifta krāsu pie the tāpat kā otršķirīgā krāsa, izdara vārdus apslēpts on computer ekrāns pie personas aplūko dokumentu, beneapslēpts pie indeksatora.

Section atzīst

Daži meklējuma dzinēji apvieno section atzīst, dokumenta galveno daļu iedala, līdz tokenization. Ne visi dokumenti kodeksā izlasa līdzīgi well-written grāmata, dalīja into organizētas nodaļas un lapaspuses. Daudz dokumenti on the zirnekļtīklskā piemēram newsletters un korporatīvas īsziņas, satur kļūdainu saturu un side-sections kurš ne satur sākotnēju materiālu (ka kurš dokuments ir). Piemēram, šis pants rāda sidēdienkarti ar saiknēm pie citām interneta lapām. Daži faila formāti, līdzīghtml vai PDF, ļauj saturs pie būt rādītam pildnēs. Kaut arī saturs tiek rādīts, vai izrādīts, skatiena atšķirīgos apgabalos, mitrais paaugstinājuma saturs var iegaumēt šo informāciju konsekventi. Vārdi, kurš rodas konsekventi mitrajā source saturā, tiek indeksēti konsekventi, kaut arī these piedāvājumi un paragrāfi tiek izrādīti computer ekrāna atšķirīgās daļās. Ja meklējuma dzinējindex šis saturs it kā it bija normālu saturu, indeksa un meklējuma kvalitātes kvalitāte var būt degraded pateicoties sajauktajam saturam un improper vārda tuvībai. Divas sākotnējas problēmas tiek atzīmētas:

  • Saturs atšķirīgās sekcijās tiek ārstēts kā saistīts indeksā, kad faktiski iir ne
  • Organizatorisks 'side bāra' saturs tiek iekļauts indeksā, bet side bāra saturs ne contribute pie dokumenta nozīmes, un indekss tiek aizpildīts ar viņa dokumentu nabadzīgu priekšstatu.

Section analīze var pieprasīt meklējuma dzinēju pie īstenot katra dokumenta izrāda loģiku, pēc būtības faktiskā dokumenta abstrakts priekšstats, bet pēc tam index priekšstats vietā. Piemēram, dažs saturs on internets tiek izrādīts caur Javascript. Ja meklējuma dzinējs ne izrāda lapaspusi un vērtē Javascript within lapaspuse, it vajag ne 'see' šo saturu tādā pašā veidā un vajag indeksēdokumentu nekorekts. Dots ka daži meklējuma dzinēji ne uztrauc ar pārraidproblēmas, daudz interneta lapas projektētāji izskraida demonstrēšanu saturu caur Javascript vai izmanto the Noscrippazīme pie garantēt ka interneta lapa tiek indeksēta properly. Tai pašā laikā, šis fakts var tāpat būt ekspluatēts pie nokravāt meklējuma dzinēja indeksatoru pie 'see' atšķirīgu saturu nekā viewer.

Meta pazīmes indeksācija

Kā internets auga caur 1990s, daudzi brick-and-mortar korporācijas gāja 'on-lains' un uzstādīja korporatīvu websites. Keywords izmantoja pie aprakstīwebpages (kurš daudzi bija corporate-oriented webpages tamlīdzīgs pie produkta brošūrām) changed from aprakstošais pie marketing-oriented keywords projektēja pie drive pārdošanas by izvietojums webpage ārkārtēji meklējumā beidzas for specifiska meklējuma pieprasījumi. Fakts ka these keywords bija subjectively-specified atveda pie spamdexingkāds ganāmpulks daudz meklējuma dzinējpie pieņemt full-text indeksē tehnoloģijas 1990s. Meklējuma dzinēja projektētājun kompānijas varēja tikai izvietot tā daudzi 'mārketinga keywords' into webpagsaturs pirms draining visas interesēšanas un derīgas informācijas it. Dots ka intereses konflikts ar projektēšanas business mērķi user-oriented websites kurš bija 'lipīgs', klienta lifetime nozīmes pielīdzina bija changed pie apvienoderīgāku saturu into website saglabāšanas cerībās apmeklētāju. Šai jēgā, full-text indeksācija bija vairāk uzdevumu un palielināja meklējuma dzinēja rezultātu kvalitāti, kā it bija vienu vairāk soli tālu no meklējuma dzinēja subjektīvu kontroli beidzas izvietojumu, kurš savukārt furthered full-texindeksē tehnoloģiju pētījumu.

In Galda meklējumsdaudz lēmumi savienojas meta piestiprina pie nodrošināt ceļu for autori pie further noskaņo kā meklējuma dzinējs will indeksēt saturu from atšķirīgi faili ka ir ne acīmredzams from faila saturs. Galda meklējums ir vairāk zem lietotāja kontroles, kamēr internet meklējuma dzinēji, kuram vajag focus vairāk on pilnais text indekss.