Paieškos robotų ir skaitytuvų valdymas: Skirtumas tarp puslapio versijų
(→Pavyzdinis robots.txt failas) |
(→Pavyzdinis robots.txt failas) |
||
55 eilutė: | 55 eilutė: | ||
==== Pavyzdinis robots.txt failas ==== | ==== Pavyzdinis robots.txt failas ==== | ||
− | * Laiko tarpo tarp užklausų prailginimas. Naudinga, kai robotas generuoja daugybę užklausų, kurios įtakoja svetainės greitaveiką. robots.txt galėtų atrodyti taip: | + | * Laiko tarpo tarp užklausų prailginimas. Naudinga tuomet, kai robotas generuoja daugybę užklausų, kurios įtakoja svetainės greitaveiką. robots.txt galėtų atrodyti taip: |
<pre> | <pre> | ||
#padidiname laiko tarpa tarp msn uzklausu | #padidiname laiko tarpa tarp msn uzklausu |
13:58, 14 birželio 2013 versija
Paieškos, indeksavimo robotai (dar žinomi kaip bot, crawler, spider, web wanderer) yra programos, kurios automatiškai naršo interneto svetaines. Paieškos varikliai, pvz. google, šias programas naudoja turinio nuskaitymui, kuris vėliau naudojamas vykdant paiešką ar atliekant kitus veiksmus. Svetainės savininkas gali sukurti failą /robots.txt, kuriame būtų pateiktos instrukcijos (Robots Exclusion Protocol) būtent šiems lankytojams.
Turinys
Kaip veikia robots.txt ir kam jis naudojamas
Failas robots.txt turi būti patalpintas šakniniame svetainės kataloge, kad būtų pasiekiamas adresu DOMENAS/robots.txt (pvz. www.mano-svetaine.lt/robots.txt ) . Jis leidžia reguliuoti arba riboti paieškos robotų užklausas. Robotas, prieš apsilankydamas Jūsų svetainėje, atsisiunčia šį failą ir jei jame aprašytos indeksavimo taisyklės - jų laikosi. Dažniausiai naudojama:
- Norint neleisti indeksuoti svetainės ar jos dalies (visiems arba tik specifiniams robotams);
- Norint sulėtinti svetainės indeksavimą, pvz. sulaukiant labai daug užklausų, kurios pradeda trikdyti svetainės darbą;
- Norint robotui pateikti svetainės žemėlapį (sitemap.xml);
robots.txt failo turinys
Faile dažniausiai naudojamos dvi arba trys instrukcijos, kuriose įrašomas roboto pavadinimas ir jo taisyklės, pvz.:
- Visiems robotams galima pasiekti visas svetainės dalis (taip pat veikia jei robots.txt yra tuščias arba jo visai nėra):
User-agent: * Disallow:
- Visiems robotams draudžiama indeksuoti svetainę:
User-agent: * Disallow: /
- Vienam robotui draudžiama indeksuoti svetainę, visiems kitiems leidžiama. Atkreipkite dėmesį, kad įvedant kelias instrukcijas, jos atskiriamos vienu tarpeliu:
User-agent: robotas Disallow: / User-agent: * Disallow:
- Vieno konkretaus roboto užklausos sulėtinamos iki 1 užklausos kas 10 sekundžių:
User-agent: robotas Crawl-delay: 10
- Visiems robotams draužiama kreiptis tik į du katalogus:
User-agent: * Disallow: /temp/ Disallow: /include/
- Visiems robotams draudžiama kreiptis į vieną failą:
User-agent: * Disallow: /katalogas/failas.htm
Pavyzdinis robots.txt failas
- Laiko tarpo tarp užklausų prailginimas. Naudinga tuomet, kai robotas generuoja daugybę užklausų, kurios įtakoja svetainės greitaveiką. robots.txt galėtų atrodyti taip:
#padidiname laiko tarpa tarp msn uzklausu User-agent: msnbot Crawl-delay: 10 #kiti robotai veikia iprastai User-agent: * Disallow:
Tokių problemų yra kilę su msnbot, yandexBot, baiduspider robotais.
- Blokuoti visus robotus, kad neindeksuotų vienos svetainės dalies:
#blokuojame svetaines dali /forum/ User-agent: * Disallow: /forum/ #visa kita galima indeksuoti normaliai User-agent: * Disallow:
Svarbu: Atkreipkite dėmesį, kad įvedant kelias instrukcijas, jos atskiriamos vienu tarpeliu
Svarbūs pastebėjimai, naudojant robots.txt
- Robotai gali ignoruoti /robots.txt failą. Tai ypač būdinga žalingiems robotams, kurie ieško saugumo spragų, atvirų komentarų laukelių, renka el. pašto adresus.
- Failas robots.txt yra matomas viešai, tad jo nenaudokite siekiant paslėpti kažkokią informacija, t.y. kiti lankytojai matys kokią svetainės dalį bandote paslėpti.
Kita
- Robots.txt galima panaudoti svetainės žemėlapio ar žemėlapių ( sitemap.xml ) pateikimui, naudojant:
Sitemap: http://www.mano-svetaine.lt/sitemap.xml Sitemap: http://www.mano-svetaine.lt/naujienos/archyvas.xml
- Oficialią robots.txt svetainę galite rasti adresu: robotstxt.org.