Verkkosivustojen maailmassa monet elementit vaikuttavat siihen, miten sivusto näkyy ja toimii hakukoneissa. Yksi vähemmän tunnettu, mutta erittäin tärkeä osa tätä palapeliä on pieni, mutta vaikutusvaltainen tiedosto nimeltään robots.txt.
Tämä tiedosto voi olla avainasemassa määriteltäessä, miten hakukoneet indeksoivat ja käsittelevät verkkosivustoa. Se on työkalu, joka voi auttaa verkkosivustojen ylläpitäjiä hallitsemaan sivustonsa näkyvyyttä hakukoneissa, mutta sen merkitys ja käyttö on usein ymmärretty väärin tai jätetty huomiotta.
Mikä robots.txt-tiedosto on?
Robots.txt-tiedosto on yksinkertainen, mutta voimakas työkalu, joka vaikuttaa siihen, miten hakukoneiden robotit, kuten Googlebot, käsittelevät ja indeksoivat verkkosivustoa.
Tämä tiedosto, joka on osa Robots Exclusion Protocol (REP) -standardia, sisältää ohjeita, jotka määrittävät, mitkä sivuston osat ovat hakurobottien käytettävissä ja mitkä eivät.
Sen avulla verkkosivuston ylläpitäjät voivat estää tietyt sivut ja hakemistot hakukoneiden indeksoinnista, mikä on erityisen hyödyllistä, kun halutaan suojata yksityistä sisältöä tai hallita verkkosivuston indeksointia hakukoneissa.
Vaikka robots.txt-tiedosto vaikuttaa tekniseltä ja monimutkaiselta, sen perusrakenne on suhteellisen yksinkertainen.
Tiedosto koostuu ryhmistä, jotka sisältävät useita ohjeita tai direktiivejä, kuten "Disallow" ja "Allow".
Nämä ohjeet on listattu yhdelle riville kerrallaan, ja jokainen ryhmä alkaa "User-agent"-rivillä, joka määrittää, mille hakuroboteille säännöt on tarkoitettu.
Robots.txt-tiedoston käyttö ei ole pakollista, mutta sen tehokas hyödyntäminen voi parantaa sivuston hakukonenäkyvyyttä ja suorituskykyä, samalla kun se auttaa estämään ei-toivotun sisällön indeksoinnin.
Tiedoston oikeaoppinen käyttö edellyttää ymmärrystä sen syntaksista ja toiminnasta. Esimerkiksi, jos robots.txt-tiedostossa ei ole määritelty mitään rajoituksia, oletusarvoisesti kaikki tiedostot ovat sallittuja hakurobottien indeksoida.
Tämä tekee tiedostosta olennaisen työkalun verkkosivustojen hallinnassa, erityisesti SEO:n näkökulmasta. Se ei ainoastaan ohjaa hakurobotteja, vaan tarjoaa myös mahdollisuuden optimoida verkkosivuston indeksointibudjettia (engl. crawl budget), eli sitä, kuinka monta sivua hakukone indeksoi verkkosivustoltasi tiettynä ajanjaksona.
Robots.txt-esimerkkisääntöjä
Esimerkkejä:
User-agent: *
Disallow:
User-agent: *
Allow: /
Nämä esimerkit tarkoittavat, että kaikki (asteriski *) User-agentit ovat tervetulleita, ja kaikki sisältö on indeksoitavissa.
User-agent: *
Disallow: /
Tämä esimerkki kertoo, että kaikki user-agentit ovat sallittuja, mutta niiden ei tule indeksoida mitään sisältöjä.
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Tämän esimerkin mukaisesti kaikki hakurobotit eivät saa indeksoida cgi-bin- ja tmp-hakemistojen sisältöjä.
User-agent: *
Disallow: /hakemisto/tiedosto.html
Tämän esimerkin mukaan kaikki hakurobotit voivat käyttää sivustoa, kunhan ne jättävät tietyn tiedoston indeksoimatta.
User-agent: AhrefsBot
Disallow: /
Tämän esimerkin mukaisesti AhrefsBot-niminen user-agentti ei saa indeksoida mitään sivustolta.
User-agent: AhrefsBot
User-agent: Googlebot
Disallow: /yksityinen/
Tämän esimerkin mukaan user-agenttien Ahfefsbot ja Googlebot ei tule indeksoida yksityinen-hakemistoa.
Robots.txt-tiedoston luominen ja muokkaaminen
Luodaksesi robots.txt-tiedoston, voit käyttää mitä tahansa tekstieditoria, kuten tavallista Notepadia Windowsissa tai TextEditiä Macilla, kunhan varmistat, että se tukee UTF-8 -merkistökoodausta.
Tiedoston luomisen jälkeen se tulee sijoittaa verkkosivuston juurihakemistoon. Useimmat sisällönhallintajärjestelmät (CMS), kuten WordPress, Magento ja Wix, luovat oletusarvoisesti virtuaalisen robots.txt-tiedoston, joka voidaan nähdä liittämällä "/robots.txt" verkkosivuston domain-nimen perään.
Vaikka monet CMS-alustat tarjoavat perusohjeet, on suositeltavaa muokata ja mukauttaa robots.txt-tiedostoa, jotta se vastaa paremmin sivuston erityistarpeita. Tämä voi sisältää esimerkiksi Allow- ja Disallow-määrittelyjä sekä viittaus verkkosivuston sivustokarttaan.
On tärkeää huomata, että tiedoston nimen tulee olla nimenomaan robots.txt (pienillä kirjaimilla), eikä sen koko saa ylittää 500 kilobittiä, jotta hakukoneet osaavat käsitellä sen oikein.
Tiedoston tarkistamiseen voi käyttää esim. Google Search Consolen testaustyökalua.
Usein käytetyt säännöt ja käytännöt
Robots.txt-tiedoston käytössä on joitakin yleisiä sääntöjä ja käytäntöjä, jotka auttavat varmistamaan sen tehokkaan toiminnan.
- Yksi ohje per rivi. Jokaisen direktiivin, kuten "Disallow" tai "Allow" tulee sijaita omalla rivillään.
- Jos samaan osoiteavaruuteen ohjaa sekä "Disallow"- että "Allow"-direktiivi, hakukoneet noudattavat "Allow"-ohjetta.
- Voit käyttää wildcardeja (*) ja dollarimerkkejä ($) tarkentaaksesi osoiteavaruuksia.
- Google ei tue noindex-ohjeita robots.txt-tiedostossa.
- Crawl-delay määrittää, miten usein hakukoneet voivat ladata sivuston resursseja.
- Sivustokartan lisääminen Sitemap-ohjeella tehostaa sivuston indeksointia.
- Tarkista ja testaa robots.txt-tiedostosi säännöllisesi virheiden varalta.
Noudattavatko hakurobotit robots.txt-tiedoston direktiivejä?
Eivät. Ikävä kyllä useimmat verkkosivustollasi vierailevat hakurobotit eivät noudata robots.txt-tiedostossa annettavia ohjeita.
Suuret hakukoneet, kuten Google, Bing ja Yahoo, kyllä kunnioittavat robots.txt-tiedostossa määritteleämäsi sääntöjä, mutta sekään ei tarkoita, etteivätkö nekin seuraisi siinä estetyille sivuille johtavia linkkejä.
Vähemmän tunnetut ja jopa haitalliset hakurobotit eivät välitä tästä tiedostosta ollenkaan.
Miksi sillä on sitten mitään väliä?
Robots.txt hakukoneoptimoinnissa
Robots.txt-tiedostolla on keskeinen osa sivuston hakukoneoptimoinnissa ja hakukonenäkyvyyden parantamisessa, koska se auttaa ohjaamaan hakurobotteja siinä, miten ne käsittelevät ja indeksoivat verkkosivustoasi.
Tässä joitakin syitä, miten ja miksi robots.txt vaikuttaa hakukoneoptimointiin:
- Voit estää hakurobotteja indeksoimasta tiettyjä sivuja tai hakemistoja, jotka eivät ole olennaisia tai joita et halua hakukonetuloksiin.
- Voit optimoida crawl budgettiasi eli sitä, kuinka monta sivua hakukone indeksoi verkkosivustoltasi tietyn ajanjakson aikana. Tämä ohjaa hakurobotteja keskittymään tärkeimpiin sisältöihisi.
- Ehkäise duplicate content -ongelmia, eli sitä että sama sisältö löytyy eri URL-osoitteista. Esimerkki:
- https:// annanmeikit.fi/brand-huulirasva/
- https:// annanmeikit.fi/?page=376
- https:// annanmeikit.fi/uutuudet/?page=376
- Turvaa arkaluontoiset tiedostot estämällä pääsy niihin tiedostoihin ja hakemistoihin, jotka eivät ole tarkoitettu hakutulossivuille.
- Lisää verkkosivustosi sivustokartta robots.txt-tiedostoon varmistaaksesi, että hakukoneet ovat siitä tietoisia ja löytävät sen indeksoidakseen sen tehokkaasti.
Yleisiä ongelmia ja ratkaisuja
Robots.txt-tiedoston käytössä voi ilmetä yleisiä ja harmittomilta tuntuvia virheitä, jotka vaikuttavat koko verkkosivuston hakukonenäkyvyyteen ja toimintaan.
Tarkista ainakin nämä:
- Väärä sijainti. Robots.txt-tiedoston tulee sijaita verkkosivuston juurihakemistossa. Laita osoitepalkiin sinunsivusto.fi/robots.txt, varmistaaksesi, että se on oikeassa paikassa.
- Väärä tiedostomuoto. Virheellinen syntaksi tai tiedostomuoto tekee robots.txt-tiedostosta tehottoman. Varmista, että se on tekstimuodossa ja että jokainen rivi noudattaa vaadittavaa syntaksia.
- Rajoittavat säännöt. Varmista, että robots.txt-säännöt eivät rajoita hakurobotteja liikaa. Käytä tähän Googlen testaustyökalua.
- Duplikaattisisältö. Mikäli määreillä estetään kanonikaalisia sisältöjä ja sallitaan ei-kanonikaalisia sisältöjä, se on hakukoneille iso ongelma.
CASE-esimerkkejä ja analyysiä
Tässä pari esimerkkiä siitä, miten robots.txt-tiedosto on vaikuttanut verkkosivuston hakukonenäkyvyyteen.
Case: Asiakkaan kalenteri-lisäosa
Asiakkaani halusi verkkosivustolleen kalenterilisäosan julkaistakseen liiketoimintaansa liittyviä tapahtumia. Lisäosa toimi käyttäjän näkökulmasta erinomaisesti, mutta samalla se loi sivustolle satoja ns. "thin content" -sivuja.
Thin Content -sivuilla tarkoitetaan sivuja, joilla on hyvin vähän sisältöä tai ei lainkaan arvoa käyttäjille. Nämä ohuen sisällön sivut eivät tarjoa millään tavoin ainutlaatuista, merkittävää tai hyödyllistä sisältöä käyttäjille.
Hakukoneet, kuten Google, näkevät tällaiset sivut ongelmallisena, ja ne voivat vaikuttaa negatiivisesti sivuston yleiseen hakukonenäkyvyyteen ja sijoituksiin.
Vain tämän kalenterilisäosan seurauksena sivuston hakukonesijoitukset sukelsivat, mikä johtui Googlen silmissä ei-hyödyllisen sisällön julkaisusta.
Näitä ohuen sisällön sivuja olivat päivä-, viikko- ja kuukausikohtaiset sivut sekä yksittäisten tapahtumien sivut, jotka sisälsivät korkeintaan otsikon ja yhden lauseen.
Estettyämme näiden ei-toivottujen sisältöjen indeksoimisen robots.txt-tiedostolla, kyseisen sivuston hakukonesijoitukset alkoivat palata pikkuhiljaa ennalleen.
Case: Affiliate-linkit
Eräälle laajalle affiliate-sivustolle oli vuosien saatossa lisätty satoja affiliate-linkkejä. Nämä linkit oli "cloakattu", mikä tarkoittaa, että monimutkaiset affiliate-linkit on muutettu tai "peitetty" lyhyemmäksi ja selkeämmäksi.
Cloakkauksessa esimerkiksi linkistä...
https:// affiliateverkosto.fi/?c=1234&m=5678&a=9101112&r=&u=https:// kaupannimi.fi/tuoteryhma/jalkineet
...tulee lyhyempi ja selkeämpi muodossa:
https:// omatsivut.fi/suosittelee/kaupannimi
Tässä tapauksessa cloakattu affiliate-linkki ei tietenkään tarjoa lisäarvoa käyttäjille, joten olisi ollut alunperinkin järkevää antaa sille robots.txt-tiedostossa "Disallow"-direktiivi.
Kun jo indeksoituja affiliate-linkkejä oli satoja, niiden poistaminen ja korvaaminen uusilla oli varsin aikaavievä projekti.
Yhteenveto
Robots.txt on pieni, mutta vaikutusvaltainen tiedosto verkkosivustosi juuressa, joka määrittelee, miten hakukoneet indeksoivat ja käsittelevät sivustoasi. Optimoinnissa se on oiva työkalu, joka auttaa ylläpitäjiä hallitsemaan sivustonsa näkyvyyttä ja tehoastamaan sen indeksointibudjettia.
Suosittelen tarkistamaan oman sivuston robots.txt-tiedoston ja varmistamaan, että siinä annetut ohjeistukset vastaavat tarkoitustaan. Jos käytät WordPressiä, kannattaa huomioida, että myös jotkin lisäosat voivat muokata robots.txt-tiedostoasi.