Blog Egy érdekes robots.txt hiba, ami nullázta a weboldal organikus forgalmát
robots.txt hiba
Írta:

Egy érdekes robots.txt hiba, ami nullázta a weboldal organikus forgalmát

A blogra írt cikkek hatására egyre többen találnak meg egzotikus és szuper érdekes SEO problémákkal. Néha úgy érzem, hogy akár külön “cutting edge use case” blogot vagy rovatot is indíthatnék. A mai nap futott be pont egy ilyen kérdés is, ami elsőre egyszerűnek tűnt, aztán kiderült, hogy mégsem az.

Alap probléma

A probléma az eudne.com oldalnál jött elő, ami a European Diplomacy & Economics online magazinja.

A sztori egyszerű:

Úgy tűnik, hogy a Google egyáltalán nem indexeli az oldalt!

Ha Search Consoleban megnézted az adatokat, akkor szinte minden üres volt.

A Coverage report gyakorlatilag 0 elemet mutatott.

A kulcsszavak között csak branded keresés jelent meg, semmi más.

És egyedül a főoldalt szolgálta ki a Google, semmi mást. Pedig van fent egy csomó cikk, interjú, szakmai anyag.

Elemzés

Ilyenkor az elemzést két irányba, vagyis két lépcsőben kell elindítani.

Mi a probléma? Crawling vagy indexing problémával állunk szemben?

A Google alap esetben az alábbi lépéssorozaton szokott végigmenni:

  1. Crawling (feltérképezi az oldalt)
  2. Indexing (megnézi hogy indexálható-e a tartalom)
  3. Ranking (különböző ranking signalok alapján eldönti, hogy milyen pozícióban szolgálja ki az adott tartalmat egy keresés során)

A legegyszerűbb a 2-es pontot ellenőrizni. Egy crawlert végigfuttatsz az oldalon, vagy csak manuálisan ellenőrzöd a forráskódot:

Indexálható az adott oldal vagy sem?

Jelen esetben minden oldal “index” meta tag-gel volt ellátva. Tehát a gondot nem a “noindex” okozza.

Mehetünk tovább. A következő tipp az, hogy a robots.txt blokkolja valami miatt a Googlebot crawler-ét.

Itt viszont az történt, hogy nem is volt egyáltalán megadva robots.txt. Tehát elviekben az nem tudta ezt tiltani. Fura.

Részben ezt támasztja alá a Legacy Tool-ok között a Crawl Stats rész is. Szuper keveset járt a domainen a Google, akkor is csak 1-2 oldalt nézett meg.

Ha bármilyen URL-t megnéztél az Inspect URL eszközzel GSC-ben, akkor ezt az üzenetet kapod.

Bocs, a robots.txt tiltja, hogy az oldalt a Googlebot crawlolja!

A crawl és a page fetch is egyszerre hasalt el.

OK, de hát nincs is robots.txt az oldalon? Akkor hogyan tilthatná?! WTF?

Semmi gond. Elkészült egy robots.txt, ami engedi az oldal feltérképezését a Google-nek. Ezt felraktuk az oldalra.

Újabb próba. És megint ugyanaz a hibaüzenet jön. Vagyis fel van töltve egy jó, helyes robots.txt. De mégis az az üzenet jön vissza, hogy a robots.txt tiltja még a robots.txt crawlolását is. Nagyon meta és egyben 22-es csapdája.

Ilyenkor jön jól, hogyha valaki aktívan mozgott a régi Search Console felületen, mert ő még emlékezhet, hogy ott volt robots.txt tester. Csak az új UI-ra (egyelőre) nem hozták át. Tehát az új felületen hiába keresnéd.

Viszont ez az eszköz ma is elérhető, csak egy külön eszközben.

Itt ellenőriztem, hogy milyen robots.txt tartozik az eudne.com oldalhoz és lám-lám.


User-agent: *
Disallow: /

Vagyis minden robot le van tiltva hatóságilag, hogy felfedezze az oldalt. Közte a Googlebot is. Ok, de akkor mégis hogyan, hogyha nem is volt soha feltöltve? Erről egy kicsit később, most nézzük a megoldást.

Először is manuálisan be kell írni a módosított robots.txt-t a fenti editorba, majd az oldal alján van egy Submit gomb, amit ha megnyomsz feljön ez a felület.

Itt első lépésben le kell tölteni az új robots.txt-t, majd feltölteni az újat. Végül rányomsz a Submit gombra, ami a 3. lépés.

Ezt követően, ha frissíted a robots.txt Testert, akkor ezt kapod. 2019. november 12-én este már a friss, jó verzió van fent.

Zseni, vagyis most már jó lesz a robots.txt!

Robots.txt 404

De mégis mi okozta a problémát? Kevesen tudják, de:

Ha a robots.txt esetében 404-re fut a Googlebot, akkor akár az egész oldalt ignorálhatja crawling szempontból.

Nem tudom 100%-ra visszafejteni az okot, de (szinte) biztos vagyok benne, hogy ez történt időrendben:

  • Készült valamikor egy új eudne.com design / verzió / frissítés / bármi
  • A fejlesztői környezetben egy olyan robots.txt volt, ami tiltotta a Googlebot crawlingot
  • Kikerült éles verzióba az oldal, a crawl-t tiltó robots.txt-vel együtt
  • Majd ez a robots.txt törlésre került (manuálisan vagy technikai hiba miatt)
  • Tehát a Googlebot legközelebb a robots txt helyén 404-et talált
  • A robots.txt így már nem létezett, nem tiltott semmit
  • De a korábbi “mentett / beragadt verziója” azt üzente, hogy “hé ne gyere ide többet!”
  • A Google pedig ezt tiszteletben tartotta
  • Ezt követően pedig hiába raksz fel egy új, helyes robots.txt verziót, ha a régi adat alapján még az új robots.txt crawlingja is tiltva van

Ebből következően ezt a problémát két dolog oldhatta volna meg:

  1. Felrakod az új, helyes robots.txt-t, majd imádkozol, hogy a Googlenél valamit megint elrontsanak és végre ignorálja a régi robots.txt 404 miatti problémát. Meglássa, hogy itt van egy új robots.txt és mindenki boldogan él majd tovább.
  2. Vagy biztosra akarsz menni és elvégzed a fenti lépéssorozatot. Így egy pillanat alatt megoldod a problémát.

Sitemap hiba

Emellett a robots.txt hiba miatt nem csak az URL-eket, de magát a sitemapet sem tudta a Googlebot feldolgozni. Ezt a hibát onnan lehet azonosítani, hogy ez a hibaüzenet jelent meg a GSC Sitemap szekciójában:

Couldn’t fetch sitemap

Pedig a sitemap elérhető volt, létezett, csak a robots.txt ennek a felfedezését is blokkolta.

Mi a megoldás? Miután kijavítottam a robots.txt hibát, töröltem a sitemap-et és újra hozzáadtam a GSC-hez. És egyből átváltott a piros “Couldn’t fetch” zöld “Success”-re.

Ezt követően pedig a Discovered URL-ek száma is felment pár percen belül a megfelelő szintre. És helyreállt a világ rendje. Most már látja a Google, hogy ez az oldal létezik. És engedjük is neki, hogy feltérképezze azt.

Tanulság

Ez a weboldal technikailag egy WordPress oldal, fel van rakva rá a Yoast SEO plugin is. És úgy általában is rendben van. De ez még nem garancia arra, hogy SEO oldalon is rendben lesz az oldal. Elég egy láthatatlan technikai beállítás és egy sokak által nem is ismert probléma, hogy az organikus forgalmát nullázza az oldalnak.

Ha bármikor abba futsz bele, hogy egy robots.txt tiltja az oldal feltérképezését (disallow: /), akkor nem az a megoldás, hogy törlöd a robots.txt-t. Mert 404 hiba miatt a fenti probléma jön majd elő. Ilyenkor az a helyes lépés, hogy a robots.txt tartalmát módosítod. Majd megbizonyosodsz róla, hogy az ott leírtakat a Google is pont úgy értelmezi, ahogy Te akarod.

Így sok fejfájástól szabadítod meg majd. Illetve rengeteg organikus forgalomtól szabadítod meg a versenytársakat is, mert végre hozzád fognak befutni SEO-ból az emberek. És nem hozzájuk.


Hozzászólások

Moderáld magad – vagy mi fogunk. :)
Na jó, nem fogunk, szóval csak ésszel!