Blog Miért nincs egyetlen organikus olvasója sem a KPMG blogjának?
kpmg seo esettanulmány
Írta:

Miért nincs egyetlen organikus olvasója sem a KPMG blogjának?

Egy érdekes technikai és biztonsági SEO beállítás és hiba kapcsán több száz weboldalt néztem végig pár hete a hazai interneten. Eközben egy olyan oldalba futottam, ahol nagyon furcsa dolgokat találtam. A furcsa igazából enyhe jelző. Egészen pontosan azért, mert olyat láttam, amit még soha. Egyszerűen nem találtam a hibát. De elsőre még az okára vagy egy logikus magyarázatra sem jöttem rá. Megkérdeztem több hazai és ismert nemzetközi SEO szakértő ismerőst is, de egyelőre nincs meg a biztos válasz. De tippem azért van rá. A cikkben ezt foglaltam össze.

Nemrég egy underground SEO konferencián jártam Angliában, ahol Tom Anthony (VP Product, Distilled) egyik munkatársával beszélgettem. Anthonyról azt érdemes tudni, hogy ő szokta nagyjából a legtöbb és a legjobb hibákat, bugokat találni a Google rendszerében. Itt esett szó arról, hogy 2020-tól bizonyos domainekkel és tárhelyekkel kapcsolatos technikai paramétereket (TLS 1.0, 1.1 stb) már veszélyesként fog a Google Chrome értékelni. Ezért elkezdtem ellenőrizni, hogy melyik nagy hazai cégek webszerverei vannak „veszélyben ilyen téren”.

Ekkor bukkantam rá a KPMG (könyvvizsgáló, tanácsadó cég) egyik weboldalára és a Budapesti Corvinus Egyetemre is, mint veszélyeztetett oldal.

corvinus tls

Kicsit bővebben megnéztem őket és meglepve tapasztaltam, hogy a KPMG blogja 0, azaz nulla becsült organikus forgalommal rendelkezik.

Először az volt a tippem, hogy az oldal biztos elhanyagolt, nincs rajta tartalom. Stb. De nem. Sokan tudják, de még többen nem, hogy én pénzügy-számviteli közgazdászként végeztem a Corvinuson. Szóval képben vagyok azokkal a témákkal, amikről ők írnak. Ezért beleolvastam a cikkekbe. Abszolút szakmai, jó anyagok, a piacon dolgozó szakértőktől ráadásul.

Pusztán tehát a szakmai tartalom nem indokolta, hogy ez a blog nulla organikus forgalmat hozzon. Ahogy kicsit a mélyére ástam a dolgoknak, jöttek is ez első intő jelek.

Jött egy „invalid information” hibaüzentet a főoldalra. Nem szerencsés dolog. Egyszerűen rosszul van konfigurálva az SSL certificate. Vagy simán csak lejárt.

A http://kpmg.hu helyesen átirányít oda ahova kell. A https verzió viszont a fenti hibaüzenetet dobja. Mentem tovább a blogra.

Hisz a blog egy subdomainen van. Arra meg külön SSL certificate kell. Ott be is tölt rendben az oldal (https://blog.kpmg.hu). Utána megnéztem, hogy kb hány Google találatot találat van a blogra: 815 darab.

Ok, fair. Elsőre semmi extra.

Aztán ahogy nézegettem a találatokat az tűnt fel, hogy kizárólag címke (tag) oldalak jelennek meg. Semmi más. Erre itt a konkrét példa:

Egy olyan URL se jön az indexben, amiben nincs benne a „tag”. Ilyenkor jellemzően valamilyen crawling vagy indexing probléma jön elő. Amikor véletlenül (vagy direkt) letiltják az oldalt a crawler elől a robots.txt-ben vagy nonidexre vannak téve az oldalak.

Nah, itt egyik eset sem áll fent.

Robots.txt

A robots.txt tiszta.

Sima WordPress oldalról van szó, semmi extra. A robots.txt rendben van.

Sitemap

Sitemapet nem találtam sehol. Úgy tűnik, hogy nincs az oldalon külön sitemap. Ez alapból nem hiba, bár nyilván nem szerencsés.

Site Crawl

Ezt követően végigmentem az oldalon egy crawlerrel és ellenőriztem a noindex meta taget, az X-Robots-Taget, de minden rendben volt.

Az oldalak 200-as response kódot adnak vissza, és minden elem stimmel, aminek stimmelnie kellene. Semmi nem indokolja elsőre, hogy az oldalakat ki kéne dobni az indexből.

Ekkor ahogy még mélyebbre mentem az tűnt fel, hogy a site crawl nagyon gyorsan eljutott több százezer URL-ig. 3 perc után leállítottam a crawlt. Itt tűnt fel az, hogy az oldalon elképesztően sok címke (tag) oldal van.

Ez elsőre még nem gond. De itt az látszódott a minta crawl során, hogy az oldal 92.5%-a címke oldal.

Bár kicsi volt a minta, de ezen a vonalon mentem tovább. És eljutottam oda, hogy megvan a potenciális probléma egyik oka. De még pár dolgot megnéztem előtte.

301 redirect hack

Először kipróbáltam a 301 redirect hack-et, amiről Oliver Mason írt korábban a saját blogján. Itt egy megfelelően beállított redirecten keresztül meg lehet nézni egy másik URL renderelt verzióját.

Oliverrel is találkoztam 2019. őszén Londonban a korábban említett konferencián. Bár a 301 redirect hack jellemzően működik, de például az X-Google-Crawl-Date-re nem lehet használni, ahogy erről a posztban is írt nemrég. Meg is említette, hogy erről külön egyeztettünk.

Itt viszont működnie kellett volna, mert csak a response kódra és renderelt verzióra volt szükségem.

Viszont nagy meglepetésemre ez a 301 redirect hack itt nem működött. Ugyanis úgy tűnik, hogy a teljes domain le van tiltva az indexing requestekről. Ezt bizonyítja a lenti live test URL error üzenet is.

Ezzel a hibaüzenettel még nem találkoztam soha.

Magában a response kódokban semmit nem találtam. De tényleg semmit. Megkérdeztem más szakértőket, és ők se találtak semmit, ami evidens lenne.

Ezért visszamentem a crawlhoz és tovább futtattam azt. Ha ugyanis a Google valami miatt blokkolja egy URL-hez a crawlingot, annak nagyon konkrét oka kell legyen.

Itt ugyanis nem az van, hogy a Google nem indexeli az oldalt. Hanem konkrétan nem is engedi a Googlebotnak, hogy felmenjen az oldalra. WTF?!

De mivel itt nincs ez külön tiltva, így tovább kellett kutatni.

Archive.org

Az Archive.org szerint így nézett ki az oldal 2018 végén.

Majd így nézett ki már 2019. januárban. Látszik, hogy megújult a design.

És hol esik vissza az oldal forgalma? Igen-igen. Pont a váltást követően. 2019 januárban. Egyrészt bingo, másrészt meg WTF? Hisz az oldal technikailag úgy tűnik rendben van.

Viszont úgy tűnik 2019 januárban mégis elkezdte kikukázni a Google a KPMG blog találatait az organikus találatok közül.

Ennek köszönhetően pedig erre a jó szakmai blogra jelen pillanatban nulla organikus forgalom érkezik.

Még ha magát a blogot keresed, akkor se találsz semmit róluk. Csak címke oldalakat, de szép lassan azok is kezdenek eltűnni. Pár héttel ezelőtt mikor a nyomozást indítottam akkor még 1600 tag paget találtam. Most már csak 800-at. Szép lassan tehát konkrétan nullára fog csökkeni ennek az oldalnak az organikus találatainak a száma is. A forgalom már így is nulla. De innentől kezdve már nem is lesz megtalálható. Hogy miért?

Spider trap

Elképesztően sok időt öltem bele a megoldás megtalálásába, de csak egyetlen tippem maradt. Itt mondjuk elég erős a gyanú, de Google Search Console hozzáférés nélkül nem lehetek 100% biztos.

A forgalomesésért és a Google indexből történő kivágásért a címke oldalak technikai felépítése felel. Ő a bűnös.

Az új oldalon sikerült egy olyan címke felhőt és kezelőt létrehozni, ami végtelen ciklusba fut.

Egyfajta spider trap-et hoztak létre. A spider trap angolul ezzel a karakterisztikával bír a Wikipedia szerint:

A spider trap is set of web pages that may intentionally or unintentionally be used to cause a web crawler or search bot to make an infinite number of requests or cause a poorly constructed crawler to crash.

Vagyis a végtelen ciklusban egyszerűen csak elhasal a crawler, ezért nem nézi meg tovább az oldalt. Az a sejtésem, hogy itt is ez a gond.

Ha kattintgatsz fent a címkékre, akkor folyamatosan újat és újat tudsz hozzáadni. Ezt követően pedig mindig új és új URL generálódik. És itt jön a hiba:

Ezeknek az URL-eknek nincs letiltva sem a crawlingja a robots.txt-ben és nincsenek noindexre sem állítva.

Ennek köszönhetően pedig:

  • A Google végtelen ciklusba fut és folyamatosan pásztázza ezeket az URL-eket (vagyis már nem, mert megbüntették az oldalt)
  • Az indexbe bekerült így több százezer (vagy akár millió) teljesen felesleges, sokszor akár üres tartalom.

Ezért a Google egyszerűen tiltja ennek az oldalnak már a Gooblebot elérését is. Ezért történt meg az, hogy a 301 exploit sem működik rajta.

Tanulság

Az oldal jó. A design letisztult. A szakmai tartalom rendben van. A CMS egy megbízható, jó rendszer (WordPress). A technikai beállítások is javarészt rendben vannak. De elég egy apró dolog, ami technikailag tönkretesz egy teljes weboldalt. Ugyanis mióta átálltak az új oldalra, azóta ennek a blognak konkrétan 0, azaz nulla organikus forgalma van. És nem is lesz addig, amíg ezt nem javítják. Kár érte!

Update #1: Egy új ötlet is felmerült. Az sem kizárt, hogy valami okból kifolyólag a blog subdomainen IP szintű blokkolás van a Google IP cím(ek)re. Kívülről ezt viszont lehetetlen tesztelni, ezért erre mindenképp házon belül kell ránézni. Ezt a gyanút erősítheti, hogy a probléma az új weboldal létrehozása után lépett fel. És jelenleg nem csak a Googlebot, hanem a Structured Data Testing Tool vagy épp a Google Translate is elhasal az oldalon. A SDTT pedig nem a Googlebot User agentet használja, de Google IP-t. Ha a Googlebotot akarjuk tiltani, akkor nem IP alapú blokkolást érdemes használni, hanem user agent alapút. Látszik miért. De úgy tűnik itt valami hosting vagy infrastruktúra váltás történhetett a migrációnál. És ennek köszönhetően mondjuk egy teszt környezet úgy lett élesítve, hogy ezt az IP blocking beállítást nem módosították. De ezt két helyről lehet csak tesztelni: a Google a saját IP címeiről. Vagy a KPMG saját magának házon belül. Ha ez is áll a háttérben a címke oldalak felépítése és a spider trap ennek ellenére továbbra is javításra szorul. (Hozzáadva: 2019. október 15. 14:57)

Update #2: Legújabb ötletem a két elemet kombinálja. Most azt sejtem, hogy ez lehet a fő ok. Ha fent volt egy security plugin (pl WordFence, Sucuri), akkor a spider trap miatt végtelen ciklusba futott a Googlebot crawler. Ezért a security plugin blokkolta az IP címet a túl sok request miatt. Innentől kezdve pedig nem tudta soha többet a Google crawlolni az oldalt. Ezután pedig elkezdte kidobálni az indexből is az elmúlt hónapokban. (Hozzáadva: 2019. október 16. 12:21)

Update #3: A hiba helyreállítása meg is történt. Október 24-én jött egy üzenet a KPMG marketing osztályzától, amit változtatás nélkül olvashattok:

„A blogot üzemeltetve magunk is észleltük a forgalom csökkenését, de ilyen mélységben korábban nem készült feltáró vizsgálat. A poszt megjelenését követően kérésünkre a fejlesztők azonnal átvezették a The Pitch által javasolt módosításokat, majd ezt követően újraindexeltettük a Google Search Console rendszerében. Azóta folyamatosan javulnak az eredményeink, valóban az URL-ben megjelenő sok tag okozta a problémát. Köszönjük a figyelmet és az alaposságot!” (Hozzáadva: 2019. október 24. 16:19)

Megjegyzés: A technikai SEO nem játék. Ha az organikus forgalom fontos számodra, akkor bízz meg egy szakértőt az oldal technikai felépítésével, auditjával vagy épp migrációjával kapcsolatban. Ha erre a feladatra minket szeretnél felkérni, akkor azt ezen az űrlapon tudod megtenni: https://thepitch.hu/uj-projekt-bekuldese/ vagy küldj emailt nekünk.


Hozzászólások

Moderáld magad – vagy mi fogunk. :)
Na jó, nem fogunk, szóval csak ésszel!