Blog AI SEO: mégis mi hajta technikailag ezt az egész rendszert?
AI SEO technikai elemzés
Írta:

AI SEO: mégis mi hajta technikailag ezt az egész rendszert?

Ez egy erősen technikai hátterű cikk, de igyekeztem minden részt kellően érthetően megfogalmazni. Az érthetőség hátránya, hogy néhány részlet emiatt azért elveszhetett út közben. Ha úgy érzed valami nem kerek, vagy szeretnél te is a mélyére ásni a dolgoknak, forrásokat és kutatásokat kérni, akkor írj direktben.

Van egy nagyon híres Einstein idézet:

„Ne aggódj, ha nehézségeid akadtak a matematikával! Biztosíthatlak, hogy az én nehézségeim még a tieidnél is nagyobbak.”

Iskolás koromban nagyon szerettem a matekot. Mikor először hallottam ezt az idézetet, akkor arra gondoltam, hogy bár Einstein nagy koponya, de azért beképzelt is. Aztán ahogy telt az idő, szép lassan rájöttem, hogy „oké, tényleg igaza volt”. Egy szint után a matek tényleg magas volt nekem.

Joggal merülhet fel a kérdés, hogy mégis hogy jön ez az egész az AI SEO-hoz? Nos, úgy, hogy amikor elkezdtem 2025-ben nagyon aktívan és NAGYON mélyen beleásni magamat az AI Search területébe, akkor folyton azt éreztem, hogy minden nap tanulok valami újat. De közben minden nap falakba is ütköztem. Miért úgy működik minden ahogy? Miért nem azt csinálj az AI, amit „én szeretnék tőle”? Miért nem az az első, aki korábban ott volt? Aztán mindig önerőből kellett kitalálni merre van az előre és merre van a tovább.

Aztán egyik nap a témában jártas külföldi szakértővel beszélgettem, és világossá vált, hogy bár a témában elvileg elismert emberről van szó, sok területen egyébként ő is teljesen fogalmatlan. Ő sem érti (még) hogy működik ez az egész. És akkor előjött a fenti Einstein idézet. Mert annyi kutatási területe van az AI Searchnek, hogy akár egy területtel is éveket lehetne eltölteni, nemhogy az egésszel. De erre a cikkben még ki fogok térni részletesen.

Szóval az üzenet a cikk elején az, hogy:

„Ne aggódj, ha nehézségeid akadtak az AI Search megértésével! Biztosíthatlak, hogy az én nehézségeim még a tieidnél is nagyobbak.”

De kezdjük is az elején. És ezzel elég sokan vannak még így a szakmában.

Mit kell tudni az AI Searchről 2025-ben?

Magát az AI keresést 2 nagy családra lehet osztani jelenleg:

  1. az a keresés ami egy LLM felületén történik, és a válaszadás ott is történik meg (legyen egy ChatGPT, Gemini, Copilot vagy épp Perplexity)
  2. az a keresés, ami a Google felületén történik és az AI Overview vagy akár az AI Mode ad választ a kérdésre

Ezek bár nagyon hasonlóak a gyakorlatban, de jelentős különbségek is akadnak közöttük. De egyelőre tekintsük ezeket kvázi egy egységnek, mintha ugyanarról lenne szó.

Amikor egy felhasználó elvégez egy keresést a ChatGPT vagy Google felületén, akkor a keresés kapcsán két nagy lehetősége van a modellnek:

  1. a saját tudásbázisa (és/vagy indexe) alapján tudja a választ, és ezt meg is adja (ún. naked modell)
  2. a modell nem tudja pontosan a választ / bizonytalan benne, ezért életbe lép a QDG esete

Itt megjelenik az első kutatási terület: mi indukálja a QDG-ot?

Rögtön jön a második terület: lehet vizsgálni magukat a naked modelleket, amelyek nem férnek hozzá az internethez. Ott milyen primary bias jelenik meg és miért?

Ami lényeges, hogyha az OpenAI ‘external_web_access’ endpointot (set to False*) eléri a modell, akkor benne van az adott információ indexben.

De ne akadjunk le, menjünk tovább a QDG vonalon.

QDG

A QDG, vagyis Query Deserves Grounding azt jelenti, hogy az adott kérdés megválaszolásához külső segítségre van szükség. Ez lesz a grounding folyamata. Itt például jelentős eltérés van a ChatGPT és pl egy Google között, mert a Google sokkal nagyobb arányban (Overview és AI Mode esetében 100%-ban) használ groundingot, mint a ChatGPT (ahol az arány 20-70% között szóródik, ami query-dependent). Míg a Google cachelt Google-groundinggal dolgozik, addig a ChatGPT hibrid megoldást alkalmaz (azaz használ live Google keresést és saját cachet is épít), de a történet szempontjából nem is ez az izgalmas kérdés.

Hanem az, hogy mi dönti el, hogy valamikor szükség van QDG-re vagy sem?

Amit jó látni és tudni már előre:

A modellek fejlesztése annyira idő- és költségigényes, hogy MINDIG szükség lesz a groundingra.

Nem minden keresés esetén persze. De a külső forráshoz történő kinyúlás MEGKERÜLHETETLEN. Vegyünk egy egyszerű példát: valós idejű árfolyam adatra van szükséged! Vagy épp aznapi hírekre. Vagy akár csak 1-2 napos információra, de lehet az 1-2 hete megjelent tech gadget is. Nem lehet egy-egy modellt naponta frissíteni és frissen tartani naked modellként. Ezért mindig lesz grounding az AI Search esetében. Csak az arány, és az alkalmazott módszer a kérdés.

QFO

Ha már módszer, itt jelenik a QFO, vagyis a query fan-out.

Jelenleg ezzel a technikával végzi el a keresést a legtöbb LLM. Az alap keresést / kifejezést több hasonló keresésre teríti szét, és azokat szintetizálva válaszolja meg az eredeti kérdést. Erről a témáról itt írtam nyáron részletesen.

Nagyon röviden összefoglalva:

  • ha te azt írod be a ChatGPT-ben, hogy „legjobb fogászat Budaörsön”
  • akkor a rendszer ehhez hasonló query-ket gyárt le.
  • legutóbb mikor rákerestem, akkor ezeket hozta létre:
    • Budaörs fogászat rendelő értékelés
    • fogorvos Budaörs Google értékelés implantológia
    • Budaörs fogászati rendelő cím telefon
    • Budaörs dental clinic „Budaörs” reviews
  • majd végignézi a találatokat (ez lehet belső cache tartalmak közötti vagy live Google keresés)
  • elolvassa a tartalmakat, kiszedi a lényeget
  • majd szintetizál
  • és megadja a választ az eredeti kérdésre

Jönnek a kérdések és potenciális kutatási területek:

Miért ezek a query fan-outok? Mi alapján generálja le pont ezeket? Ez simán lehet a harmadik kutatási terület.

Oké, ezeket legenerálta és rákeres mondjuk 4*10 cikkre. Hogyan dönti el, hogy a 40 cikkből melyik tartalmat használja fel a válaszhoz? Ez meg a negyedik kutatási terület.

A nyár és ősz folyamán egyékbént építettünk saját QFO szimulációs modult, ami szenzációsan működik magyar nyelven is. Ezt az őszi, novemberi SEO meetupon be is mutattunk. Itt van néhány slide a preziből:

És közben a QFO-kat is elkezdtük klasszifikálni. (Ez a menő szó a „csoportosításra”.)

Mert ugyebár nem minden query fan-out egyenlő. Ezt jól bemutatja a lenti táblázat is.

QFO klasszifikáció

Selection Rate

De jön még egy érdekesség (legalábbis szerintem az).

A gyakorlatban a fenti példában egyébként nem is 4*10, azaz 40 cikket nézett meg a rendszer. Hanem a logokból pontosan látni, hogy:

  • Unique domains: 52
  • Unique URLs: 105
  • Av. URLs/Search fan-outs: 7.0 volt a háttérben.

Vagyis 52 egyedi domaint vizsgált meg. És ezeken 105 egyedi URL-t nézett végig. Valamit extra infoként azt is látni, hogy a végső válaszhoz hány domainről használt fel tartalmat? 7 domainről. Hétről. Nem 52-ről…

summary by type

És mi lett a másik 52-7=45 domainnel? Azokat elolvasta, de miért nem használta fel őket a válaszadás során?

Itt jelenik meg a modellek estében a (naked modell) Primary Bias mellett a Selection Rate, a Model Interpretability vagy épp a Model Steering fogalma. Ha jobban belegondolsz, akkor lehet, hogy a Selection Rate lehet akár az új CTR, amit „optimalizálni kell megtanulni”. Click-Through Rate helyett jöhet a Selection Rate Optimization.

rrf selection rate
Forrás: Jérôme Salomon

Az SR, vagyis Selection rate azt mutatja meg, hogy a QDG esetén az RRF alapján melyik tartalmakat választja ki a ChatGPT és melyiket nem. Amit kiválaszt, azt bekerül a citation-ök közé. A többi nem.

Azt ugyanis ma már tudjuk (ha nem is mindenki), hogy a ChatGPT Reciprocal Rank Fusion (RRF)-t használ a források során a találatok rangsorolásához. Erről itt tudsz bővebben olvasni angolul.

Ok, de mi az az RRF?

RRF

A Reciprocal Rank Fusion (RRF) a források súlyozására használt módszer(tan).

RRF számítás
Forrás: Metehan.ai

Ez matematikailag alapból nem bonyolult, de a mögöttes logika fontos.

RRF score = 1/(60 + rank position)

RRF rank

Hogy néz ki ez a gyakorlatban? Maradjunk az eredeti példánál.

Rákerestünk arra, hogy „legjobb fogászat Budaörsön”. Ebből létrejött 4 query fan-out, ezt fent megnéztük. Utána a rendszer rákeres ezekre, megnézi a forrásokat és rangsorolja őket.

A fenti konkrét esetben ezek a query fan-out-ok és a hozzá tartozó RRF-ek.

Te weboldalad

  • “Budaörs fogászat rendelő értékelés” → Rank #1 → Score: 0.0164
  • “fogorvos Budaörs Google értékelés implantológia” → Rank #15 → Score: 0.0133
  • “Budaörs fogászati rendelő cím telefon” → Not ranking → Score: 0
  • “Budaörs dental clinic „Budaörs” reviews” → Rank #25 → Score: 0.0118
  • Total RRF Score: 0.0415

Versenytárs oldala

  • “Budaörs fogászat rendelő értékelés” → Rank #4 → Score: 0.0156
  • “fogorvos Budaörs Google értékelés implantológia” → Rank #5 → Score: 0.0154
  • “Budaörs fogászati rendelő cím telefon” → Rank #6 → Score: 0.0152
  • “Budaörs dental clinic „Budaörs” reviews” → Rank #4 → Score: 0.0156
  • Total RRF Score: 0.0618

Itt az RRF értékeket szummázni kell minden domain esetében.

Vagyis a fenti példában RRF alapján a versenytársnak 1.5x esélye van, hogy őt ajánlja az LLM és nem téged. (0.0618/0.0415 = 1.5)

Te pedig ott állsz, hogy:

  • de a „Budaörs fogászat rendelő értékelés” kifejezésre meg a „legjobb fogászat Budaörsön” kifejezésre is jobb vagy a versenytársnál simán a Googleben? Az AI miért nem téged ajánl? Hát részben a Reciprocal Rank Fusion miatt.

Megérkeztünk számszerűleg legalább az 5. kutatási területhez a témában.

És itt jön el az AI SEO egyik legkegyetlenebb mondása és üzenete.

Lehetsz te az első egy Google keresés során. De közben simán lehetsz szinte teljesen láthatatlan az AI kereséseknél.

A legtöbb internetes forrásban, közösségi médiában azt olvasom, hogy „legyen több webes említésed” és akkor az AI SEO-ban is jobb leszel. Meg írj „AI barát szöveget”. Nos, az állítás alap tartalmával egyetértek, de mint „követendő playbook”, azért elég gyérnek tartom. Ennyi erővel azt is mondhatnám, hogy „legyél egyszerűen jobb mint a többiek, erről beszéljenek mások is a neten, és akkor az AI is előrébb fog sorolni”. Mennyire vagy kisegítve ezzel? Szerintem nagyjából semennyire.

A fenti folyamat egyébként azt is bizonyítja, hogy nem elég csak a query fan-outokra és a hivatkozott forrásokra koncentrálni. Ha elemezni szeretnéd, hogy miért használták fel vagy hagyták figyelmen kívül a tartalmadat, akkor mindkettőt meg kell vizsgálnod:

  • A hivatkozásokhoz kiválasztott forrásokat ÉS
  • A többi figyelmen kívül hagyott forrást is.

Chunks

Várj, és van még. Azt tudtad, hogy a modellek a forrásoknak NEM A TELJES TARTALMÁT használják fel? Hanem csak ún chunk-okat, tehát kicsi részeket?

Egy konkrét keresés esetében például az egyik weboldalról KIZÁRÓLAG ezt a szövegrészt használta fel.

{
  "groundingSupports": [
    {
      "segment": {
        "startIndex": 789,
        "endIndex": 991,
        "text": "A klinika csendes, zöldövezetben található a budai hegyekben, négy modern kezelővel, saját röntgen- és CT-létesítménnyel, valamint nyolc modern magánapartmannal a páciensek kényelméért."
      },
      "groundingChunkIndices": [
        0
      ]
    }
  ]
}
 

Tehát nem az egész cikket, hanem csak egy részét! Ráadásul extrém kis szeletét. Ez konkrétan 1 mondat egy kb 2 oldalnyi szöveges tartalomból.

Jön a kérdés:

  • elkezded tolni ezerrel a megjelenéseket és említéseket (ahogy azt az AI SEO guruk tanácsolják Linkedinen)
  • és mi garantálja, hogy a Chunkok közé az tényleg be is fog kerülni? Hogy azt a részt választja ki, ami neked fontos? Te tudod a választ? Szerintem nem. (Tudod mi a baj? Hogy a guruk sem…)

Ezzel meg is érkeztünk legalább a 6. kutatási területhez, a grounding snippetekhez / grounding chunkokhoz.

És itt még korántsincs vége. Van még legalább 8-10 terület, amit meg lehet piszkálni ebben az egész AI Search univerzumban. Csak néhány példa:

  • Ugyanúgy működik a ChatGPT és a Google AI Search algoritmusa? És miért nem?
  • Mit kell tenni most akkor a gyakorlatban, hogy jobban szeressen minket az AI?
  • Van-e értelme egyáltalán trackelni kifejezéseket, hogy hányadik helyen vagyunk az AI szerint egy-egy témára?
  • Hogyan lehet mérni az AI forgalmat?
  • Miért hibás gyakorlatilag minden ilyen AI visibility tracking megoldás jelenleg a piacon?
  • Miért lenne érdemes inkább entitásokat vizsgálni és nem konkrét kifejezéseket?
  • Hogyan kell rámenni a webes említésekre, hogy annak valóban értelme is legyen?
  • Miért hibás az AI Search korábban a korábbi funnel alapú SEO elmélet? Hogyan kell ezt az egészet átalakítani?
  • Létezik olyan „új” SEO stratégia, ami egyszerre szolgálja ki a hagyományos SEO-t és az AI SEO-t?
  • Hogyan kell 2026-ban ezt az egész AI Search dolgot majd jól csinálni?

Én ezekkel a területekkel mind foglalkoztam az elmúlt 12 hónapban és ha nem is Einstein szintű, de szerintem elég korrekt válaszaim is vannak a felmerült kérdésekre. Mindenhol saját kutatással és valós adatokkal alátámasztva.

Téged is érdekelnek a válaszok a fenti kérdésekre? Szeretnéd tudni, hogy néz ki 2026-ban a SEO? Akár hagyományosan, akár AI alapon?

Akkor gyere el a 2026. január 8-án a webinárunkra, ahol ezekre a kérdésekre is választ kaphatsz.

Regisztráció:


Hozzászólások

Moderáld magad – vagy mi fogunk. :)
Na jó, nem fogunk, szóval csak ésszel!

The Pitch
Adatvédelmi áttekintés

Ez a weboldal sütiket használ, hogy a lehető legjobb felhasználói élményt nyújthassuk. A cookie-k információit tárolja a böngészőjében, és olyan funkciókat lát el, mint a felismerés, amikor visszatér a weboldalunkra, és segítjük a csapatunkat abban, hogy megértsék, hogy a weboldal mely részei érdekesek és hasznosak.