Arama motorları nasıl çalışıyor?

Arama motorlarının nasıl çalıştığı ile ilgili bilgisi olan var mı? Herhangi bir altyapı kullanmadan mesela domain ve subdomain listesine nasıl ulaşıyorlar? Web siteleri /sitemap.xml üzerinde link belirtmezse veya /robots.txt üzerinde tüm uzantıları disallow yapılırsa ne oluyor vs.

Belki bir altyapı kullanıyorlardır. :smile: Bu konuda çok bilgisi olan birisi değilim ama tahmin üzerinden gidecek olursak zaten IP adreslerinin sayısı belli ve kime ait olduğu belli. Bunları düzenli tarayabilirsin veya bir alan adı kayıtlanınca otomatik sisteme düşüyor bu liste taranabilir.

Ek olarak birçok arama motoru bildiğim kadarıyla “bağlantılama” olayını takip ediyor. Yani mesela senin websitende btt.community adresi geçtiyse btt.community adresini de taramaya başlıyor ve hatta Google bir adres farklı sitede ne kadar geçerse ona olan değeri yükseltiyor diye biliyorum.

sitemap zorunlu bir şey değil zaten. Olursa arama motorunun işini kolaylaştırmış olur sadece.

Teknik olarak disallow olması durumunda arama motorunun saygı duyup hiçbir şeyi indekslememesi lazım ama yapmayadabilir. Resmi bir arama motoruysa muhtemelen disallow isteğinize saygı duyacaktır.

1 Like

Bende olaya tam hakim değilim ama bilgim dahilinde cevap vermek isterim.
Arama motorlarının genellikle kapalı kaynak olduğu için tam olarak nasıl çalıştıkları çok açıklanmıyor. Ama genel açıklanan hepsinde bir arama botlarının olduğu bu botlar sitelerdeki linkleri takip ediyorlar veya veritabanındaki genel kullanılan isimleri. robots.txt ve sitemap.xml kurallarına uymak onlara kalmış bir şey mesela bazı hack araçları kuralları farklı amaçlar için kullanabiliyor.
mesela yeni bir site kurduğununda botların sizin sitenin yazılı bir yer bulmasını beklemektense arama motoruna kendiniz kayit edebiliyorsunun. Bir süre sonra sizin sitenizde arama motorunda listelenmeye başlıyor.

3 yıldan fazladır arama motoru geliştirme üzerinde çalıştığım için buna cevap verebilirim.

Genelde tek bir siteden başlanıyor. Sonra o sitedeki linklerden diğer sitelere gidiyor crawler(interneti tarayan bot). Böyle böyle tüm interneti geziyor. Tabi tek başına bu sistem her zaman pek yeterli olmayabilir fakat Artado’da sadece böylece binlerce site/web sayfası taradık.Yakında bu sayı yüz binleri aşacak.

Artado’da bunun yanında bir de site başvuru sistemimiz vardı. Kullanıcılar kendi sitelerini veya eklenmesini istediği siteleri ekleyebiliyordu. Bu da crawler için iyi bir kaynak oluyor.

Bu dosyalar genelde hep aynı yerde oluyor. “domain.com/robots.txt” yi kontrol etmek çoğu durumda yeterli oluyor. Eğer bu konumda yoksa ve site nerede olduğunu belirtmemişse robots.txt veya sitemap.xml görmezden geliniyor.

1 Like