Robots.txt, tüm arama motorlarının ortak olarak baktığı herhangi bir websitenin hangi sayfalarının indekslenip, hangi sayfalarının indekslenmeyeceğini söyleyen dosyadır.

Google, Yahoo, Bing vs. neredeyse tüm arama motorları internette yeni açılan siteleri, yeni girilen yazıları, sitelerdeki değişimleri yani internet dünyasındaki tüm değişimleri görebilmek için robot (örümcek) adı verilen bir program kullanırlar ve tüm internet dünyasını bu program sayesinde sürekli tararlar. İşte bu botlar bir siteye girdiklerinde ilk olarak bir robots.txt dosyasının olup olmadığına bakarlar. Eğer bir robots.txt dosyası var ise bu sefer robotlar burada yazılan komutları dinler ve indekslenmesi istenilen sayfalardaki değişiklikleri kontrol eder ve gerekirse yeniler.

Eğer bu robots.txt dosyası dosyalarınız arasında bulunamadıysa robotların her sayfayı indekslemesini bekleyebilirsiniz. Ancak eğer bir komut yazmak istemiyorsanız bile mutlaka boşta olsa bir robots.txt dosyası oluşturup dosyalarınız içine yükleyin. Çünkü botlar sitenize girdiklerinde robots.txt dosyasına gitmek isteyecek ve eğer dosya yoksa karşısına gelecek sayfa “404 sayfa bulunamadı” olacağından dolayı bu işlem bir hata olarak loglarınıza kaydolacaktır.

Robots.txt NedirPeki nelerin indekslenmemesini isteyebilirsiniz ? Örneğin admin sayfanız veya özel olarak koruduğunuz şifreli giriş alanları, sitenin hiçbir yerinde link vermediğiniz özel video, fotoğraf gibi dosyaları robots.txt dosyası sayesinde robotlarında görmemesini dolayısıyla arama motorları tarafından da indekslenmemesini sağlayabilirsiniz. Aynı zamanda eğer siteniz yapım aşamasında ise veya örneğin bir yedek ile siteye yazı yüklediniz ancak bu yazıları değiştireceksiniz. Bu durumda indeksler alındıktan sonra yazıların silinip tekrar yazılması sizi zor duruma sokacaktır. Bunun yerine robots.txt dosyası ile gerekli komutu verip indekslenmemesini sağlayıp yazılarınızı veya sitenizi yayınlanabilir hale getirdikten sonra bu komutu silip botların sitenizde dolaşmasını sağlayabilirsiniz.

Robots.txt dosyasını oldukça kolay oluşturabilirsiniz herhangi bir kod bilgisine gerek yok. Sadece istemediğiniz sayfaların indekslenmemesi için bir kaç komut girmelisiniz. Bunları aşağıda basit bir şekilde anlatalım.

Bu dosyada iki komut tipi kullanılır ;

1) User-agent (Bot veya Robot ismi)
2)Disallow (Klasör veya Dosya ismi)

Örnek kullanımlarda:

1)Bütün robotlar tüm dizinlerde indeksleme yapabilir.

User-agent:* Disallow:

2)Robotlar hiçbir dizini indekslemeyecektir.

User-agent: * Disallow: /

3)Robotlar, cgi-bin,images,tmp,admin klasörlerini indekslemeyecek.

User-agent: * Disallow: /cgi-bin/ Disallow: /images/ Disallow: /tmp/ Disallow: /private/

Bu tarz kullanımları görebilirsiniz. İsterseniz sizde özel bot isimleri veya özel dosya isimleri ile kişisel bir robots.txt hazırlayabilirsiniz.

 

Yorum Bırakın