Robots.txt, tüm arama motorlarının ortak olarak baktığı herhangi bir websitenin hangi sayfalarının indekslenip, hangi sayfalarının indekslenmeyeceğini söyleyen dosyadır.
Google, Yahoo, Bing vs. neredeyse tüm arama motorları internette yeni açılan siteleri, yeni girilen yazıları, sitelerdeki değişimleri yani internet dünyasındaki tüm değişimleri görebilmek için robot (örümcek) adı verilen bir program kullanırlar ve tüm internet dünyasını bu program sayesinde sürekli tararlar. İşte bu botlar bir siteye girdiklerinde ilk olarak bir robots.txt dosyasının olup olmadığına bakarlar. Eğer bir robots.txt dosyası var ise bu sefer robotlar burada yazılan komutları dinler ve indekslenmesi istenilen sayfalardaki değişiklikleri kontrol eder ve gerekirse yeniler.
Eğer bu robots.txt dosyası dosyalarınız arasında bulunamadıysa robotların her sayfayı indekslemesini bekleyebilirsiniz. Ancak eğer bir komut yazmak istemiyorsanız bile mutlaka boşta olsa bir robots.txt dosyası oluşturup dosyalarınız içine yükleyin. Çünkü botlar sitenize girdiklerinde robots.txt dosyasına gitmek isteyecek ve eğer dosya yoksa karşısına gelecek sayfa “404 sayfa bulunamadı” olacağından dolayı bu işlem bir hata olarak loglarınıza kaydolacaktır.

Robots.txt dosyasını oldukça kolay oluşturabilirsiniz herhangi bir kod bilgisine gerek yok. Sadece istemediğiniz sayfaların indekslenmemesi için bir kaç komut girmelisiniz. Bunları aşağıda basit bir şekilde anlatalım.
Bu dosyada iki komut tipi kullanılır ;
1) User-agent (Bot veya Robot ismi)
2)Disallow (Klasör veya Dosya ismi)
Örnek kullanımlarda:
1)Bütün robotlar tüm dizinlerde indeksleme yapabilir.
User-agent:* Disallow:
2)Robotlar hiçbir dizini indekslemeyecektir.
User-agent: * Disallow: /
3)Robotlar, cgi-bin,images,tmp,admin klasörlerini indekslemeyecek.
User-agent: * Disallow: /cgi-bin/ Disallow: /images/ Disallow: /tmp/ Disallow: /private/
Bu tarz kullanımları görebilirsiniz. İsterseniz sizde özel bot isimleri veya özel dosya isimleri ile kişisel bir robots.txt hazırlayabilirsiniz.
