Site sahibi olmak isteyen kişiler en başında veya bir süre sonra robots.txt dosyasıyla tanışırlar. Bu dosya arama motoru tarayıcılarına alan adının hangi noktalarının taranması gerektiğini bildirmektedir.
Bir
robots.txt dosyasının oluşturulması ve yerleştirilmesi sihirli bir iş değildir. Stratejik bir biçimde oluşturulmuş site yapılandırılmasında bu oldukça kolaydır.
robots.txt dosyası ufak metinlerden oluşan ve sitenin kök dizinine yerleştirilen bir dosyadır. Birçok arama motoru tarayıcısı bu dosyayı standart protokol olarak görmektedirler. Bu nedenle arama motorları bir siteyi dizine eklemeden önce burada yer alan komutları gözden geçirmektedirler. Bu sayede site yönetici bir robots.txt dosyası oluşturarak sitenin hangi alanlarının taranacağını çok daha iyi bir biçimde kontrol edebilmektedirler.
robots.txt dosyasının içerisinde
Google’a ait tarayıcılara çeşitli talimatlar verebilirsiniz. Google’a ait tarayıcılar veya “kullanıcı aracıları” genellikle
Googlobot, Googlebot image, Google Adshot gibi araçlardır. Yahoo Slurp, Bing ise Bingbot kullanmaktadır.
robots.txt Dosyasının Oluşturulması
robots.txt dosyasının içerisinde yer alan ibareler iki bölümden oluşur. Aşağıda yer alan örnekleri gözden geçirerek iki satırın birbirini takip ettiğini görebilirsiniz. Ancak burada çeşitli satırlar oluşturulabilmektedir. Talimat verilmek istenen kullanıcı aracına göre çeşitliğin artış göstermesi söz konusu olacaktır.
Aşağıdaki komut doğrultusunda
Googlebot’a “/cms/” dizininin tarama dışı tutulması gerektiğini bildirebilirsiniz.
PHP- Kodu
User-agent: Googlebot
Disallow: /cms/
Eğer bu talimatın tüm tarayıcılar için geçerli olmasını istiyorsanız aşağıdaki talimatları yazmalısınız.
PHP- Kodu
User-agent: *
Disallow: /cms/
Sitenizin sadece tek bir alanının değil tüm alanlarının dizin dışı kalmasını istiyorsanız aşağıdakileri yazmanız yeterli olacaktır.
PHP- Kodu
User-agent: *
Disallow: /
Sadece tek bir görselin veya alt sayfanın taranmasını engellemek istiyorsanız aşağıdaki şekilde bir talimat girebilirsiniz.
PHP- Kodu
User-agent: Googlebot
Disallow: /examplefile.html
Disallow: /images/exampleimage.jpg
Sitenizde yer alan tüm görsellerin gizli kalmasını istiyorsanız bu durumda dolar işaretini bir yer tutucu olarak kullanıp bir filtre oluşturabilirsiniz. Tarayıcılar bu durumda belirlemiş olduğunuz dosya türlerini taramadan diğer dosyalara geçeceklerdir.
PHP- Kodu
User-agent: *
Disallow: /*.jpg$
Belirli bir dizinin engellenmesini ama bu dizine ait alt dizinin taranmasını istiyorsanız bunu yine talimatlar aracılığıyla arama motorlarına bildirebilirsiniz.
PHP- Kodu
User-agent: *
Disallow: /shop/
Allow: /shop/magazine/
AdWords’e ait tüm görüntülerin organik dizinden çıkarılmasını istiyorsanız aşağıdaki talimatı yazabilirsiniz.
PHP- Kodu
User-agent: Mediapartners-Google
Allow: /
User-agent: *
Disallow: /
robots.txt dosyası içerisinde aynı zamanda site haritasına yer vererek bir site ile tarayıcılar arasındaki bağlantıyı sağlamlaştırmayı başarabilirsiniz.
PHP- Kodu
UserAgent: *
Disallow:
Sitemap: http://[example.com]/sitemap.xml
robots.txt Dosyasını Joker Olarak Kullanmak
Robotlara yönelik olarak bu standart politika aracılığıyla komutlarınızı istediğiniz gibi aktarmayı başarabilirsiniz. Bu komutları aktarırken
* ve
$ en çok işinize yarayacak semboller olacaktır.
Bu sembolleri Disallow direktifi ile birlikte kullanarak bir sitenin tamamını, belirli bir kısmını veya bir dosyayı hariç tutmayı başarabilirsiniz.
* sembolü nerede kullanılırlarsa kullanılsın arama motorlarına ait tarayıcıları tarama işlemi sırasında bu dosyaları es geçerler. Kullanıcı aracına göre değişiklik gösterecek olsa bile tüm tarayıcılar için söz konusu karakter sembolünün anlamı bellidir.
Bir robots.txt dosyasının doğru bir biçimde işleyiş göstermesini sağlamak için çeşitli gerekliliklerin yerine getirilmesi gerekmektedir. Dosyanızı çevrimiçi ortama koymadan önce temel kuralları gözden geçirmelisiniz:
- txt dosyası en üst dizinde yer almalıdır. Örneğin, [Üye Olmadan Linkleri Göremezsiniz. Lütfen Üye Olmak için TIKLAYIN...] adresi için robots.txt dosyası [Üye Olmadan Linkleri Göremezsiniz. Lütfen Üye Olmak için TIKLAYIN...] kısmında olmalıdır.
- Tüm dosyaları kapsayacak şekilde gerçekleştirilecek olan tarama engellemeleri için $ işareti kullanılmalıdır.
- Varsayılan olarak söz konusu dosya “izin ver” talimatını işler. Belirli bir alanları engellemek istiyorsanız bu durumda “izin verme” anlamına gelen “disallow” komutunu kullanmalısınız.
- Bu dosya içerisindeki talimatların hepsi karakter hassasiyetine sahiptir. Bu nedenle talimat yazarken büyük ve küçük harflere dikkat etmelisiniz.
- Çoklu kurallar arasında mutlaka bir boşluk bırakılmalıdır.