Robots.txt Dosyası ne işe yarıyor?

Bir web siteniz olduğunu varsayalım. Eğer web sitenizin bazı kısımlarının google tarafından taranmasını istemiyorsanız, robots.txt dosyası ile bunu yapabilirsiniz. Robots.txt dosyası, arama motorlarına sitenizin bölümlerine erişip erişemeyecekleri konusunda bilgiler içermektedir. Bildiğiniz gibi, googlebot tarafından web siteniz tarandığında, eğer varsa site haritasınız da linkleri takip ederek, yada ana sayfada ve buna bağlı linkleri takip ederek, googlebot web sitenizi tarar, böyle durumlarda, örneğin sitenize ait yönetim panelinin olduğu bölümün taranmasını isteyebilirsiniz.

Yapmanız gereken çok basit, Notepad benzeri bir editörle bir dosya oluşturun, dosyanızın ismi robots uzantısı .txt olacak şekilde, robots.txt adında bir dosya oluşturmalısınız. Oluşturduğunuz bu dosyayı sitenizin root kısmına yani kök kısmına yüklemelisiniz. Cpanel benzeri bir kontrol paneli veya FTP programları ile sitenize bağlandığınız zaman, sitenizin kök kısmı, public html yada www olarak  adlandırılan dizindir, dosyayı buraya kopyalamalısınız. Aynı şekilde Google Search Console aracılığıyla, bir robots.txt dosyası da oluşturabilirsiniz. Siteniz alt alan adı kullanıyorsa ve belirli bir alan adındaki sayfaların, google tarafından taranmasını istemiyorsanız, yani arama neticelerinde yer almasını istemiyorsanız, bunu robots.txt dosyasında belirtebilirsiniz. Robots.txt ile ilgili sınırlamaları anlamak için, google tarafından hazırlanan dökümantasyonu da okuyabilirsiniz.

Kaçınılması Gerekenler

  • Google’ın dahili arama sonucu sayfalarınızı taramasına izin vermemelisiniz. Kullanıcılar, bir arama motoru sonucunu tıklayıp sitenizde bir başka arama sonucu sayfasına ulaşmaktan hoşlanmayacaktır.
  • Taranacak proxy hizmetlerinin sonucu olarak URL’lerin oluşturulmasına izin vermemelisiniz.

Hassas Bilgiler için daha güvenli yöntemler kullanmalısınız

Robots.txt hassas bilgilerin engellenmesi için etkili ve uygun bir yöntem değildir. Robots.txt dosyası yalnızca iyi huylu tarayıcılara sayfaların onlar için uygun olmadığını bildirmektedir. Ancak sunucunuzun, istekte bulunan bir tarayıcıya bu sayfaları sunmasını engellemez. Bunun nedeni, eğer bu sayfalara internette verilen bir link var ise, sadece bu linke tıklayarak ilgili sayfaya ulaşabilmeleridir. Ayrıca uyumlu olmayan, robot hariç tutma standartlarını onaylamayan, hileli arama motorları, robots.txt dosyanızdaki talimalatlara uymayabilir. Ayrıca meraklı bir kullanıcı, robots.txt dosyanızdaki dizinleri ve alt dizinleri inceleyebilir, görünmesini istemediğiniz URL’leri tahmin edebilir.

Eğer bağlantıya sahip kullanıcıların sayfaya ulaşabilmesi sizi rahatsız etmiyorsa, böyle durumlarda, yani sadece google’da görünmesini istemiyorsanız, noindex etiketini kullanabilirsiniz. Eğer gerçek güvenli önlemleri almak istiyorsanız, kullanıcı şifresi gerektiren sayfalar oluşturmanız daha doğru olacaktır ve ilgili sayfayı veya dizini tamamen sunucudan kaldırmanız etkili bir yöntem olacaktır.

Googlebot tarafından siteniz tarandığında, google sayfayı ortalama bir kullanıcı ile aynı şekilde görebilmelidir. Bu nedenle, google’un sitenizde kullanılan Javascript dosyalarına, css dosyalarına, resimlere ulaşmalarına izin vermelisiniz. Eğer sitenizin düzgün çalışması için gerekli dosyaları engellerseniz, bu sitenizin google tarafından taranmasını da aynı şekilde olumsuz etkileyecektir.

Google URL Denetleme Aracı ile, web sitenizi googlebot’un gördüğü ve oluşturduğu şekilde görebilir, sitenizdeki dizine ekleme sorunlarını görüp düzeltebilirsiniz. Eğer teknik konularda çok fazla bir bilginiz veya deneyiminiz yok ise, web tasarım firmanızdan veya seo firmanızdan destek almanız mümkündür.