Cara Membuat Robots Txt, Robots Meta Tag dan X-Robots

Bahasan robots txt dan juga cara pemandu khusus lainnya adalah mengenai protokol untuk robot penjelajah ketika mendatangi situs web. Mengarahkan ke bagian mana saja dari situs  yang ingin dijelajahi dan tidak ingin dijelajahi.

Sebagai Protokol Pemandu Robot Penjelajah Internet

Pada robots txt kita memberi aturan untuk robot penjelajah. Aturan dalam suatu syntax dengan standar yang benar dan dimengerti oleh si robot.

Tapi tidak cukup dengan sekadar menyalin sedikit kode dan menerapkannya, sekalipun robots txt tampak sederhana dalam pengkodean.

Syntax pada robots txt mesti singkron dengan pemandu robot lain yang diterapkan— tags tajuk robot atau meta tag robot dan X-Robot. Karenanya baik kita jangkau beberapa hal terkait, dan sejalan untuk ini.

Efek yang ditimbulkan dari kesalahan robots txt bisa fatal untuk sebuah situs. Begitu juga kemungkinan konflik dapat terjadi dengan ‘cara pemandu khusus‘ lainnya yang ada di halaman situs.

Sebuah situs dapat menghilang dari pencatatan banyak sistem internet global. Dan ini benar-benar buruk tentunya. Atau juga terjadi pengabaian terhadap robot mitra iklan.

Namun di sisi lain penetapan yang baik pada pemandu robot justru meningkatkan efisiensi perayapan, sehingga semakin mudah sistem si robot menelusuri sebuah situs. Server situs pun terbantu karena sumber daya untuk melayani robot perayap telah terpotong.

Adanya pemandu —yang termasuk juga di dalamnya cara pembatasan untuk robot, merupakan salah satu bentuk kebijakan, bahwa tidak semua data boleh dikumpulkan, baik oleh robot dari suatu perusahaan atau lembaga.

Akan ada banyak robot penjelajah di internet dengan berbagai sebutan: spyderbot, crawler, web wander, spambot, adsbot dan lain-lain.

Umumnya robot-robot perayap dari perusahaan besar akan patuh dengan aturan yang diberlakukan webmaster, namun untuk perayap yang lain mungkin respon mereka akan berbeda.

Akan ada 3 poin utama yang kita ulas:

 

Robots.Txt File

  1. Penjelasan
  2. Fungsi
  3. Robot txt Blogger

Meta Tag Robots

  1. Penjelasan
  2. Fungsi Tajuk Robot
  3. Bentuk Pengkodean
  4. Tajuk Robot Khusus Blogger

X-Robot Http Header

  1. Penjelasan
  2. Cara Penerapan X-Robot

 

membuat robots txt

Robots Txt File

Penjelasan

Robots txt sesuai dengan namanya, adalah sebuah file teks dengan format *txt. File ini berisi notasi panduan untuk dibaca robot penjelajah internet. Seperti GoogleBot, BingBot, AdsBot dan lainnya.

Untuk website pengguna hosting sendiri dapat mengatur langsung file ini dengan file manager di control panel hosting yang dimiliki atau via FTP. Contohnya pengguna WordPress-selfhosted, Joomla, Drupal, Grav dan lain-lain.

Sementara beberapa platform yang bersifat tertutup mungkin tidak memberi akses ke file root folder website atau bahkan tidak dapat mengakses file hosting. Kita ambil contoh Blogger.

Sebagian besar akan memberikan menu khusus di dasboard untuk mengedit file robots.txt.

Ketetapan Pokok

Robot txt adalah file plain text yang harus diletakkan di folder  root/ folder akar sebuah website. Penamaan dan format untuk robot txt adalah baku, yaitu robots.txt. Harus persis sama.

Syarat lainnya adalah karakter encoding hanya menggunakan UTF-8 atau ASCII saja, selain dari itu robot tidak akan mengerti. Hanya boleh ada satu robot txt. Untuk sub-domain dan port khusus menggunakan file robot yang berbeda.

 

Syntax

Bentuk dasar isi file robots.txt seperti berikut:

User-agent: “Nama Agen”

Disallow: /folder/

Allow: /

Sitemap: http://www.situs.web/sitemap_index.xml

Penjelasannya adalah sebagai berikut:

Agen
User-agent: “Kode robot”

Ini adalah cara kita menetapkan agen robot sebelum aturan untuknya dibuat, misal aturan hanya untuk crawler web Google yaitu googlebot.

Maka ditulis dengan

User-agent: googlebot

Untuk agen lainnya bisa lihat di daftar ini:  Daftar User-agent Bot

Kita dapat menetapkan beberapa agen dengan masing-masing aturan yang berbeda. Namun untuk menetapkan aturan pembatasan yang sama untuk semua agen gunakan saja tanda ( * ), tanpa kurung.

Pembatasan
Disallow: /folder/

Ini adalah cara menetapkan perintah jangan crawl, maka robot akan mengabaikannya. Disallow mesti menetapkan folder-nya, disallow dapat dituliskan berulang untuk folder berbeda.

Disallow:/folder1/

Disallow:/folder2/
Mengizinkan
Allow:/

Allow adalah menetapkan mana yang kita ingin di crawl oleh robot, cara penulisannya sama dengan disallow.

penetapan untuk entire site hanya perlu memberi tanda slash.

Jika sebelumnya telah ditetapkan disallow kepada sebuah folder dan kemudian ditetapkan allow untuk level folder di atasnya maka tetapan disallow tetap berlaku.

Sitemap Url

Disini kita menetapkan sitemap sebagai cara memberitahukan mana yang mesti dicrawl secara spesifik dan membuat robot lebih cepat menjangkaunya.

Penulisan sitemap dalam robot. txt dapat beberapa kali berturut-turut

Seperti:

Sitemap: http://www.situs.web/sitemap_pertama.xml

Sitemap: http://www.situs.web/sitemap_kedua.xml

Baik sekali mengisikan url sitemap yang diajukan ke Google Webmaster Tool, akan membantu cepatnya halaman terindex.

Tentang Webmaster Tool silahkan Kunjungi: Panduan Webmaster Tool Untuk Blogger

Balik ke daftar

Fungsi Robots Txt

Fungsi utama robots txt adalah permintaan, atau mungkin juga perintah untuk pengabaian. Bagian tidak penting yang menurut kita memberikan kerugian untuk dijelajahi dapat diabaikan.

Seperti contoh bagian situs yang ingin dillindungi, folder admin dan folder aset situs.

Permintaan pengabaian  hanya berlaku ketika robot mendatangi root sebuah situs dan dalam keadaaan harus mematuhi protokol ini. Sementara bila akses robot tanpa melalui root maka hal ini mungkin tidak berlaku.

Beberapa pelarangan yang kita lakukan untuk robot memang akan dipatuhi sebagian besar robot. Akibatnya terjadi peringkasan kerja, robot-robot yang ditunjuk hanya menjelajah pada bagian penting yang kita inginkan. Peringkasan kerja, efisiensi penjelajahan akan berdampak positif untuk situs.

Dan catatan pentingnya, bahwa ini hanya meminta pengabaian, tidak secara total menghentikan pengindexan.

Dalam keadaan tertentu apabila robot mengikuti suatu tautan yang merujuk ke situs, maka pengumpulan data masih mungkin terjadi. Untuk ini perlu penetapan tingkat laman agar robot tidak melakukan pengumpulan data. Lebih spesifik untuk tingkat laman dijelaskan pada tajuk robot di bawah

Balik ke daftar

Robots.txt Blogger

Untuk Blogger sebenarnya tidak perlu melakukan perubahan lagi, gunakan saja default yang sudah ada. Untuk keperluan khusus saja ini perlu di rubah.

Melakukan edit pada platform Blogger adalah melalui dashboard

1. Menu Setelan

2. Preferensi Penelusuran

3. Perayap dan pengindeksan

4. robots.txt khusus

Bentuk robots.txt blogger idealnya seperti ini.

User-agent: *
Disallow: /search
Allow: /

Sitemap: https://www.mysite.web/atom.xml?redirect=false&start-index=1&max-results=500
Sitemap: https://www.mysite.web/atom.xml?redirect=false&start-index=501&max-results=500

Balik ke daftar

Tajuk Robot

 

Penjelasan

Tajuk robot disebut juga robots meta tag atau meta tag robot, merupakan cara pengaturan page-level indexing. Aturan index tingkat laman.

Aturan ini ditetapkan di masing-masing halaman situs. Penempatan kode ini adalah pada HTML yakni dibagian header.

<!DOCTYPE html>
<html>
 <head>
  <meta name="robots" content="none" />
 </head>

<body>
</body>
</html>

Untuk platform tertentu cara penetapan meta tag robot biasanya dengan menu yang telah tersedia masing-masingnya, hindari penetapan langsung pada theme template jika telah tersedia cara pengaturan di dashboard admin sistem Anda.

Meta tag robot akan dibaca oleh robot jika pada awalannya telah ditetapkan izin pengindexan.

Balik ke daftar

Fungsi

Fungsi dari meta tag robot atau tajuk robot adalah perintah spesifik kepada robot yang melakukan perayapan ke halaman. Dimana secara umum/ normalnya robot akan melakukan aktifitas penjelajahan secara penuh. Dan meta tag robot adalah cara untuk membatasinya.

Hal yang mungkin adalah, ‘perintah jangan index’, ‘jangan ikuti link yang ada di halaman’, ‘jangan arsipkan halaman saya’, ‘jangan lakukan apapun di halaman ini’ dan lain-lain.

Balik ke daftar

 Bentuk Pengkodeannya

 

Bentuk dasar

<meta name="robots" content="noindex" />

Penjelasan tags

Name

Value pada name adalah penetapan robot, yakni robot mana yang dituju untuk membaca perintah ini.

  • <meta name=”googlebot” berarti ditujukan kepada googlebot
  • <meta name=”robots” Berarti ditujukan kepada semua robot

Kemungkinan hanya diperlukan satu kali penetapan dengan name=”robots”, namun untuk membuat aturan khusus untuk masing-masing robot maka perlu dibuat lebih spesifik target robot yang dituju.

Content

Content berisikan aturan untuk dibaca robot

  1. noindex Memerintahkan jangan tampilkan halaman ini di SERP, tapi biarkan tetap dicache, dan tetap ikuti link yang terdapat di dalamnya.
  2. nofollow Memerintahkan jangan ikuti link yang terdapat di halaman ini.
  3. noarchive Memerintahkan jangan cache halaman ini di SERP
  4. nosnippet Memerintahkan jangan gunakan penampil khusus untuk halaman ini di SERP
  5. notranslate Memerintahkan jangan berikan link terjemahan halaman ini di SERP
  6. noimageindex Memerintahkan jangan kumpulkan gambar di halaman ini untuk SERP
  7. none Perintah gabungan untuk menyatakan noindex dan nofollow
  8. all Perintah gabungan untuk menyatakan jangan untuk semua aktifitas robot

 

Penggunaan arahan ganda

Cara penulisan meta tag robot memungkinkan untuk menuliskan arahan ganda, seperti contoh berikut.

<meta name="robots" content="noindex, nofollow">

 

Penggunaan arahan berbeda di masing-masing robot

Kita juga dapat menetapkann arahan yang berbeda untuk masing-masing robot, seperti contoh:

<meta name="robots" content="nofollow">

<meta name="googlebot" content="noindex">

Perintah di atas akan memerintahkan seperti ini: “saya tidak izinkan semua robot mengikuti link yang ada di halaman ini, dan juga saya khususkan googlebot untuk tidak boleh mengindex halaman ini tapi robot lain boleh.”

Catatan: setelah robot txt sebagai cara pemandu robot untuk level atas situs web, maka pada level halaman meta tag robot ini akan memiliki perintah lebih spesifik. Dan perintah pada meta tag (juga semua tingkat laman) berlaku sekalipun robot datang mengikuti link lain dari luar situs.

Sebaiknya melakukan pembatasan lebih spesifik untuk tingkat laman dibanding dengan robot txt, selain itu, gunakan autentikasi yang kuat untuk melindungi keamanan, karena penetapan panduan robot tidaklah jalan mengamankan privasi data di dalam halaman. Tidak semua robot patuh pada panduan robot, khususnya robot yang sengaja dibuat untuk spamming, merusak dan memata-matai.

Balik ke daftar

Tajuk Robot Khusus Blogger

Pada Blogger untuk menetapkan tajuk meta robots bisa dilakukan melalui dashboard => Setelan => Preferensi penelusuran => Tags Tajuk Robot Khusus => Aktifkan

Aturan paling ideal untuk diberlakukan pada blogger hanya satu tanda centang pada radio ceklist noindex untuk ‘Halaman Arsip dan Penelusuran‘, selain itu biarkan tanpa tanda centang. Terkecuali memiliki tujuan khusus yang jelas untuk membuat aturan lain.

Balik ke daftar

X-ROBOT HTTP HEADER

Penjelasan

Ini cara pemandu robot bentuk selanjutnya.

X_Robot akan menjadi elemen pada HTTP header response untuk url secara spesifik. Dia tidak ditentukan beserta dengan keberadaan laman sebagaimana meta-tag robot.

X-Robot dituliskan pada file konfigurasi server yakni .htaccess and httpd.conf.

Sementara cara penulisannya dapat menggunakan perintah yang sama dengan meta tag robot. Fungsi yang dimilikinya memang sama dengan meta tag robot hanya beda cara implementasi.

Keuntungan menggunakan X-Robot adalah penentuannya yang bersifat sekali untuk seluruh situs.

Jika dibanding robots meta tag yang ditentukan pada masing-masing header halaman, tentu terasa sekali kebergunaannya. Ini didukung dengan regex (reguler expresion).

File server konfigurasi .httacces dan httpd.conf memang dapat ditulis dengan penulisan global.

Balik ke daftar

Penerapan X-Robots Header

Seperti contoh berikut untuk yang menjalankan Apache server.

<Files ~ "\.(jpe?g|php)$">

Header set X-Robots-Tag "all"

</Files>

Dikarenakan X-Robot dituliskan dalam file Konfigurasi server maka implementasinya akan berbeda dengan masing-masing teknologi server yang digunakan.

Acuan dasar untuk semua teknologi server dalam penggunaan X-Robot adalah: bentuk respon header yang dihasilkan dari masing-masing konfigurasi bisa terbaca oleh robot yang dituju.

Silahkan merujuk ke masing-masing panduan server untuk lebih detil cara membuat respon server. Atau pilihan lain, gunakan saja meta tag robot.

Balik ke daftar

 ***

 

Sekian dulu ulasan mengenai file robots.txt, robots meta-tag dan X-Robot Http Header. Semoga menjadi tambahan referensi untuk pembaca Memokecil. [mk|End]



BIla catatan merupakan artikel panjang, silahkan menggunakan menu paginasi halaman yang tersedia di bagian bawah kolom text reader ini guna mengakses part selanjutnya





Tinggalkan Balasan

Alamat email Anda tidak akan dipublikasikan. Ruas yang wajib ditandai *