Apa sih Robot txt

Star Tonn | 9:42 PM | 0 komentar



Penjelasan lengkap tentang Robot txt - Untuk kamu yang masih pemula pasti bingung ya Apa itu robot txt ? melalui artikel yang sederhana ini saya akan membahas pengaturan robot txt terutama untuk kamu yang masih awam dalam dunia perblogeran. 

Apa sih Robot txt


Sebagai seorang blogger kamu harus tahu apa itu fungsi dari robot txt ini karena karena kalau kamu tidak paham dalam fungsi dan penggunaanya blog kamu tidak akan muncul atau terindexs google jika salah dalam penggunaanya.

Oke langsung aja kali yah daripada kebanyakan pembukaanya nanti keburu pegel ngetiknya. Sebagai seorang blogger mungkin kamu sudah pernah mendengar tentang kata “robots.txt”. Dan saya yakin, saat pertama kalinya kamu mendengar tentang robot txt ini pasti kamu bingung, Iya kan ? Begitu juga dengan saya pada saat pertama kali mendengarnya ya sama bingung juga apa itu robot txt dan untuk apa sih fungsinya.

Namun Alhamdulilah saat ini insyaallah saya sedikit banyak sudah mulai paham apa itu robots.txt dan bagaimana cara kerjanya. Oleh karena itu, lewat artikel ini saya akan berbagi ilmu yang saya tahu mengenai robots.txt. semoga berguna untuk kalian yang masih pemula dalam menggeluti dunia blogger.

Apa sih Robots.txt ?


Robots.txt itu adalah sebuah file yang berformat text (.txt) yang harus dimiliki oleh setiap situs diinternet yang didaftarkan pada mesin pencari seperti Google, yahoo, bing, baidu dll. Jadi robots.txt itu sangat erat sekali  hubungannya dengan SEO.  Robot.txt  berfungsi untuk mengontrol dan mengatur halaman atau direktori file  mana yang boleh ditampilkan/diindex mesin pencari atau tidak.

Bagaimana Cara Kerja robot txt ?


Cara kerja robot txt adalah Ketika situs kamu sudah  berdomain contohnya www.namadomain.com dan didaftarkan pada mesin pencari seperti www.google.com, maka secara otomatis kamu memperbolehkan atau menyuruh robot perayap mesin pencari tersebut untuk mengunjungi dan merayapi situs www.namadomain.com.

 Lalu, Pada saat robot perayap (bot crawler) mesin pencari itu mengunjungi situs kamu, file yang pertama kali mereka rayapi adalah robots.txt yang sudah ada dalam website tersebut. Jadi, file robots.txt harus diletakkan pada direktori utama atau di folder public_html. 

File robots.txt itu berisi perintah-perintah pada bot crawler mengenai halaman mana saja yang boleh diindex atau tidak boleh di index atau ditampilkan di dalam mesin pencari. Hal ini tentu saja untuk melindungi halaman sistem anda untuk diketahui oleh orang-orang. Misalnya halaman Administrator website yang merupakan halaman yang pantang untuk diketahui oleh umum atau diindeks oleh mesin pencari. 

Disitulah robots.txt melakukan tugasnya. Sama halnya dengan website, Blog juga memiliki file robots.txt. Hanya saja, robots.txt di blog biasanya telah ditetapkan sebagai standar oleh penyedia layanan blognya. Untuk blog blogspot, default robots.txt diatur seperti ini:

User-agent: Mediapartners-Google
disallow:
User-agent: *
disallow: /search
allow: /
sitemap: http://blogURL/feed/posts/default?orderby=UPDATED

Arti dari kode di atas adalah :

1. “User-agent: Mediapartners-Google” : itu berarti bahwa kode yang ditempatkan di bawahnya hanya berlaku untuk Bot Crawler/robot perayap Mediapartners-Google. Mediapartners-Google adalah bot crawler untuk google adsense.
2. “Disallow: ” : Ini berarti bahwa tidak ada batasan halaman merangkak oleh crawler. Dengan kata lain, memungkinkan crawler merangkak semua halaman di situs.
3. “User-agent: *”: ini berarti bahwa kode/perintah yang ditempatkan di bawahnya berlaku padasemua robot crawler (diwakili dengan kode ‘*’).
4. “disallow: /search” : melarang crawler untuk menjelajah url yang memiliki awalan urlbloganda.com/search.
5. “allow: /”: Membiarkan crawler merayapi semua halaman kecuali yang dicantumkan pada perintah disallow.
6. “Sitemap: ” : Ini adalah sitemap dari situs Anda yang diberitahukan kepada crawler agar mudah ketika menjelajahinya lagi. Sitemap berisi semua link yang ada disitus untuk dirayapi crawler.

Kesimpulan :

– File robots.txt memperbolehkan crawler google adsense (User-agent:Mediapartner-Google) untuk menjelajah semua halaman situs anda
– Mengijinkan semua crawler dari mesin pencari manapun (User-agent:*) merangkak semua halaman blog Anda kecuali halaman dengan url yang memiliki awalan urlblog.com/search. Karena halaman dengan url awalan itu merupakan halaman-halaman arsip dan label.

Cara Mengatur Robots.txt


Kalau kamu ingin memodifikasi atau mengatur robots.txt kamu, terlebih dahulu kamu harus berhati-hati dan paham betul karena kesalahan pengaturan bisa membuat website kamu tidak diindex search engine. Oleh karena itu, sekarang saya akan menjelaskan bagaimana mengatur robots.txt dengan benar.

a. Memblokir url

Tidak hanya kode yang saya jelaskan di atas yang dapat digunakan dalam robots.txt. Contoh kasus, misalnya  anda ingin memblokir posting tertentu agar tidak diindeks oleh semua mesin pencari, Maka kamu dapat melakukannya dengan menempatkan kode dibawah ini.
user-agent: *
disalllow: /2012/11/url-permalink-posting.html
Kode yang saya warnai diatas merupakan contoh struktur url permalink posting blogspot yang di blokir tanpa menuliskan nama domain web di depannya.

b. Memblokir Folder/direktori

Untuk memblokir folder atau direktori (termasuk isinya) pada situs anda, Anda dapat melakukannya seperti pada contoh dibawah. Saya menggunakan direktori pada web dengan wordpress self hosted agar lebih familiar.
user-agent: *
disallow: /cgi-bin/
disallow: /wp-admin/
disallow: /wp-includes/
disallow: /wp-content/plugins/
disallow: /wp-content/cache/
disallow: /wp-content/themes/
Kode diatas berarti melarang bot crawler untuk merayapi semua file web yang ada di dalam folder cgbin, wp-admin, wp-includes serta folder plugins, cache, dan themes yang merupakan sub-directory dari folder wp-content.

c. Memblokir URL yang mengandung karakter/kata tertentu

Dengan robots.txt kita juga dapat memblokir url yang memiliki karakter/kata tertentu agar tidak diindeks di mesin pencari. Misalnya saya menggunakan karakter tanda tanya (?) yang biasanya dipakai pada url untuk query string atau pencarian pada web tertentu yang menyebabkan duplikat. user-agent: * disallow: /*?*  #untuk memblok semua url yang mengandung “?”. allow: /*?$ #untuk membolehkan akses pada semua url yang memiliki akhiran “?”

c. Memblokir akses pada ekstensi/format file tertentu

Kita juga dapat mengatur robots.txt untuk memblokir file dalam situs anda dengan format tertentu. Misalnya, kita akan memblokir file dengan format php (php), css (css) dan javascript (js).
user-agent: *
disallow: /*.php$
disallow: /*.js$
disallow: /*.css$

User Agent


Pada Saat mengatur robots.txt, Kamu dapat mengatur mana saja bot crawler yang diperbolehkan atau tidak untuk merayapi website atau blog kamu secara spesifik. Oleh karena itu, Kamu harus mengetahui nama beberapa bot crawler dari mesin pencari paling terkenal.
  • Google Adsense : Mediapartners-google
  • Google Search Engine : Googlebot
  • Altavista : Scooter
  • Lycos : Lycos_Spider_ (T-Rex)
  • Alltheweb : FAST-WebCrawler /
  • Inktomi : Slurp
  • Yahoo : Yahoo Slurp
  • MSN : msnbot
Nah itulah artikel yang bisa saya share pada kesempatan kali ini semoga sekarang kamu sudah tahu Apa itu robot txt,  Semoga bermanfaat. [www.devaradise.com]


Category:

Bloggues.com
Adalah Blog yang berisi tentang Informasi Publik dan Berita Terbaru, Berita Politik, Berita Olahraga, Berita Islam, Berita Seleb, Info Kesehatan, Info peluang bisnis

0 komentar

Silahkan berkomentar dengan bahasa yang sopan dan juga relevan dengan tema artikel yang ditulis.