Belakangan ini teman-teman pasti seringkali mendengar tools yang bernama ChatGPT AI, di mana tools ini mampu memaparkan segala informasi yang kita tuliskan. 

Banyak yang berpendapat bahwa adanya tools ini berpotensi mematikan profesi content writer di masa mendatang. 

Namun, kalau teman-teman pikirkan lagi, ChatGPT AI tidak hanya mengancam content writer, tetapi ChatGPT AI juga bisa mengakses situs web Anda untuk mendapatkan informasi yang akan dituliskan nantinya.

Sontak, hal ini membuat para pemilik website khawatir jika kontennya dipakai secara ilegal untuk kepentingan ChatGPT AI.

Kendati demikian, Search Engine Journal memaparkan bahwa ada cara untuk memblokir ChatGPT AI masuk ke dalam website teman-teman. Cara memblokirnya tidak sederhana, dan tidak ada jaminan juga pasti berhasil.

Tapi tidak ada salahnya dicoba, mari kita simak caranya bersama-sama!

Bagaimana Cara AI Mempelajari Konten Anda?

Untuk diketahui teman-teman, ChatGPT menggunakan Large Language Models (LLM), di mana LLM merupakan machine learning yang dilatih pada data yang berasal dari berbagai sumber.

Banyak dari data berasal dari open source atau sumber terbuka sehingga dapat digunakan secara bebas untuk melatih AI dalam mempelajari konten-konten yang tersebar di jutaan website di dunia.

Secara garis besar, LLM menggunakan berbagai macam sumber untuk berlatih, seperti:

  • Wikipedia
  • Buku 
  • Email
  • Catatan pengadilan pemerintah
  • Situs web yang di-crawl

Faktanya, ada beberapa portal ataupun situs web yang menyajikan kumpulan data dan memberikan informasi dalam jumlah yang besar.

Salah satu portal yang dimaksud yaitu website yang di hosting oleh Amazon. Portal tersebut menyajikan ribuan datasets atau kumpulan data melalui laman Registry of Open Data on AWS.

Baca Juga:   Inilah 4 Mesin Pencari Selain Google yang Menarik Untuk Dipelajari

Di sana, Anda bisa mencari berbagai macam website dengan aneka ragam industri yang bisa ditemukan.

blokir chatgpt ai
Sumber: Search Engine Journal

Seperti yang sudah dibicarakan sebelumnya, portal Amazon hanyalah salah satu dari portal atau situs web yang menyajikan ribuan datasets.

Contoh lainnya yang mungkin lebih familiar di telinga teman-teman yaitu Wikipedia. 

Wikipedia membuat daftar 28 portal yang bisa digunakan untuk mengunduh datasets, termasuk di dalamnya terdapat Google Dataset dan portal Hugging Face yang bisa diakses untuk menemukan ribuan datasets lain.

Datasets Dapat Digunakan untuk Melatih ChatGPT

Sebagai informasi untuk teman-teman, ChatGPT didasarkan pada GPT-3.5 atau yang biasa dikenal dengan sebutan InstructGPT.

Datasets atau kumpulan data yang digunakan untuk melatih GPT-3.5 sama persis dengan yang digunakan untuk GPT-3.

Perbedaan mendasar antara keduanya yaitu ChatGPT-3.5 menggunakan teknik yang dikenal sebagai reinforcement learning from human feedback (RLHF).

Lima datasets yang digunakan untuk melatih GPT-3 dan GPT-3.5 dijelaskan di halaman 9 makalah penelitian yang berjudul Language Models are Few-Shot Learners

Datasets yang dimaksud yaitu:

  • Common crawl (filtered)
  • WebText2
  • Books1
  • Books2
  • Wikipedia

Dari lima datasets tersebut, dua di antaranya didasarkan pada crawl internet, yaitu WebText2 dan Common Crawl.

Apa Itu WebText2?

WebText2 adalah kumpulan data OpenAI pribadi yang dibuat untuk meng-crawl thread dari Reddit yang memiliki tiga upvotes positif.

Secara sederhana, WebText2 ini merupakan versi tambahan dari datasets original WebText yang dikembangkan oleh OpenAI.

WebText asli digunakan untuk melatih GPT-2. Datasets WebText yang original mempunyai sekitar 15 miliar token. Sedangkan WebText2 mempunyai lebih besar dengan sekitar 19 miliar token. 

Untuk WebText2 sendiri digunakan untuk melatih GPT-3 dan GPT-3.5.

Common Crawl

Salah satu datasets yang paling umum digunakan yang terdiri dari internet content yaitu datasets dari Common Crawl.

Baca Juga:   Mengenal White Hat SEO dan Black Hat SEO, Pahami Perbedaannya!

Data Common Crawl berasal dari bot yang melakukan crawling pada seluruh jaringan internet. Data diunduh oleh sebuah organisasi yang ingin menggunakan data tersebut untuk membersihkan situs dari spam dan lain-lain.

Untuk diketahui teman-teman, nama bot dari Common Crawl adalah CCBot.

CCBot merupakan bot yang mematuhi protokol dari robots.txt. Dengan demikian, maka memungkinkan bagi kita untuk memblokir Common Crawl melalui robots.txt dan mencegah data situs web kita masuk ke datasets atau kumpulan data yang lain.

Akan tetapi, apabila situs Anda telah di-crawl oleh CCBot, maka kemungkinan situs Anda sudah masuk ke dalam datasets.

Dengan memblokir Common Crawl, Anda dapat menarik konten situs web supaya tidak masuk ke dalam datasets baru yang bersumber dari datasets Common Crawl yang lebih baru lagi.

Inilah kenapa di awal artikel disebutkan bahwa cara ini bisa dilakukan, tetapi tidak dijamin 100% bisa memblokir ChatGPT AI untuk masuk ke situs web Anda.

Berikut string User-Agent CCBot:

CCBot/2.0

Tambahkan tulisan di bawah ini ke file robots.txt Anda untuk memblokir CCbot:

User-agent: CCBot

Disallow: /

CCBot juga mematuhi arahan dari tag meta robot nofollow. Gunakan ini pada tag meta robot Anda:

<meta name="CCBot" content="nofollow">

Cara tambahan untuk mengetahui user-agent CCBot yang original dengan meng-crawl alamat IP Amazon AWS.

Penutup

Cara di atas bisa Anda terapkan, tetapi tidak 100% mampu memblokir ChatGPT AI dari situs web teman-teman.

Saat ini, tidak ada cara untuk bisa menghapus konten yang tersebar di seluruh internet dari datasets yang sudah ada.

Terlepas dari semua, banyak sekali publishers yang berharap bahwa dalam waktu dekat diberitahu mengenai bagaimana konten-konten yang ada di internet digunakan, terutama oleh produk AI seperti ChatGPT.

Baca Juga:   Panduan Dasar Google Featured Snippet: Cara Kerja & Tipe-tipenya

Kendati demikian, belum ada tahu pasti terkait hal tersebut apakah akan terjadi atau tidak.

Buat teman-teman yang ingin berdiskusi lebih lanjut mengenai ChatGPT AI dan SEO, Anda bisa langsung bergabung ke dalam grup Telegram Daily SEO.

Selain itu, saat ini Daily SEO telah menyelenggarakan webinar yang membicarakan terkait SEO dan sekitarnya dan dibawakan langsung oleh founder Daily SEO, yaitu Ilman Akbar.

Teman-teman bisa langsung mendaftarkan diri di sini! Sudah ada banyak materi yang disampaikan dan teman-teman juga bisa men-download webinarnya jika ketinggalan!

Sumber: https://www.searchenginejournal.com/how-to-block-chatgpt-from-using-your-website-content/478384/#close 

Dapatkan berita terbaru seputar SEO Gratis!
Subscribe Sekarang!

Author

SEO Content Specialist, Median Digital Indonesia | Former SEO Content at Zenius, Hipwee, and Glints | SEO Enthusiast

Write A Comment