Konten duplikat atau kesamaan konten pada dua atau lebih halaman pada sebuah website merupakan hal yang perlu kita hindari karena bisa dapat memengaruhi ranking pencarian halaman website Anda.

Namun yang seringkali menjadi pertanyaan adalah apakah ada batas persentase tertentu yang bisa kita gunakan sebagai acuan dalam menentukan konten pada halaman web merupakan duplikat atau tidak?

Berapa Batas Persentase Kesamaan dari Konten Duplikat?

Lewat akun Twitternya, John Mueller (@johnmu) menjawab pertanyaan mengenai apakah Google menggunakan ambang batas persentase kesamaan tertentu untuk menentukan sebuah konten merupakan duplikat atau tidak.

Dapat kita lihat dari respon yang singkat dan padat John Mueller di atas bahwa ternyata Google tidak memiliki ambang batas persentase tertentu untuk menentukan apakah sebuah konten merupakan duplikat. 

Lantas jika Google tidak menggunakan ambang batas persentase tertentu, bagaimana cara Google mengidentifikasi duplicate content? Apa kriteria atau parameter yang digunakan oleh Google untuk menentukan hal tersebut?

Bagaimana Cara Google Menentukan Konten Duplikat?

Sebetulnya, penjelasan mengenai bagaimana Google menangani konten duplikat sudah pernah disampaikan oleh Matt Cutts di akun Youtube Google Search Central pada tahun 2013.

Di awal video ia menjelaskan bahwa duplicate content adalah hal yang cukup umum. Bahkan, 25% sampai 30% konten website di internet merupakan duplicate content.

Kesamaan konten pada beberapa halaman website terkadang sulit untuk dihindari, misalnya saja ketika Anda butuh mengutip informasi tertentu dari halaman web lainnya. 

Baca Juga:   5 Tips Optimasi Gambar di SEO, Lakukan Semua Agar Google & User Happy!

Jadi, tidak semua semua kasus duplicate content adalah konten spam sehingga menerapkan penalti kepada halaman-halaman web tersebut justru akan mengurangi kualitas hasil pencarian Google Sendiri. 

Yang Google lakukan dalam menangani konten duplikat adalah:

Mencoba untuk mengelompokkannya (konten duplikat) menjadi satu dan memperlakukannya seolah-olah sebagai satu konten.

…(kami menganggap duplicate content) sebagai sesuatu yang perlu kami kelompokkan secara tepat. Dan memastikannya muncul pada hasil pencarian dengan benar.

Dalam salah satu episode podcast Search Off Record, penjelasan yang serupa juga disampaikan oleh salah satu Googler, Garry Illyes, ketika membahas topik tentang duplicate content dan canonicalization.

Martin Splitt: Apakah pendeteksian konten duplikat dan canonicalization adalah hal yang sama? 

Gary Illyes: Yah, tidak, kan? Karena pertama-tama Anda harus mendeteksi konten duplikat, dan mengelompokkannya dengan menetapkan bahwa semua halaman ini adalah duplikat antar satu sama lain.

Lalu baru kemudian Anda harus menemukan halaman utama di antara kesemuanya, dan inilah yang disebut dengan canonicalization.

Metode Teknis Google untuk Mendeteksi Konten Duplikat

Pada episode podcast yang sama, Gary kemudian lanjut menjelaskan bagaimana secara teknis Google mendeteksi konten duplikat, yaitu dengan membandingkan hasil checksum, bukan menggunakan ambang persentase.

Dari segi definisi, checksum adalah urutan angka dan huruf yang digunakan untuk memeriksa kesalahan data.

Fungsi checksum biasanya digunakan dalam proses transmisi data digital untuk memverifikasi akurasi dan konsistensi data.

Namun dalam konteks ini, checksum yang berupa urutan angka dan huruf tersebut digunakan sebagai representasi dari sebuah konten.

Dengan teknik ini, konten pada halaman website akan direduksi menjadi urutan angka. Kemudian urutan angka dari setiap konten itu akan dibandingkan untuk menentukan tingkat kesamaannya. Jadi, konten yang duplikat atau sama akan memiliki urutan angka yang mirip.

Baca Juga:   Apakah Keyword Stuffing Memengaruhi Ranking di Google Search? (Spoiler: IYA)

Teknik ini digunakan karena cenderung lebih mudah (dari segi teknis) dan juga menunjukkan hasil yang lebih akurat.

Kesimpulan

Lewat beberapa penjelasan di atas telah kita ketahui bahwa Google tidak menggunakan ambang persentase tertentu untuk menentukan konten duplikat.

Teknik yang digunakan Google dalam mendeteksi konten duplikat adalah teknik checksum, yaitu membuat representasi konten dengan urutan angka, lalu membandingkannya.

Selain itu, dapat kita simpulkan juga bahwa tidak semua duplikat konten dapat merugikan SEO, karena terkadang hal ini tidak bisa kita hindari.

Namun meskipun begitu, Anda tetap harus waspada karena Google tetap bisa mengenali konten spammy dengan intensi untuk memanipulasi ranking halaman hasil pencarian.

Jadi, cara terbaik untuk menghindari hal tersebut adalah dengan menghadirkan konten yang orisinal dan memiliki nilai kebaruan untuk pengunjung website Anda.

______

Jika Anda memiliki pertanyaan lain seputar duplicate content, Anda bisa mendiskusikannya di group telegram DailySEO! Di sana Anda bisa mendiskusikan lebih lanjut mengenai konten duplikat atau topik relevan lain dengan pegiat SEO lainnya.

Sumber:

Author

SEO & SEM Specialist at Meson Digital

Write A Comment