“Kok website saya nggak di-index sama Google ya?”

Kami berangkat jauh-jauh ke Bangkok, Thailand, untuk menjawab pertanyaan sejuta umat ini. Jawabannya ada di acara Google Search Central Live Deep Dive APAC 2025 pada 23-25 Juli 2025 lalu.

Bagaimana cara Google memasukkan sebuah halaman ke index-nya? Apa saja proses yang dilewati setelah proses crawling? Semua ini akan dibahas di konten ini.

WARNING: konten kali ini akan sangat teknis. Silakan baca pelan-pelan, dan siap-siap googling kalau menemukan istilah yang memusingkan. Bisa juga ikut Technical SEO Fundamental Course untuk bisa lebih mudah memahami area technical SEO seperti ini.

(Jangan lupa baca artikel liputan hari pertama yang lebih dalam membahas tentang crawling dan liputan hari ketiga yang membahas lebih dalam tentang ranking, untuk mendapatkan konteks lengkapnya).

Proses yang menentukan apakah sebuah halaman akan masuk Index Google atau tidak
Proses yang menentukan apakah sebuah halaman akan masuk Index Google atau tidak (dokumentasi Ilman Akbar)

HTML parsing, memecah halaman ke dalam komponen kecil

Di hari pertama, kita sudah belajar bagaimana cara crawler Google membuka sebuah halaman website. Di titik ini, crawler yang berhasil menyelesaikan tugasnya akan meneruskan hasil crawling ke sistem indexing Google.

HTML hasil crawling dipecah menjadi komponen bernama Document Object Model (DOM). Dari sini, search engine menemukan mana yang konten, link, gambar, menu navigasi, dll.

Di titik ini, search engine langsung melihat isi meta robots, yang mengatur urusan indexing. Bedakan dengan robots.txt yang mengatur urusan crawling.

Beberapa isi tag meta robots yang umum:

  • all (search engine diizinkan untuk crawl dan index halaman ini)
  • noindex: search engine tidak diizinkan untuk memasukkan halaman ini ke index.
  • nofollow: search engine tidak diizinkan untuk crawl link yang ada di halaman ini
  • none: sama artinya dengan noindex, nofollow (sekaligus dua-duanya)
  • nosnippet: jangan tampilkan meta description di halaman ini.
  • unavailable_after: menentukan spesifik tanggal & jam untuk men-deindex halaman ini. Biasa digunakan untuk promosi dalam waktu terbatas.

Tambahan: kalau Anda ingin me-noindex sebuah halaman, pastikan halaman itu tidak diblok oleh robots.txt. Kalau diblok, perintah noindex tidak akan terbaca, menyebabkan halaman itu tetap akan muncul di SERP.

Rendering, melihat halaman seperti yang users lihat

Sebelum di-parsing, sebuah halaman akan melalui proses rendering, alias proses menampilkan isi halaman dalam file HTML-nya.

Proses rendering terpisah dari crawling & indexing. Halaman hasil render akan dikembalikan lagi ke proses indexing utama.

Umumnya, website yang memanfaatkan website builder atau CMS seperti WordPress, Wix, dan sejenisnya, tidak akan mengalami masalah dalam rendering. Apa yang dilihat oleh search engine akan sama seperti dengan yang dilihat oleh users manusia.

Tapi, website yang dibuat secara custom dengan JavaScript framework seperti React JS, Vue, dan sejenisnya, bisa mengalami permasalah rendering, yaitu apa yang dilihat oleh search engine berbeda dengan yang dilihat oleh users manusia. Ini disebut JavaScript SEO.

Ini menjadi masalah, karena konten yang seharusnya bisa membuat pages kita ter-index hingga ranking, itu tidak terlihat oleh search engine. Sehingga mereka bisa aja tidak mau meng-index pages kita.

Empat isu utama rendering, yang akan mengganggu proses indexing, yaitu:

Pertama, konten tidak muncul di HTML hasil rendering. Jika konten tidak ada di DOM akhir yang dilihat Google, ia tidak akan bisa membacanya.

Baca Juga:   Cumulative Layout Shift (CLS): Elemen Penting untuk Tingkatkan Kenyamanan User

Masalah ini bisa muncul karena JavaScript tidak bisa diakses oleh Googlebot, perlu adanya event triggers menggunakan JavaScript untuk menampilkan konten (misalnya perlu klik button untuk read more).

Kedua, menggunakan # (hash fragments) untuk navigasi/perubahan konten. Ini hanya ada di client-side, sehingga Googlebot tidak bisa membacanya. Solusinya, gunakan History API dengan URL path.

Ketiga, keberadaan soft error/soft 404. Biasanya disebabkan oleh SPA (single page application) yang menemui error, tapi tidak bisa mengembalikan HTTP status code yang seharusnya. Solusinya, aplikasi itu harus redirect ke error page dengan memberikan HTTP status code yang benar (seperti 404).

Keempat, resources yang diblok. File JavaScript maupun API endpoints yang penting bagi halaman tersebut, harus dipastikan tidak diblok misalnya lewat oleh robots.txt.

Mengidentifikasi problem rendering

Wasin Mekkit, salah satu community speaker memberikan lightning talk yang melengkapi penjelasan Google tentang problem rendering. Ia menunjukkan cara mengecek apakah terdapat problem rendering di website kita:

  1. Klik kanan – view source: apakah kita langsung bisa melihat konten yang paling penting?
  2. URL Inspection di Google Search Console. Lakukan ‘Test Live URL’, lalu lihat preview-nya. Apakah Google bisa melihat konten kita? (tambahan penulis: lihat juga hasil HTML-nya, karena preview-nya terbatas)
  3. Page Indexing di Google Search Console: lihat jumlah Crawled – currently not indexed. Kalau jumlahnya sangat banyak, ini jadi indikasi banyak halaman yang tidak bisa dibaca Google baik.
  4. Masih di menu Page Indexing di Google Search Console, lihat yang Soft 404, kalau jumlahnya sangat banyak, harus segera di-fix.

Cara Google ‘memahami’ apa isi halaman kita

Bagaimana Google mengetahui bahwa halaman kita punya konten utama, punya menu navigation, punya sidebar, dan sebagainya?

Gary Illyes menjelaskan bahwa Google paham struktur sebuah halaman, untuk menentukan mana MC (Main Content)-nya. (dokumentasi Ilman Akbar)
Gary Illyes menjelaskan bahwa Google paham struktur sebuah halaman, untuk menentukan mana MC (Main Content)-nya. (dokumentasi Ilman Akbar)

Jadi, saat HTML-nya di-parsing, Google tahu berbagai teks di halaman kita ada di posisi mana. Dari sini Google menentukan bahwa “yang ada di MC (main content) adalah yang paling penting”. Karena MC ini adalah value yang dibaca oleh audiens (mereka tidak baca footer maupun header, ya kan).

Setelah itu, Google akan memecah (bahasa teknisnya: tokenization) kalimat yang ada di halaman ini, ke dalam kata-kata unik. Setelah itu, ia akan menentukan tingkat pentingnya kata-kata tersebut, berdasarkan posisi di halaman. Kata yang berada di MC (main content) diberikan bobot paling penting.

Secara konsep, jika kita ingin sebuah keywords lebih mudah untuk me-ranking, letakkan keywords itu di main content.

Kalau ada halaman yang pas dibuka berhasil, tapi isinya “error”, ini disebut soft 404. Ini sesuatu yang sangat Google tidak sukai, karena berarti ia menemukan main content berisi pesan error. Soft 404 umum disebabkan oleh:

  • Halaman yang kelihatan seperti halaman error padahal bukan.
  • Thin content atau bahkan konten yang kosong (cuma ada header, footer, sidebar, tanpa main content)
  • Salah konfigurasi server atau CMS
  • Konten yang di-render dengan JavaScript (yagn gagal di-render saat Google datang)
  • Bonus: kesalahan di sistem Google (harus laporkan ke mereka)

Deduplication: cara Google menghindarkan duplikasi halaman

Sekitar 90% URL di internet itu duplikat. Dan ini bukan sesuatu yang disukai users & search engine. Users tidak suka jika saat mencari di Google, malah diberikan SERP yang berisi halaman-halaman yang sangat mirip. Di sisi lain, Google juga tidak suka menyimpan pages yang duplikat karena akan menghabiskan storage di index-nya.

Seperti apa yang dimaksud duplikat? Ambil contoh halaman dari Blibli yang muncul saat mencari ‘jual macbook air m3’.

  1. Halaman ini adalah halaman yang canonical alias yang asli. URL-nya https://www.blibli.com/jual/macbook-air-m3
  2. Halaman yang ini adalah halaman yang duplikat. Beda URL, karena saya menceklis filter lokasi toko. URL-nya jadi https://www.blibli.com/jual/macbook-air-m3?location=Kota+Bandung&sort=0&category=MA-1000384&intent=false

Kedua halaman ini punya main content yang identik yaitu list produk Macbook Air M3. Tapi URL keduanya berbeda. Sehingga ini yang dimaksud duplikat.

Baca Juga:   Data Google Analytics Sempat Mengalami Delay Sejak 13 November 2024

Keuntungan lain proses deduplication ini adalah karena kalau kita mengubah desain website kita, Google masih memiliki sinyal yang sama tentang website kita (karena main content-nya masih terdeteksi sama).

Secara sekilas, prosesnya adalah sebagai berikut: 1) Google melakukan identifikasi & mengelompokkan pages yang duplikat, 2) Google memilih URL yang mewakili setiap kelompoknya untuk dikirim ke index, 3) Google mengirim sinyal-sinyal lain ke URL tersebut.

Sebagai SEO, kita harus mempermudah Google sebisa mungkin agar jangan sampai memberikan URL pages yang isinya duplikat satu sama lain. Kita harus bisa mengidentifikasi pages yang berpotensi duplikat, lalu melakukan tindakan.

Beberapa tindakan tersebut:

  • Menggunakan redirect dari halaman yang duplikat ke halaman yang canonical, karena ini adalah sinyal terkuat. Lakukan ini terutama dalam proses revamp/migrasi website
  • Beri HTTP code yang benar (jangan sampai ada Soft 404)
  • Cek rel=canonical agar benar & tidak ambigu
  • Pakai hreflang untuk bantu localization (menemukan halaman serupa di bahasa yang berbeda)

Tidak cuma teks, Google juga mengambil gambar, video, & structure data

Dari halaman yang HTML yang sudah di-parse, Google juga mengekstraksi gambar, video, dan structured data. Gambar diambil dari tag HTML seperi <img> maupun <picture>, video diambil dari tag <video>.

Setelah itu, gambar & video-nya dimasukkan ke Media Indexing. Ini adalah sistem yang berbeda dari sistem indexing halaman yang utama, dan proses indexing gambar & video ini dilakukan secara asynchronous. Sehingga bisa saja pages-nya udah di-index duluan, tapi gambarnya belum muncul di Google Images (dan sebaliknya).

Structured data juga jadi fitur lain yang diesktraksi Google di proses ini. Structured data berfunsi agar mesin pencari bisa memahami halaman kita dengan lebih akurat. Contohnya, katakan kita membuat sebuah artikel tentang resep, kita bisa memberikan structured data jenis Recipe.

Nantinya, Google akan memanfaatkan structured data ini untuk menampilkan Rich Results di proses serving/ranking. Konten resep tadi akan tampil dalam bentuk yang lebih menarik dibandingkan hanya link biru.

Cara implementasi structured data bisa dilihat di panduan dokumentasi Google berikut.

Praktik terbaik memanfaatkan structured data adalah sebagai berikut:

  1. Gunakan hanya structured data yang relevan dengan isi halaman kita. Kalau halaman kita tidak membahas resep, tidak perlu pasang structured data Recipe.
  2. Selain itu, jangan melakukan praktik spam, memasang structured data yang tidak ada kontennya di halaman (misalnya menggunakan structured data rating/review padahal tidak ada di halaman)

Google juga sempat membahas tentang optimasi gambar & video. Tapi isinya tidak ada yang baru dibandingkan dengan panduan yang sudah ada di dokumentasi resmi, jadi silakan cek langsung di sana:

Sinyal-sinyal yang menentukan sebuah website masuk index Google

Sinyal-sinyal yang menentukan indexing (dokumentasi Pranav Kariya)
Sinyal-sinyal yang menentukan indexing (dokumentasi Pranav Kariya)

Index atau database Google sangatlah besar, tapi tidak unlimited. Mereka harus memilih mana URL yang mau dimasukkan ke index, dengan berbagai sinyalnya.

Setelah URL melewati berbagai proses di awal tadi, Google melihat berbagai sinyal. Secara sederhana, sinyal yang dilihat untuk halaman yang akan masuk ke index Google adalah:

  • Halaman yang isinya bisa dipercaya
  • Halaman yang isinya berguna.

Kembali lagi ke prinsip dasar, bahwa search engine menyukai konten yang bermanfaat dan terpercaya untuk pengguna. Konten yang seperti itulah yang akan masuk ke index Google (jika tidak ada kendala teknis seperit dibahas di atas).

Baca Juga:   Apa itu Crawl Budget? Seberapa Penting bagi SEO, dan Bagaimana Cara Mengoptimasinya?

Tapi akan lebih gampang membahas mana halaman yang TIDAK AKAN di-index Google. Alias halaman yang memberikan sinyal negatif:

Pertama, halaman yang memiliki meta robots noindex. Ini sudah jelas. Google akan menghormati keputusan pemilik website yang memilih untuk me-noindex halamannya.

Kedua, konten yang duplikat. Alias konten yang sudah ada dengan konten sebelumnya, baik di website lain, terutama di website sendiri. Usahakan hindari duplicate content dengan tindakan yang sudah dijelaskan di atas.

Ketiga, konten yang sudah expired. Tepatnya, yang menggunakan meta robots unavailable_after. Google akan menghapus halaman yang sudah melewati waktu yang ditentukan di sini dari index-nya.

Keempat, konten yang murni spam. Halaman yang tidak jelas isinya, tidak jelas manfaatnya untuk users. Konten berbahasa A di website yang harusnya berbahasa B (misalnya ada konten bahasa Thailand di website Indonesia). Lihat definisi spam di panduan Google.

Kelima, konten Soft 404. Ini halaman yang sebetulnya error, jadi tidak ada fungsinya untuk users.

Dan lain-lain, terutama yang melanggar kebijakan konten (content policy) dari Google.

Memperbaiki isu Crawled – currently not indexed (Di-crawl – saat ini tidak diindeks)

Ini adalah isu indexing. Google sudah meng-crawl halaman tersebut, tapi memutuskan TIDAK MAU meng-index halaman tersebut. Halaman seperti ini bisa saja akan di-index nantinya, bisa jadi tidak. Tidak perlu melakukan request indexing, karena hasilnya akan sama saja.

Permasalahan ini terjadi karena URL yang tidak di-index karena pesan ini dianggap tidak memenuhi sinyal-sinyal yang ditentukan Google tadi untuk masuk index-nya.

Solusi yang diberikan Google: pastikan halaman tersebut berkualitas. Buatlah agar lebih berguna untuk users Anda.

(tambahan penulis: berikan juga internal link ke halaman-halaman tersebut, karena link adalah bentuk rekomendasi yang bisa menjadi sinyal lainnya)

Bagaimana bentuk index Google?

Selama ini kita cuma ngomong “index Google ini, index Google itu”. Tapi pernahkah membayangkan seperti apa isinya?

Bentuknya seperti ini, dibuat dalam format yang disebut Posting List.

Contoh ilustrasi bentuk Index Google, yang menggunakan format Posting List
Contoh ilustrasi bentuk Index Google, yang menggunakan format Posting List (dokumentasi Ilman Akbar)

Setiap keywords/kata di kolom sebelah kiri memiliki list URL yang mengandung kata tersebut di kolom sebelah kanan. Jadi, setiap kali Google hendak menyajikan result yang relevan dengan kueri pencarian tertentu, tinggal cari dengan cara seperti ini:

  1. Saat users mencari di Google, kueri pencarian dipecah ke dalam kata-kata (disebut tokenization).
  2. Setiap kata tersebut dikroscek ke Posting List

Lihat contoh berwarna ungu di gambar berikut ini. Lebih detail akan dibahas di hari ketiga besok, di pembahasan tentang serving/ranking.

Contoh pencocokan kueri pencarian users dengan Index Google
Contoh pencocokan kueri pencarian users dengan Index Google (dokumentasi Ilman Akbar)

Penutup

Demikian liputan mendalam hari kedua, dari rangkaian liputan Google Search Central Live Deep Dive APAC 2025.

Hari ini, kita sudah belajar bagaimana proses indexing dari Google, mulai dari parsing HTML-nya, merender HTML-nya, memahami isi kontennya, deduplication, hingga membahas sinyal-sinyal yang mempengaruhi proses indexing. Tetap ikuti DailySEO ID untuk membaca liputan hari ketiga.

Jika Anda memiliki pertanyaan silakan tuliskan di kolom komentar di bawah atau bisa gabung ke grup Telegram DailySEO ID di sini. Jika ingin belajar SEO dari ahlinya, yuk belajar di course-nya DailySEO ID!

Referensi:

  1. Liputan Ilman Akbar yang ditulis di LinkedIn DailySEO ID
  2. Search Engine Journal: Google Search Central APAC 2025: Everything From Day 2

Dapatkan berita terbaru seputar SEO Gratis!
Subscribe Sekarang!

Author

Founder, DailySEO ID | SEO Instructor & Curriculum Creator at RevoU | Former Digital Marketing Lead at Glints | Former Head of SEO & Product Manager at Traveloka | Father of 3

Write A Comment