Begini Cara Google Crawling Website (Liputan SCL Deep Dive APAC 2025 - Hari 1)

Pada 23-25 Juli 2025, Google Search mengadakan Google Search Central Live (SCL) Deep Dive Asia Pacific (APAC) 2025.

Acara ini mengumpulkan praktisi SEO, digital marketing, dan developers, dari penjuru Asia Pasifik selama tiga hari untuk mendapatkan berbagai insights baik dari tim Google Search sendiri, juga dari community speakers.

Acara ini dibagi dalam 3 hari, masing-masing membahas secara mendalam proses yang dilalui Google Search: hari 1 membahas crawling, hari 2 membahas indexing, hari 3 membahas serving alias ranking

Tulisan ini membahas insights dari hari pertama, seputar crawling: cara Google mengunjungi website kita.

(Bisa langsung baca liputan hari kedua yang membahas tentang indexing atau liputan hari ketiga yang membahas lebih dalam tentang ranking untuk mendapatkan konteks lengkapnya).

Daftar Isi

AI adalah perubahan besar berikutnya di Search
Sekilas cara kerja mesin pencari
Detail cara kerja crawling
Berbagai HTTP Status Code yang berdampak ke SEO
Memahami crawl budget
Google Search tidak menggunakan LLM.txt
Memanfaatkan Google Search Console (GSC)
Penutup

AI adalah perubahan besar berikutnya di Search

Menurut Mike Jittivanich, Director of Marketing, Southeast Asia & South Asia Frontier Google, AI (generative AI) adalah sesuatu yang akan menciptakan perubahan besar, seperti pernah terjadi karena kebangkitan mobile (ingat ada mobilegeddon pada tahun 2015?) dan social media (video pendek) setelahnya.

Misi utama Google tetap sama, mengorganisir informasi dunia dan menghubungkan orang dengan konten terbaik. Tapi cara mencapainya sudah berubah. Siapa pun yang ingin tetap tampil, harus mengutamakan kualitas dan nilai konten yang nyata. Inilah alasan mengapa Google Search selalu berevolusi. Awalnya dimulai dari 10 link biru, menjadi sangat bervariasi, hingga menampilkan AI Overview di SERP.

(opini pribadi penulis: dari awal, fokus utama Google memang untuk membantu users-nya. Tidak pernah sekalipun Google punya fokus “membantu pemilik website”. Setiap praktisi SEO harus mencamkan ini baik-baik).

Gary Illyes menambahkan bahwa gara-gara keberadaan generative AI, Google Search berevolusi dalam 2 hal:

Users bertanya lebih banyak & panjang. Tidak cuma dalam bentuk teks, users bisa search pakai suara, gambar, hingga video. Menariknya, berdasarkan data Google, ternyata users Gen Z (umur 18-24) terbanyak memakai Google Search di antara rentang umur lainnya!
Menjawab situasi ini, Google pun bisa jawab pertanyaan yang lebih kompleks, salah satunya ya memanfaatkan fitur Ringkasan AI (AI Overview)

Apakah SEO is dead? Gary menceritakan pengalaman pribadinya, bahwa pertanyaan ini sudah terjadi sejak 1997. Jawabannya tetap sama: tidak, dan belum akan mati dalam waktu dekat. SEO sedang berevolusi. Justru, prinsip dasar SEO sekarang makin penting: bikin konten yang bermanfaat dan terpercaya untuk pengguna.

Konten yang fokusnya ke users, bukan ke mesin pencari, akan selalu menang. Para pembicara menegaskan satu hal penting: algoritma ranking Google yang berbasis machine learning belajar dari konten terbaik yang dibuat oleh manusia untuk manusia, bukan konten buatan AI. Artinya, kita harus terus fokus pada konten yang ditulis dengan mendalam, engaging, dan punya manfaat nyata.

Terakhir, menurut Gary, “kalau Anda tahu cara kerja Google Search, kurang lebihnya Anda juga tahu cara kerja fitur-fitur AI di Google”. Dengan kata lain, kalau mau muncul di AI Overview, kita hanya membutuhkan SEO sesuai best practice biasanya, tidak perlu istilah GEO, LLMO, dan lainnya.

Sekilas cara kerja mesin pencari

Mesin pencari bekerja dengan melakukan 3 proses besar, yang dinamakan:

Crawling. Crawler Google, menemukan URL website kita dari berbagai sumber, termasuk dari link yang ada di halaman kita.
Indexing. Memahami isi pages yang sudah di-crawl memilih pages yang unik, lalu dimasukkan ke database yang bernama Google Index.
Serving/ranking. Menampilkan hasil pencarian di SERP (Search Engine Result Page) yang relevan dengan kueri pencarian users.

Lebih detailnya bisa dibaca di artikel cara kerja mesin pencari, atau ikuti seri Liputan SCL Deep Dive, APAC 2025 hari-hari berikutnya.

Detail cara kerja crawling

Untuk bisa menemukan dan mengunjungi URL yang ada di seluruh penjuru Internet, berikut adalah infrastruktur crawling milik Google:

Pertama, crawler. Googlebot (nama crawler Google) berfungsi dengan cara yang sama dengan dengan manusia yang membuka halaman website lewat browser tadi. Ia punya berbagai macam tugas:

Mendownload halaman website yang sudah diakses lalu mengirim datanya ke sistem Indexing
Memastikan tidak terlalu sering datang (yang bikin website tujuan bisa down)
Mematuhi isi robots.txt dari website tujuan.

Kedua, scheduler. Sebelum crawler bekerja, bagian inilah yang memberikan data URL yang harus dikunjungi oleh crawler, serta menentukan jadwal crawl (kapan crawler harus datang). Sebagai tambahan, scheduler ini digunakan bersama oleh berbagai crawler Google (tidak hanya Googlebot).

Ketiga, crawl queue. Sebelum penjadwalan dapat dilakukan, scheduler mendapatkan data URL dari berbagai sumber:

Dari link yang sudah ditemukan sebelumnya di halaman yang sudah di-crawl
Dari Sitemaps, feeds file, serta dari Search Console

Kesimpulannya, prosesnya bisa digambarkan secara sederhana berikut ini:

Google menemukan (discover) URL, lalu dimasukkan ke crawl queue.
Google menentukan URL yang harus dikunjungi oleh crawler oleh scheduler.
Crawler Google mendatangi URL tersebut, membuka halamannya, dan mengirim datanya ke sistem yang menangani proses berikutnya (Indexing).

Berbagai HTTP Status Code yang berdampak ke SEO

Saat crawler mengunjungi sebuah website, ada beberapa kemungkinan yang bisa terjadi. Halaman tersebut bisa saja dibuka dengan baik, bisa saja error (dengan berbagai sebab), bisa saja dia malah pindah ke halaman lainnya lagi.

Kondisi-kondisi tersebut digambarkan dengan yang namanya HTTP Status Codes. Ada 5 kategori besar:

1xx (Informational response): hanya respons sementara yang menandakan server sudah menerima respons.
2xx (Success): 200 adalah kode yang menandai bahwa server sudah sukses mengirim semua data yang diminta client, dan halaman ini dapat di-index. Kode khusus yaitu 204 (artinya 0 content), sehingga tidak bisa di-index.
3xx (Redirect): konten dari URL A terletak di URL B, sehingga crawler harus pindah halaman (memakan crawl budget untuk tiap ‘hop’-nya) dan crawl ulang di sana. Best practice redirection max 10 hops. Ada 2 jenis redirection, yaitu permanent (301/308) dan temporary (302/307)
4xx (Client Error): tidak akan di-index, karena halaman tidak ada. Paling umum: 403, 404, 410. Satu pengecualian adalah 429 (too many request), yang menjadi salah satu sinyal bagi Google untuk memperlambat proses crawling-nya.
5xx (Server Error): tidak bisa di-index, karena server-nya error. Kondisi ini juga membuat Google memperlambat proses crawling-nya.
(ada lagi Soft 404, di mana status kode aslinya adalah 200, tapi halamannya mengandung pesan error. Ini adalah isu di indexing, bukan crawling).

Memahami crawl budget

Crawl budget didefinisikan secara sederhana sebagai jumlah URLs yang Googlebot bisa & mau untuk crawl di sebuah website.

Sebetulnya praktisi SEO pada umumnya tidak perlu terlalu memusingkan crawl budget, karena Google akan ngatur sendiri crawl budget-nya, sedemikian hingga website Anda tidak akan overload (terlalu banyak pengunjung dari Googlebot). Pengecualian jika website Anda punya puluhan ribu pages.

Begini rumusnya: Crawl budget = crawl rate limit x crawl demand.

Crawl rate limit atau hostload adalah metrics yang berlaku untuk keseluruhan website dalam satu domain. Intinya menggambarkan kemampuan website untuk menangani crawlers yang datang.

Ini ditentukan oleh:

Connection time & Time to First Byte (TTFB). Jika kedua hal ini melambat, dianggap server-nya sedang penuh. Google bakal memperlambat kedatangan crawler-nya.
Keberadaan HTTP Status Code 429 (too many requests) & 5xx (server error) di sebuah halaman.

Crawl demand intinya terkait dengan kualitas website tersebut. Crawler Google akan semaking sering datang jika:

Konten di website semakin berkualitas isinya
Sering terjadi frekuensi perubahan URL website (misalnya situs berita yang sering update)
Popularitas website makin dikenal pengguna (sinyalnya tidak dijelaskan lebih rinci). Jika kualitas atau popularitas sebuah URL tidak diketahui, Google akan mengambil kualitas/popularitas dari parent page-nya.

Crawl budget akan “habis” alias Google tidak bisa dan/atau tidak mau meng-crawl sebuah website, jika:

Ada banyak sekali variasi URL untuk konten yang sama, misalnya karena URL parameter (sering terjadi di e-commerce)
Server sering error atau down, walaupun sedang tidak banyak pengunjung (misalnya karena penyedia hosting-nya jelek)
Banyak pages tidak berguna (thin content), ataupun JS/CSS/images yang tidak dipakai.

Google memberi insights untuk mengatur crawl budget sebagai berikut:

Gunakan HTTP cache control
Memastikan website kita punya navigasi yang bagus
Batasi crawler agar tidak mengakses URL yang memang tidak perlu dikunjungi
Perbaiki dan/atau hilangkan konten yang tidak berguna untuk user dari website kita

Beberapa pertanyaan terkait crawl budget:

Apakah semakin sering Google nge-crawl website kita, semakin bagus ranking-nya? Jawabannya: tidak ada hubungannya.
Dengan adanya AI Mode, apakah Googlebot akan datang lebih sering? Jawabannya: tidak, karena AI Mode memakai infrastruktur yang sama dengan Google Search.

Google Search tidak menggunakan LLM.txt

Gary Illyes dan Amir Taboul menjelaskan posisi Google terkait robots.txt dan proposal baru dari IETF yang bernama LLMs.txt.

Mirip seperti tag meta keywords zaman dulu, LLMs.txt bukan inisiatif dari Google, dan mereka tidak melihatnya sebagai sesuatu yang bermanfaat atau akan digunakan oleh Google Search.

Bagi Google, robots.txt tetap jadi standar sukarela utama untuk mengatur perilaku crawler. Kalau kamu ingin memblokir bot AI tertentu, kamu bisa melakukannya lewat robots.txt. Tapi penting diingat: tidak semua bot AI akan mematuhinya.

Memanfaatkan Google Search Console (GSC)

Google Search Console (GSC) sebagai platform untuk memantau performa website kita di Google Search punya fitur yang bisa memantau setiap proses cara kerja search engine:

Crawling: Links, Crawl Stats, Robots.txt
Indexing: Pages, Videos, Sitemaps
Serving/Ranking: Performance, Enhancements, Experience

Di halaman depan Google Search Console juga ada fitur Recommendations. Ini ditujukan bagi mereka yang awam dengan SEO, supaya tetap bisa paham performa SEO website-nya.

Oh iya, GSC baru saja meluncurkan logo barunya. Logo lamanya sudah dinilai outdated. Filosofi logo baru GSC adalah sebagai berikut:

Bar chart: GSC bantu pemilik website tumbuh lewat Google.
Kaca pembesar: GSC bantu menemukan problem SEO di website.
Warna-warni: sesuai warna brand Google.

Penutup

Demikian liputan mendalam Google Search Central Live Deep Dive APAC 2025 di hari pertama.

Hari ini, kita sudah belajar bagaimana AI mempengaruhi perilaku users dan ekosistem Google Search. Kita juga sudah belajar bagaimana infrastruktur & proses crawling dari Google, dan apa saja yang harus diperhatikan, khususnya HTTP status code & crawl budget. Tetap ikuti DailySEO ID untuk membaca liputan hari kedua & ketiga.

Jika Anda memiliki pertanyaan silakan tuliskan di kolom komentar di bawah atau bisa gabung ke grup Telegram DailySEO ID di sini. Jika ingin belajar SEO dari ahlinya, yuk belajar di course-nya DailySEO ID!

Referensi:

Liputan Ilman Akbar yang ditulis di LinkedIn DailySEO ID
Search Engine Journal: Google Search Central APAC 2025: Everything From Day 1
Liputan Kenichi Suzuki di LinkedIn: 1, 2

Begini Cara Google Crawling Website (Liputan SCL Deep Dive APAC 2025 – Hari 1)

Write A Comment Cancel Reply

Begini Cara Google Crawling Website (Liputan SCL Deep Dive APAC 2025 – Hari 1)

AI adalah perubahan besar berikutnya di Search

Sekilas cara kerja mesin pencari

Detail cara kerja crawling

Berbagai HTTP Status Code yang berdampak ke SEO

Memahami crawl budget

Google Search tidak menggunakan LLM.txt

Memanfaatkan Google Search Console (GSC)

Penutup

Related Posts

Report Data Performance Google Search Console Terhenti di 19 Oktober 2025!

Cara Kerja Google Search Engine: Crawling – Indexing – Ranking

Apa itu Sitemap? Pelajari Cara Buat dan Submit-nya ke GSC

Lazy Loading Bisa Menunda Largest Contentful Paint, Ini Kata Google

Write A Comment Cancel Reply