Google Terus Menyesuaikan Mesin

Google Terus Menyesuaikan Mesin

Sebagai mesin pencari terbesar dunia, Google tampaknya melakukan segalanya, di mana saja. Seperti mengambil gambar rumah Anda dari luar angkasa, menyalin buku-buku Sansekerta langka di India, memotret jalan ke Madison Avenue, berkelahi dengan Hollywood dan mencoba untuk melemahkan dominasi perangkat lunak Microsoft.

Namun pada intinya, Google tetap menjadi mesin pencari. Dan halaman pencariannya, hyperlink biru dengan latar belakang putih yang hambar, telah menjadikannya perusahaan yang paling banyak dikunjungi, paling menguntungkan, dan bisa dibilang paling kuat di Internet.

Google adalah pembantu pekerjaan rumah, navigator, dan halaman kuning untuk setengah miliar pengguna, yang dapat menemukan jarum paling mustahil di tumpukan jerami informasi terbesar di dunia. Hanya dalam sekejap mata.

Namun betapapun mudahnya untuk menjadi puitis tentang keajaiban modern Google, situs ini juga merupakan salah satu situs yang paling sering mendapat ejekan terbesar di dunia. Jutaan kali sehari, pengguna mengklik Google, kecewa karena mereka tidak dapat menemukan hotel, resep, atau lokasi rumah nenek yang justru nyasar ke tempat pembuangan akhir sampah. Google sering menemukan apa yang diinginkan pengguna, tetapi tidak selalu.

Tugas Mr Singhal Dkk.

Itulah sebabnya Amit Singhal dan ratusan insinyur Google lainnya terus-menerus mengubah mesin pencari perusahaan dalam upaya yang sulit. Tujuannya, untuk menutup kesenjangan antara sering dan selalu.

Mr Singhal adalah master dari apa yang disebut Google sebagai “algoritma peringkat” – faktor peringkat Google atau formula yang memutuskan halaman Web mana yang paling baik menjawab pertanyaan setiap pengguna. Ini adalah bagian penting dari tempat suci Google, sebuah departemen yang disebut “kualitas pencarian” yang diperlakukan perusahaan seperti rahasia negara.

Google jarang mengizinkan orang luar untuk mengunjungi unit tersebut, dan Google sangat berhati-hati dalam mengizinkan Mr. Singhal berbicara dengan media berita tentang keajaiban, minuman matematis di dalam jutaan kotak hitam yang menggerakkan mesin pencarinya.

Google sangat menghargai Tn. Singhal dan timnya karena alasan persaingan yang paling mendasar. Ia percaya bahwa kemampuannya untuk mengurangi berapa kali hal itu membuat para pencari kecewa sangat penting untuk menangkis serangan yang semakin ganas dari orang-orang seperti Yahoo dan Microsoft dan melestarikan tambang emas periklanan rapi yang diwakili oleh pencarian.

“Nilai mendasar yang diciptakan oleh Google adalah peringkat,” kata John Battelle, kepala eksekutif Federated Media, jaringan iklan blog, dan penulis “The Search,” pada sebuah buku tentang Google.

Toko online, katanya, menemukan bahwa seperempat hingga setengah dari pengunjung mereka, dan sebagian besar pelanggan baru mereka, berasal dari mesin pencari. Dan situs media menemukan bahwa banyak orang mengabaikan beranda mereka — di mana tingkat iklan biasanya paling tinggi — dan menggunakan Google untuk melompat ke halaman tertentu yang mereka inginkan.

“Google telah menjadi sumber kehidupan Internet,” kata Battelle. “Kamu harus berada di dalamnya.”

Pengguna, tentu saja, tidak melihat sains dan seni yang membuat kotak hitam Google bersenandung, tetapi tim kualitas pencarian membuat sekitar setengah lusin perubahan besar dan kecil seminggu ke sarang besar rumus matematika yang mendukung pencarian. mesin.

Rumus ini telah berkembang lebih baik dalam membaca pikiran pengguna untuk menafsirkan kueri yang sangat singkat. Apakah pengguna mencari pekerjaan, pembelian, atau fakta? Rumusnya dapat memberi tahu bahwa orang yang mengetik “apel” cenderung memikirkan buah, sementara mereka yang mengetik “Apple” sedang memikirkan komputer atau iPod. Mereka bahkan dapat mengkompensasi pertanyaan dengan kata-kata yang tidak jelas atau kesalahan langsung.

“Penelusuran selama beberapa tahun terakhir telah beralih dari ‘Beri saya apa yang saya ketik’ menjadi ‘Berikan apa yang saya inginkan,’ ” kata Mr. Singhal, penduduk asli India berusia 39 tahun yang bergabung dengan Google pada tahun 2000 dan sekarang menjadi Google Fellow, sebutan yang disediakan perusahaan untuk para insinyur elitnya.

Google baru-baru ini mengizinkan seorang reporter dari The New York Times untuk menghabiskan satu hari bersama Mr. Singhal dan yang lainnya dalam tim kualitas pencarian, mengamati beberapa pertemuan internal dan berbicara dengan beberapa insinyur top. Ada banyak pertanyaan yang tidak akan dijawab oleh Google. Tetapi para insinyur masih menjelaskan lebih dari yang pernah mereka lakukan sebelumnya di media berita tentang cara kerja sistem pencarian mereka.

Karena Google terus-menerus menyempurnakan mesin pencarinya, satu tantangan yang dihadapinya adalah skala besar. Sekarang situs Web paling populer di dunia, menawarkan layanannya dalam 112 bahasa, mengindeks puluhan miliar halaman Web dan menangani ratusan juta pertanyaan setiap hari.

Bahkan lebih menakutkan, banyak dari halaman-halaman itu adalah palsu yang dibuat oleh para penipu yang mencoba memikat para peselancar Web ke situs mereka yang penuh dengan iklan, pornografi, atau penipuan keuangan. Pada saat yang sama, pengguna berharap bahwa Google dapat menyaring semua data itu dan menemukan apa yang mereka cari, hanya dengan beberapa kata sebagai petunjuk.

“Ekspektasi sekarang lebih tinggi,” kata Udi Manber, yang mengawasi seluruh grup kualitas pencarian Google. “Ketika pencarian pertama kali dimulai, jika Anda mencari sesuatu dan Anda menemukannya, itu adalah keajaiban. Sekarang, jika Anda tidak mendapatkan apa yang Anda inginkan dalam tiga hasil pertama, ada sesuatu yang salah.”

Pendekatan Google terhadap penelusuran mencerminkan praktik pengelolaannya yang tidak konvensional. Ini memiliki ratusan insinyur, termasuk pakar terkemuka dalam pencarian yang terpikat dari akademisi, terorganisir secara longgar dan mengerjakan proyek yang menarik minat mereka. Tetapi ketika datang ke mesin pencari — yang memiliki ribuan persamaan yang saling terkait — ia harus memeriksa ulang pekerjaan independen para insinyur dengan ketelitian objektif dan kuantitatif untuk memastikan bahwa formula baru tidak lebih berbahaya daripada baik.

Seperti biasa, tweaking dan kontrol kualitas melibatkan tindakan penyeimbangan. “Anda membuat perubahan, dan itu memengaruhi beberapa kueri secara positif dan yang lainnya secara negatif,” kata Mr. Manber. “Anda tidak bisa hanya meluncurkan hal-hal yang 100 persen positif.”

PUSAT pencarian panik Google untuk tautan sempurna adalah Gedung 43 di jantung kantor pusat perusahaan di sini, yang dikenal sebagai Googleplex. Dalam anggukan daya tarik perjalanan ruang angkasa Larry Page, salah satu pendiri Google, replika skala penuh SpaceShipOne, pesawat ruang angkasa pertama yang dibiayai swasta, mendominasi lobi gedung. Pesawat ruang angkasa itu juga merupakan pengingat nyata bahwa terlepas dari kegunaannya untuk pejalan kaki — menemukan alamat pembersih kering atau memeriksa calon pacar — apa yang dilakukan Google mirip dengan ilmu roket.

Di puncak tangga berwarna cerah di Gedung 43 adalah kantor tempat Mr. Singhal berbagi dengan tiga insinyur top lainnya. Itu dipenuhi dengan pedang cahaya plastik, pedang busa dan senjata Nerf. Sebuah papan tulis besar di dekat meja Mr. Singhal ditulisi dengan grafik, kueri, dan potongan-potongan algoritme matematika warna-warni. Keluhan dari pengguna tentang pencarian yang salah juga ditulis di papan tulis.

10.000 karyawan Google mana pun dapat menggunakan sistem “Buganizer” untuk melaporkan masalah pencarian, dan sekitar 100 kali sehari mereka melakukannya — mencantumkan Mr. Singhal sebagai orang yang bertanggung jawab untuk menghancurkan mereka.

“Seseorang membawa kueri yang rusak ke Amit, dan dia menghargainya dan menghargainya dan mencoba mencari cara untuk memperbaiki algoritme,” kata Matt Cutts, salah satu rekan kantor Mr. Singhal dan kepala upaya Google untuk memerangi spam Web, istilah untuk laman yang dipenuhi iklan yang entah bagaimana terus bermanuver ke puncak daftar penelusuran.

Beberapa keluhan melibatkan kekurangan sederhana yang perlu segera diperbaiki. Baru-baru ini, pencarian untuk “Revolusi Prancis” mengembalikan terlalu banyak situs tentang kampanye pemilihan presiden Prancis baru-baru ini — di mana para kandidat berpendapat tentang berbagai revolusi kebijakan — daripada penggulingan Raja Louis XVI. Tweak mesin pencari memberi bobot lebih pada halaman dengan frasa seperti “Revolusi Prancis” daripada halaman yang hanya memiliki kedua kata.

Di lain waktu, keluhan menyoroti masalah yang lebih kompleks. Pada tahun 2005, Bill Brougher, seorang manajer produk Google, mengeluh bahwa mengetik frasa “teras jati Palo Alto” tidak mengembalikan toko lokal bernama Teak Patio.

Jadi Mr. Singhal menjalankan salah satu program internal Google yang berharga dan dijaga ketat, yang disebut Debug, yang menunjukkan bagaimana komputernya mengevaluasi setiap kueri dan setiap halaman Web. Dia menemukan bahwa Theteakpatio.com tidak muncul karena formula Google tidak memberikan perhatian yang cukup pada link dari situs lain tentang Palo Alto.

Itu juga merupakan petunjuk untuk masalah yang lebih besar. Menemukan bisnis lokal penting bagi pengguna, tetapi Google sering kali hanya mengandalkan segelintir situs untuk mendapatkan petunjuk tentang bisnis mana yang terbaik. Dalam waktu dua bulan setelah keluhan Mr. Brougher, kelompok Mr. Singhal telah menulis rumus matematika baru untuk menangani kueri untuk toko-toko di kota asalnya.

Tapi Mr Singhal sering tidak terburu-buru untuk memperbaiki semua yang dia dengar, karena setiap perubahan dapat mempengaruhi peringkat banyak situs. “Anda tidak bisa hanya bereaksi pada keluhan pertama,” katanya. “Kamu membiarkan semuanya mendidih.”

Jadi dia memantau keluhan di papan tulisnya, memprioritaskannya jika mereka terus datang kembali. Untuk sebagian besar paruh kedua tahun lalu, salah satu item yang berulang adalah “kesegaran.”

Kesegaran, yang menjelaskan berapa banyak halaman yang baru dibuat atau diubah dimasukkan dalam hasil pencarian, menjadi pusat perdebatan terus-menerus dalam pencarian: Apakah lebih baik memberikan informasi baru atau menampilkan halaman yang telah teruji oleh waktu dan lebih banyak lagi? cenderung lebih berkualitas? Sampai saat ini, Google lebih menyukai halaman yang cukup tua untuk menarik orang lain untuk menautkannya.

Tapi tahun lalu, Mr Singhal mulai khawatir bahwa saldo Google tidak aktif. Ketika perusahaan memperkenalkan layanan kutipan saham baru, pencarian untuk “Google Finance” tidak dapat menemukannya. Setelah memantau masalah serupa, dia membentuk tim yang terdiri dari tiga insinyur untuk mencari tahu apa yang harus dilakukan terhadap masalah tersebut.

Awal musim semi ini, dia membawa temuan pasukannya ke pertemuan mingguan insinyur berkualitas pencarian Mr. Manber yang meninjau proyek-proyek besar. Pada pertemuan itu, selusin orang duduk mengelilingi sebuah meja besar, selusin lainnya tergeletak di sofa merah, dan dua lagi dari New York melalui konferensi video, gambar mereka diproyeksikan di layar besar. Sebagian besar adalah laki-laki, dan banyak yang menyadap laptop. Salah satu warga New York mengunyah kue.

Mr Singhal memperkenalkan masalah kesegaran, menjelaskan bahwa hanya mengubah formula untuk menampilkan lebih banyak halaman baru menghasilkan pencarian berkualitas rendah sebagian besar waktu. Dia kemudian meluncurkan solusi timnya: model matematika yang mencoba menentukan kapan pengguna menginginkan informasi baru dan kapan mereka tidak menginginkannya. (Dan ya, seperti semua inisiatif Google, ia memiliki nama: QDF, untuk “permintaan layak mendapatkan kesegaran.”)

Kelompok Mr. Manber mempertanyakan formula QDF dan bagaimana hal itu dapat diterapkan. Di akhir pertemuan, Singhal mengatakan dia berharap untuk mulai mengujinya pada pengguna Google di salah satu pusat data perusahaan dalam waktu dua minggu. Seorang insinyur bertanya-tanya apakah itu terlalu ambisius.

“Untuk apa kamu menganggap kami, pemalas?” Mr Singhal menanggapi dengan senyum pemberontak.

Solusi QDF berkisar pada penentuan apakah suatu topik “panas”. Jika situs berita atau posting blog secara aktif menulis tentang suatu topik, model tersebut menunjukkan bahwa itu adalah topik yang kemungkinan besar diinginkan pengguna untuk informasi terkini. Model ini juga memeriksa aliran miliaran kueri penelusuran milik Google sendiri, yang menurut Singhal adalah pemantau antusiasme global yang lebih baik tentang subjek tertentu.

Sebagai contoh, ia menunjukkan apa yang terjadi ketika kota-kota mengalami pemadaman listrik. “Ketika terjadi pemadaman listrik di New York, artikel pertama muncul dalam 15 menit; kami mendapatkan pertanyaan dalam dua detik,” katanya.

Mr Singhal mengatakan dia menguji QDF untuk aplikasi sederhana: memutuskan apakah akan menyertakan beberapa berita utama di antara hasil reguler ketika orang melakukan pencarian untuk topik dengan skor QDF tinggi. Meskipun Google sudah memiliki sistem yang berbeda untuk memasukkan headline pada beberapa halaman pencarian, QDF menawarkan hasil yang lebih canggih, menempatkan headline di bagian atas halaman untuk beberapa query, dan menempatkannya di tengah atau di bawah untuk yang lainnya.

Kecepatan GOOGLE yang luar biasa kontras dengan gaya yang lebih santai dari universitas dan laboratorium penelitian perusahaan tempat banyak pemimpinnya berasal. Google merekrut Mr. Singhal dari AT&T Labs. Mr Manber, penduduk asli Israel, adalah pemeriksa awal pencarian Internet saat mengajar ilmu komputer di University of Arizona. Dia terjun ke dalam keributan perusahaan lebih awal, pertama sebagai kepala ilmuwan Yahoo dan kemudian menjalankan unit pencarian Amazon.com.

Google memikat Mr. Manber dari Amazon tahun lalu. Ketika dia tiba dan mulai melihat ke dalam kotak hitam perusahaan, katanya, dia terkejut bahwa metode Google jauh di depan para peneliti akademis dan saingan perusahaan.

Image

Amit Singhal, kiri, dan Udi Manber sedang dalam pencarian: mereka tidak ingin ada pengguna Google yang datang dengan tangan kosong. Kredit…Thor Swift untuk The New York Times

“Saya menghabiskan tiga bulan pertama dengan mengatakan, ‘Saya punya ide,’” kenangnya. “Dan mereka akan berkata, ‘Kami sudah memikirkan itu dan itu sudah ada di sana,’ atau ‘Tidak berhasil.’ ”

Tuan Manber yang pendiam (ia menolak menyebutkan usianya), akan membahas grup kualitas penelusurannya hanya dalam istilah yang paling samar. Ini beroperasi dalam tim kecil insinyur. Beberapa, seperti milik Mr. Singhal, berfokus pada sistem yang memproses kueri setelah pengguna mengetiknya. Lainnya bekerja pada fitur yang meningkatkan tampilan hasil, seperti mengekstrak cuplikan — teks deskriptif singkat yang memberi petunjuk kepada pengguna tentang konten situs.

Anggota lain dari tim Mr. Manber mengerjakan apa yang terjadi sebelum pengguna bahkan dapat memulai pencarian: memelihara indeks raksasa dari semua halaman Web di dunia. Google memiliki ratusan ribu komputer khusus yang menjelajahi Web untuk melayani tujuan itu. Pada tahun-tahun awalnya, Google membuat indeks baru setiap enam hingga delapan minggu. Sekarang ia memeriksa ulang banyak halaman setiap beberapa hari.

Dan Google melakukan lebih dari sekadar membuat daftar isi digital yang sangat besar untuk Web. Sebaliknya, itu benar-benar membuat salinan dari seluruh Internet — setiap kata di setiap halaman — yang disimpan di setiap pusat data besar yang disesuaikan sehingga dapat menyisir informasi lebih cepat. Google baru-baru ini mengembangkan sistem baru yang dapat menyimpan lebih banyak data dan menelusurinya jauh lebih cepat daripada yang bisa dilakukan perusahaan sebelumnya.

Saat Google mengkompilasi indeksnya, ia menghitung nomor yang disebut PageRank untuk setiap halaman yang ditemukannya. Ini adalah penemuan kunci dari pendiri Google, Mr. Page dan Sergey Brin. PageRank menghitung berapa kali situs lain menautkan ke halaman tertentu. Situs-situs yang lebih populer, terutama dengan situs-situs yang memiliki PageRanks yang tinggi, dianggap memiliki kualitas yang lebih tinggi.

Mr Singhal telah mengembangkan sistem yang jauh lebih rumit untuk peringkat halaman, yang melibatkan lebih dari 200 jenis informasi, atau apa yang disebut Google “sinyal”. PageRank hanyalah satu sinyal. Beberapa sinyal ada di halaman Web — seperti kata, tautan, gambar, dan sebagainya. Beberapa diambil dari sejarah bagaimana halaman telah berubah dari waktu ke waktu. Beberapa sinyal adalah pola data yang ditemukan dalam triliunan penelusuran yang telah ditangani Google selama bertahun-tahun.

“Data yang kami miliki mendorong keadaan seni,” kata Singhal. “Kami melihat semua tautan menuju halaman, bagaimana konten berubah di halaman dari waktu ke waktu.”

Semakin banyak, Google menggunakan sinyal yang berasal dari sejarahnya tentang apa yang telah ditelusuri pengguna individu di masa lalu, untuk menawarkan hasil yang mencerminkan minat setiap orang. Misalnya, penelusuran untuk “lumba-lumba” akan menampilkan hasil yang berbeda untuk pengguna yang merupakan penggemar sepak bola Miami daripada untuk pengguna yang merupakan ahli biologi kelautan. Ini hanya berfungsi untuk pengguna yang masuk ke salah satu layanan Google, seperti Gmail.

(Google mengatakan bahwa mereka berusaha keras untuk mencegah akses ke toko preferensi dan pola pengguna individu yang terus berkembang. Tetapi luasnya dan detail dari catatan semacam itu mendorong nafsu di antara yang usil dan ketakutan di antara para pendukung privasi.)

Setelah Google mengumpulkan banyak sekali sinyal, itu memasukkannya ke dalam rumus yang disebut pengklasifikasi yang mencoba menyimpulkan informasi berguna tentang jenis pencarian, untuk mengirim pengguna ke halaman yang paling bermanfaat. Pengklasifikasi dapat memberi tahu, misalnya, apakah seseorang sedang mencari produk untuk dibeli, atau untuk informasi tentang suatu tempat, perusahaan, atau seseorang. Google baru-baru ini mengembangkan pengklasifikasi baru untuk mengidentifikasi nama-nama orang yang tidak terkenal. Lain mengidentifikasi nama merek.

Sinyal dan pengklasifikasi ini menghitung beberapa ukuran utama relevansi halaman, termasuk yang disebut “topikalitas” — ukuran bagaimana topik halaman terkait dengan kategori luas kueri pengguna. Sebuah halaman tentang pidato Presiden Bush tentang Darfur minggu lalu di Gedung Putih, misalnya, akan mendapat peringkat tinggi dalam topik “Darfur”, kurang begitu untuk “George Bush” dan bahkan kurang untuk “Gedung Putih.” Google menggabungkan semua ukuran ini menjadi skor relevansi akhir.

Situs dengan 10 skor tertinggi memenangkan tempat yang didambakan pada halaman pencarian pertama, kecuali pemeriksaan terakhir menunjukkan bahwa tidak ada cukup “keragaman” dalam hasil. “Jika Anda memiliki banyak perspektif yang berbeda pada satu halaman, seringkali itu lebih membantu daripada jika halaman tersebut didominasi oleh satu perspektif,” kata Mr. Cutts. “Jika seseorang mengetik suatu produk, misalnya, mungkin Anda menginginkan ulasan blog tentangnya, halaman produsen, tempat untuk membelinya, atau situs perbandingan belanja.”

Jika ini tidak cukup menyiksa, teknisi Google harus memberi kompensasi kepada pengguna yang tidak hanya berubah-ubah, tetapi juga tidak jelas tentang apa yang mereka inginkan; sering kali, mereka mengetik frasa yang ambigu atau kata yang salah eja.

Dulu, Google mengetahui bahwa pengguna yang mengetik “Brittany Speers,” misalnya, benar-benar mencari “Britney Spears.” Untuk mengatasi masalah tersebut, dibangun sebuah sistem yang memahami variasi kata. Begitu elegan dan kuatnya model itu sehingga dapat mencari halaman ketika hanya singkatan atau sinonim yang diketik.

Mr. Singhal menyombongkan bahwa kueri “Brenda Lee bio” mengembalikan halaman rumah resmi penyanyi, meskipun halaman rumah itu sendiri menggunakan istilah “biografi” – bukan “bio.”

Tetapi kata-kata yang tampaknya terkait terkadang tidak terkait. “Kami tahu ‘bio’ sama dengan ‘biografi,’” kata Mr. Singhal. “Nenek saya berkata: ‘Oh, ayolah. Bukankah itu jelas?’ Sulit untuk menjelaskan kepadanya bahwa bio berarti sama dengan biografi, tetapi ‘apel’ tidak berarti sama dengan ‘Apple.’yang

dilakukan oleh Google dan pesaing pencariannya terselubung dalam kerahasiaan. Dilihat dari hasil, perbedaan antara mesin pencari terkemuka tidak kentara, meskipun Danny Sullivan, spesialis pencarian veteran dan blogger yang menjalankan Searchengineland.com, mengatakan Google terus melampaui pesaingnya.

Yahoo sekarang mengembangkan formula pencarian khusus untuk bidang pengetahuan tertentu, seperti kesehatan. Microsoft telah bertaruh menggunakan teknik matematika untuk menentukan peringkat halaman yang dikenal sebagai jaringan saraf yang mencoba meniru cara otak manusia mempelajari informasi.

Penggunaan sinyal dan pengklasifikasi Google, sebaliknya, lebih berakar pada literatur akademis saat ini, sebagian karena pemimpinnya berasal dari akademisi dan laboratorium penelitian. Namun, Google telah mampu menyempurnakan dan memajukan ide-ide tersebut dengan menggunakan sumber daya komputer dan pemrograman yang tidak dapat dibeli oleh universitas mana pun.

“Orang-orang masih berpikir bahwa Google adalah standar pencarian emas,” kata Battelle. “Saus rahasia mereka adalah bagaimana orang-orang ini melakukan semuanya secara agregat. Ada 1.000 penyetelan kecil yang mereka lakukan.”  

Tinggalkan Komentar

Alamat email Anda tidak akan dipublikasikan. Ruas yang wajib ditandai *

Scroll to Top