Lisa's blog: March 2020

Web Crawler dan Routing Protocols

Kelompok 4
1. Crislie Santoso / 51418581
2. Dewi Irwan / 51418817
3. Lisa Angeline / 53418803
4. Nabila Suraya / 55418085
5. Ronald Leonardo P. / 56418357
6. Windy Aulia / 57418364

Pengertian Web Crawler
Web Crawler ( web spider )memiliki tugas untuk meng-crawl (merayapi) seluruh informasi dari suatu website.
Spider akan menggali seluruh data dari suatu website termasuk didalamnya komponen website seperti : meta data, keywords dan lain sebagainya. Kemudian web spider akan mengumpulkan atau mengindeks seluruh website ke dalam data base search engine. Sampai pada akhirnya halaman website akan di tampilkan pada Search Engine Result Page (SERP).
- Proses web crawler dalam mengunjungi setiap dokumen web disebut web crawling atau spidering. Web crawler termasuk kedalam bagian software agent atau yang lebih dikenal dengan istilah program bot
- Sederhananya seperti ini : Ketika Anda mengetikkan query atau kata kunci pada search engine, mesin akan mencari database index dan memberikan daftar halaman web yang sesuai dengan kriteria yang Anda cari.
Cara Web Crawler Bekerja

Secara umum crawler memulai prosesnya dengan memberikan daftar sejumlah alamat website untuk dikunjungi, disebut sebagai seeds. Setiap kali sebuah halaman webdikunjungi, crawler akan mencari alamat yang lain yang terdapat didalamnya dan menambahkan kedalam daftar seeds sebelumnya. Proses ini akan terulang lagi di link selanjutnya dan bisa terus berjalan tanpa henti.

Dalam web crawling untuk melakukan crawling ada 3 hal yang harus di pertimbangkan :

1. Seberapa Penting dan Relevan Suatu Halaman

Web crawler tak serta merta mengindeks semua yang ada di internet. Ia menentukan halaman mana yang perlu crawling, berdasarkan jumlah halaman lain yang menaruh link ke halaman tersebut dan jumlah pengunjung ke sana.

Jadi, apabila suatu halaman muncul di banyak halaman lain dan mendapatkan pengunjung yang tak sedikit, kemungkinan besar halaman itu memang penting.

Halaman penting ini biasanya berisi konten atau informasi yang dibutuhkan oleh banyak orang, sehingga mesin pencari pasti akan memasukkannya ke indeks agar orang-orang lebih mudah mengaksesnya.

2. Kunjungan Rutin

Konten-konten yang ada di internet itu selalu berganti setiap detiknya. Entah karena update, dihapus, atau dipindah ke tempat lain. Maka dari itu, web crawler perlu untuk mengunjungi berbagai halaman website secara rutin agar memastikan versi terakhir halaman tersebut yang ada di indeks.

Apalagi kalau halaman itu merupakan halaman yang penting dan banyak pengunjungnya, ia dipastikan akan sering melakukan kunjungan ulang yang rutin ke sana.

3. Menuruti Keinginan Robots.txt

Web crawler juga menentukan halaman mana yang perlu crawling berdasarkan keinginan robots.txt. Jadi sebelum crawling ke suatu website, ia akan mengecek robots.txt dari website itu terlebih dahulu.

Robots.txt ini merupakan file di sebuah website yang berisi informasi mengenai halaman mana yang boleh diindeks dan halaman mana yang tak boleh.

Fungsi Web Crawler / Web Spider
- Web crawler biasa digunakan untuk membuat salinan sebahagian atau keseluruhan halaman web yang telah dikunjunginya agar dapat diproses lebih lanjut oleh system pengindeksan.
- Pemeliharaan website . Contoh : memvalidasi kode html sebuah web.
- Memperoleh data . Contoh : mengumpulkan alamat email, data untuk statistic, dan lain-lain
- Membandingkan Harga .Contoh : Saat Anda mencari suatu produk, harga produk tersebut akan langsung muncul tanpa perlu masuk ke website penjualnya.
Contoh Web Crawler

Setiap mesin pencari yang ada di Internet memiliki web crawler-nya sendiri. Oleh karena itu, jika Anda melakukan pencarian dengan keyword yang sama di mesin pencari lain akan menghasilkan hasil yang berbeda pula.

Beberapa web crawler lain selain Googlebot adalah Bingbot dari Bing, Slurp Bot dari Yahoo, DuckDuckBot dari DuckDuckGO, Alexa Crawler dari Amazon.
Crawling Policies (Kebijakan Perayapan)

1. Kebijakan Pemilihan : Yang menyatakan halaman untuk diunduh.

2. Kebijakan Kunjungan Ulang : Yang menyatakan kapan memeriksa perubahan pada halaman.

3. Kebijakan Kesopanan : Yang menyatakan bagaimana menghindari kelebihan situs web.

4. Kebijakan Paralelisasi : Yang menyatakan cara mengoordinasikan perayap web terdistribusi.

Routing Protocols

1. Routing Information Protocol (RIP)

Menggunakan algoritma “distance vector”.

Metric yang dilakukan pada protokol ini berdasarkan hop count untuk pemilihan jalur terbaik.

Jika hop count lebih dari 15, maka paket datagram akan dibuang dan tidak diteruskan.

Update routing table pada protokol ini akan dilakukan secara broadcast setiap 30 detik.

2. Interior Gateway Routing Protocol (IGRP)

Menggunakan algoritma “distance vector”.

Memiliki hop maksimum 255, tetapi default dari protokolnya sendiri adalah 100.

Menggunakan bandwidth dan garis menunda secara default untuk menentukan rute terbaik dalam sebuah interkoneksi.

Update routing pada protokol ini dilakukan secara broadcast setiap 90 detik.

3. Open Short Path First (OSPF)

Cocok diterapkan pada jaringan yang memiliki router yang berbeda-beda.

Jika jaringan yang dikelola adalah jaringan besar, maka OSPF adalah pilihan protokol satu-satunya agar semua router tersebut bisa melakukan routing.

Update routing table pada protokol ini dilakukan secara floaded saat terjadi perubahan topologi jaringan

4. Enhanced Interior Gateway Routing Protocol (EIGRP)

Menggunakan algoritma “advanced distance vector” dan menggunakan “cost load balancing” yang tidak sama. Algoritma yang dipakai adalah kombinasi antara “distance vector” dan “link-state”.

Menggunakan Diffusing Update Algorithm (DUAL) untuk menghitung jalur terpendek.

Broadcast-broadcast EIGRP di-update setiap 90 detik ke semua router EIGRP yang berdekatan.

5. Border Gateway Protocol (BGP)

Memiliki kemampuan untuk melakukan pengumpulan rute, pertukaran rute dan menentukan rute terbaik menuju ke sebuah lokasi dalam sebuah jaringan.

Termasuk ke dalam kategori routing protocol jenis Exterior Gateway Protocol (EGP).

Update informasi pada protokol ini akan dikirim melalui koneksi TCP.

Kelebihan dari protokol ini adalah instalasi yang sangat sederhana.

6. Intermediate System-to-Intermediate System (IS-IS)

Digunakan pada perangkat jaringan komputer yang berguna untuk menentukan jalur terbaik bagi datagram ketika diarahkan ke tujuan

Sumber :

https://www.blogmashendra.com/2014/05/pengertian-dan-fungsi-web-crawler.html

https://www.niagahoster.co.id/blog/apa-itu-web-crawler/

Lisa's blog

Tuesday, March 31, 2020

Pengantar Web Science : Web Crawler dan Routing Protocols

lisaangeline412