Web Archiving Yang Terawetkan
Tugas Softskill
Assalamu’alaikum..
Sesuaijanji saya yg sebelumnya telah Membahas Apa itu Web Crawler, namun kali ini aku serta teman teman akan akan melanjutkan membahas mengenai Apa Itu Web Archiving. Ada yg tau ga Web Archiving itu apa ? Jikalau diterjemahain pake bahasa indonesia sih PengarsipanWeb. Maksudnya pengarsipan itu setau saya kita mengelompokkan web tersebuthingga tersusun rapih. Nah untuk mengetahui lebih lanjut apa itu Web Archiving, simak dibawah ini ya.. :
Apa itu Web Archiving ?
Web Achiving atau pengarsipan adalah proses pengumpulan bagian dari World Wide Web (WWW)buat memastikan liputan yg diawetkan pada arsip bagi para peneliti dimasa depan, sejarawan, serta masyarakat generik. Web terbesar pengarsipan organisasiberdasarkan pendekatan merangkak massal adalah Internet Archive yang berusahauntuk memelihara file menurut semua Web Perpustakaan Nasional , Arsip Nasional danberbagai konsorsium organisasi pula terlibat pada pengarsipan konten Webbudaya krusial. Web komersial pengarsipan software tersedia untukorganisasi yang perlu arsip konten web.
Pengumpulan Web
Arsiparisweb umumnya biasanya mengumpulkan file banyak sekali jenis konten web termasuk HTMLhalaman web, style sheet , JavaScript , gambar , serta video yg . Mereka jugaarsip metadata mengenai sumber daya dikumpulkan misalnya waktu akses, tipe MIME ,serta panjang konten. Metadata ini berguna pada menciptakan keaslian serta berasal darikoleksi arsip. Jangan lupa tak begitu saja arsiparis mengumpulkan file yangbegitu poly adanya, tentu saja ada metode-metodenya.
*maksudnya arsiparisdiatas adalah orang yg mengelola, memelihara, serta menaruh fakta suatudokumen/arsip. Oke silahkan simak metode dibawah ini :
Metode Pengumpulan web
1.jauhpanen
Yangpaling umum teknik web pengarsipan bekerja sama dengan web crawler untukmengotomatisasi proses pengumpulan laman web . Web crawler umumnya mengakseshalaman web dengan cara yg sama bahwa pengguna dengan browser melihat Web,dan karenanya menyediakan metode yg nisbi sederhana konten web panen jauh.contoh web crawler digunakan buat web pengarsipan meliputi:
•Heritrix
•HTTrack
•Wget
2.on-Demand
Adabanyak layanan yg dapat dipakai buat sumber file web"on-demand", tetapi memakai teknik web merangkak. Layanannyaseperti berikut :
•Aleph Arsip ,layanan pengarsipan web buat kepatuhan terhadap peraturan serta eDiscoverybertujuan buat perusahaan industri aturan serta pemerintah.
•Archive.is , sebuah layanan gratis yg menyimpan halamandan semua gambar nya. Hal ini dapat menyimpan halaman Web dua.0.
•Arsip-It ,sebuah layanan berlangganan yang memungkinkan lembaga untuk menciptakan,mengelola serta mencari file web mereka sendiri.
•Archivethe.net , shared web-platform pengarsipan dioperasikanoleh Internet Research Memory, spin-off berdasarkan memori internet dasar (sebelumnyaYayasan Arsip Eropa). IM Situs Web.
•Kepatuhan WatchDogoleh SiteQuest Teknologi , sebuah layanan berlangganan yang memungkinkan penggunauntuk menelusuri situs , seperti yangmuncul pada masa lalu. Hal ini pula memonitor situs apabila disitus tersebutterdapat perubahan.
•Snapshot freezePAGE, sebuah layanan perdeo / berlangganan. Untuk melestarikan snapshot.
•NextPoint ,memberikan berbasis cloud otomatis, buat kebutuhan terkait pemasaran,kepatuhan serta litigasi termasuk penemuan elektronik
•Situs-Archive.com ,layanan berlangganan. Menangkap layar-tembakan halaman, transaksi danperjalanan pengguna menggunakan "browser yang sebenarnya".layar-tembakan bisa dipandang secara online atau download pada file bulanan.menggunakan Pengujian Cloud teknologi.
•Dll, karnapenyedia layanan situs archive ini sangatlah banyak.
Database Pengarsipan
Databasepengarsipan mengacu pada metode buat pengarsipan konten yg mendasari situsdatabase-driven. Hal ini umumnya memerlukan ekstraksi dari basis data kontenke standar skema , tak jarang memakai XML . Setelah disimpan dalam formatstandar, konten diarsipkan beberapa database kemudian bisa dibentuk tersediamenggunakan sistem akses tunggal. Pendekatan ini dicontohkan sang DeepArc danXinq alat yg dikembangkan oleh Bibliotheque nationale de France serta NationalLibrary of Australia.
Transaksionalpengarsipan
Transaksionalpengarsipan merupakan pendekatan-event, yg mengumpulkan transaksi aktual yangterjadi antara server web serta browser web . Hal ini terutama dipakai sebagaisarana melestarikan bukti dari isi yang sebenarnya dilihat dalam tertentu situsweb , dalam lepas tertentu.
Sebuahsistem pengarsipan transaksional umumnya beroperasi menggunakan mencegat setiapHTTP request ke, serta respon berdasarkan, web server, penyaringan setiap respon untukmenghilangkan duplikat konten, serta secara permanen menyimpan tanggapan sebagaibitstreams. Sebuah sistem pengarsipan transaksional membutuhkan instalasiperangkat lunak pada server web, serta karena itu nir bisa digunakan untukmengumpulkan konten berdasarkan situs remote.
Crawler
Webarsip yg mengandalkan web merangkak sebagai wahana primer mereka mengumpulkanWeb dipengaruhi oleh kesulitan merangkak web :
•Para robot protokol pengecualiandapat meminta crawler tidak dapat mengakses bagian berdasarkan sebuah situs web.
•Sebagian besar darisebuah situs web mungkin tersembunyi pada dalam Web . Misalnya, halaman hasilbalik formulir web terletak pada dalam Web karena kebanyakan crawler nir bisamengikuti link ke laman output.
•Perangkap Crawler,bisa mengakibatkan crawler untuk men-download jumlah tidak terbatas page,sehingga crawler umumnya dikonfigurasi untuk membatasi jumlah laman bergerak maju sehinggatidak pesat kemajuannya.
Namun,krusial buat dicatat bahwa format webarsip asli, yaitu, dibrowse file web sepenuhnya, menggunakan link kerja, media,dll, hanya sahih-sahih mungkin memakai teknologi crawler.
Keterbatasan Umum
Tidakhanya wajib arsiparis web menghadapi tantangan teknis web pengarsipan, merekajuga harus berhadapan menggunakan aturan kekayaan intelektual. Peter Lyman menyatakanbahwa "Meskipun Web Yang PopulerDianggap Sebagai Domain Publik Sumber Daya, Itu Hak Cipta , Dengan Demikian,Arsiparis Tidak Memiliki Hak Legal Untuk Menyalin Web ". Namunperpustakaan nasional pada poly negara mempunyai hak legal buat menyalinbagian-bagian menurut web di bawah perpanjangan deposito aturan .
Beberapaarsip web nirlaba swasta yang dibuat dapat diakses publik misalnya WebCite ,yg Internet Archive atau memori internet memungkinkan pemilik konten untukmenyembunyikan atau menghapus konten diarsipkan bahwa mereka tidak ingin publikuntuk memiliki akses ke. Arsip web lainnya hanya bisa diakses dari lokasitertentu atau memiliki penggunaan diatur. WebCite mengutip gugatan baruterhadap caching Google.
Aspek Kurasi Web (menambahkan nilai serta menentukan hanya konten yg paling relevan untukpengguna khusus)
Web yang memiliki kurasi,seperti kurasi digital, harus mempunyai misalnya :
•Sertifikasi agama serta integritas isi koleksi
•Mengumpulkan aset Web diverifikasi
•Menyediakan pencarian aset Web serta pengambilan
•Kontinuitas semantik serta ontologis serta komparatif dari isikoleksi
Dengandemikian, di samping membahas metode pengumpulan Web, mereka memberikan akses,sertifikasi, serta pengorganisasian wajib disertakan. Ada satu set indera populeryang membahas langkah-langkah kurasi :
Sebuah suite alat untukWeb Kurasi oleh International Internet Preservation Consortium :
•Heritrix - situsresmi - mengumpulkan aset Web
•NutchWAX -pencarian Web file koleksi
•Wayback (Opensource Wayback Machine) pencarian koleksi file Web menggunakan NutchWax
•Web Kurator Alat- Seleksi serta Pengelolaan Web Collection
•dll .
Sampaidisini dulu ya pembahasan tentang WebArchiving nya.. Bila ada istilah-kata yg salah mohon dimaafkan.. Nantikanpembahasan lainnya ya tentang Analisis Web serta Search Engine.. Terima kasih... ^^
Tim Kami :
1. Ayu Amizah ( 51411317 )
dua. Mahdhika Juliansyah ( 54411246 )
3. Muhammad Faris Al Fatih ( 54411827 )
4. Rachman Aji Putra Kusumaa ( 58411572 )
lima. Tio Pratama Agung ( 57411119 )
Wassalamu'alaikum...