Reddit Gugat Perplexity Dan Perusahaan Lain Soal Data Scraping

2 bulan yang lalu

Telset.id – Bayangkan jika Anda mempunyai toko kelontong nan ramai dikunjungi pelanggan, lampau tiba-tiba ada pihak luar nan mengambil semua produk Anda tanpa izin dan menjualnya kembali. Kira-kira itulah afinitas sederhana dari apa nan sedang dialami Reddit saat menggugat Perplexity dan beberapa perusahaan teknologi lainnya. Platform forum terbesar di bumi ini resmi mengambil langkah norma terhadap SerApi, OxyLabs, AWMProxy, dan Perplexity atas dugaan scraping info tanpa lisensi.

Langkah legal ini bukanlah nan pertama bagi Reddit. Sebelumnya, mereka juga telah menggugat startup AI Anthropic nan dituduh menggunakan konten Reddit untuk melatih chatbot Claude-nya. Mengapa Reddit begitu garang melindungi datanya? Jawabannya sederhana: uang. Sejak 2023, Reddit mulai mengenakan biaya bagi perusahaan nan mau mengakses postingan dan konten lainnya, terutama nan bakal digunakan untuk training AI. Mereka apalagi telah menandatangani kesepakatan lisensi dengan raksasa teknologi seperti Google dan OpenAI, serta membangun mesin jawaban AI sendiri untuk memanfaatkan pengetahuan dalam postingan pengguna.

Scraping hasil pencarian untuk konten Reddit jelas menghindari pembayaran ini. Itulah sebabnya perusahaan tidak hanya menuntut tukar rugi finansial, tetapi juga pengaduan permanen nan mencegah perusahaan-perusahaan tersebut menjual materi Reddit nan sebelumnya telah di-scrape. Beberapa perusahaan nan menjadi sasaran Reddit seperti SerApi, OxyLabs, dan AWMProxy mungkin bukan nama nan familiar di telinga masyarakat umum, namun mereka telah menjadikan pengumpulan info dari hasil pencarian dan penjualannya sebagai bagian krusial dari upaya mereka.

Perplexity: Target Paling Mencolok dalam Gugatan

Keikutsertaan Perplexity dalam gugatan ini mungkin lebih mudah dipahami. Perusahaan AI ini memerlukan info untuk melatih modelnya, dan sebelumnya telah ketahuan menyalin dan memuntahkan kembali materi nan tidak mereka bayar lisensinya. nan lebih parah, Perplexity juga dilaporkan mengabaikan protokol robots.txt – langkah bagi situs web untuk mengkomunikasikan bahwa mereka tidak mau materinya di-scrape.

Menurut salinan gugatan nan diberikan kepada Engadget, Reddit sebelumnya telah mengirim surat peringatan kepada Perplexity memintanya untuk menghentikan scraping postingan tanpa lisensi. Perusahaan menyatakan tidak menggunakan info Reddit, namun mereka terus mengutip platform tersebut dalam jawaban dari chatbot-nya. Bagaimana Reddit membuktikan klaimnya? Dengan trik nan cukup cerdas.

Reddit membikin “test post” nan “hanya bisa di-crawl oleh mesin pencari Google dan tidak dapat diakses di mana pun di internet.” Dalam beberapa jam, kueri nan dibuat ke mesin jawaban Perplexity bisa mereproduksi konten postingan tersebut. “Satu-satunya langkah Perplexity bisa mendapatkan konten Reddit itu dan kemudian menggunakannya di ‘mesin jawaban’-nya adalah jika mereka dan/atau rekan tergugatnya meng-scrape Google

Selengkapnya