agora.fedi.cat

agora.fedi.cat

agorafedicat@hub.netzgemeinde.eu

Àgora de fedi.cat, on parlem del Fedivers, en català

Homepage:: https://agora.fedi.cat

Meta fa de les seves i 'scrapeja' molts nodes

2025-08-10 19:15:46

agora.fedi.cat

agorafedicat@hub.netzgemeinde.eu

Meta fa de les seves i 'scrapeja' molts nodes

Doncs, com no es podia saber, Meta (aka Facebook) porta molt de temps “scrapejant” les moltes webs conegudes i no tant per a entrenar la seva IA, saltant-se totes les convencions que hi ha (com per exemple el robots.txt). Ara s’ha filtrat una llista d’aquestes webs, aquí la notícia que ho explica (perdó pel Substack):

Bild/Foto

      dropsitenews.com




Bild/Foto

LEAKED: A New List Reveals Top Websites Meta Is Scraping of Copyrighted...

The tech giant is sidestepping guardrails that websites use to prevent being scraped, data show, in a move whistleblowers say is unethical and potentially illegal.







En aquesta llista s’hi troben moltes instàncies del fedivers (masto.es, mastodont.cat, etc.). Per sort no hi he trobat bcn.fedi.cat, però per la natura del fedivers, és molt probable que hagin obtingut les nostres publicacions des d’una instància que hi federi. Malauradament, poc podem fer per a evitar això.

Ara bé, per poc que això no és més que un joc del gat i el ratolí i qualsevol mesura que implementem per a bloquejar-los quedarà inutilitzada quan trobin com saltar-s’ho, crec que seria bo intentar aplicar alguna mesura extra a banda del robots.txt (que ara mateix bloca tota mena de bots). L’ @spla comentava que ha canviat la configuració del Nginx segons aquest model, que els hi retorna un error 444. Potser seria quelcom que podríem mirar de configurar aquí.

Bona tarda,

PS: no he sabut trobar un terme en català per a ‘scraping’, la Viquipèdia ho posa tal qual


2 publicacions - 2 participants

Llegeix tot el tema

FediMeta