Meta fa de les seves i 'scrapeja' molts nodesDoncs, com no es podia saber, Meta (aka Facebook) porta molt de temps “scrapejant” les moltes webs conegudes i no tant per a entrenar la seva IA, saltant-se totes les convencions que hi ha (com per exemple el
robots.txt
). Ara s’ha filtrat una llista d’aquestes webs, aquí la notícia que ho explica (perdó pel Substack):
dropsitenews.com
The tech giant is sidestepping guardrails that websites use to prevent being scraped, data show, in a move whistleblowers say is unethical and potentially illegal.
En aquesta llista s’hi troben moltes instàncies del fedivers (masto.es, mastodont.cat, etc.). Per sort no hi he trobat bcn.fedi.cat, però per la natura del fedivers, és molt probable que hagin obtingut les nostres publicacions des d’una instància que hi federi. Malauradament, poc podem fer per a evitar això.
Ara bé, per poc que això no és més que un joc del gat i el ratolí i qualsevol mesura que implementem per a bloquejar-los quedarà inutilitzada quan trobin com saltar-s’ho, crec que seria bo intentar aplicar alguna mesura extra a banda del robots.txt (que ara mateix bloca tota mena de bots). L’
@spla comentava que ha canviat la configuració del Nginx segons
aquest model, que els hi retorna un error 444. Potser seria quelcom que podríem mirar de configurar aquí.
Bona tarda,
PS: no he sabut trobar un terme en català per a ‘scraping’, la Viquipèdia ho posa tal qual
2 publicacions - 2 participants Llegeix tot el tema