cquest, French
@cquest@amicale.net avatar

Ce matin... deux BOT de scrapping pour alimenter des modèles d'IA/ ont abusé du forum d'@osm_fr

C'est pas la première fois et ça devient vraiment une plaie, surtout quand requête les URL de notre ancien , remplacé il y a plusieurs années par

Malgrès plus de 130 000 erreurs 404 rien que ce matin, il continuait à un rythme effréné...

Autre bot albert-bot... de albertai.com (rien avoir avec l'Albert cocorico), bloqué lui aussi.

ericfreyss,
@ericfreyss@mastodon.social avatar

@cquest les pages 404 vont alimenter le modèle :) effectivement mettre du contenu aléatoire à la place est peut-être une idée.

cquest,
@cquest@amicale.net avatar

La contre mesure prochaine à ce pillage pourrait bien être de répondre à ces bot de scrapping avec un contenu artificiel lui aussi, histoire d'emmerdifier les modèles qui seront entraînés avec.

Une sorte de honey-pot mais dédiée aux IA...

De quoi ressortir markovify, simple et léger pour ce genre de chose, car on ne va pas mobiliser trop de ressources pour ça non plus.

sebsauvage,
@sebsauvage@framapiaf.org avatar

@cquest
mmm... ça donne des idées pour les pages 404. 🤔

lord,
@lord@pleroma.lord.re avatar

@sebsauvage @cquest ils réagissent comment au gzip bomb ?

sebsauvage,
@sebsauvage@framapiaf.org avatar

@lord @cquest
Une gzip-bomb dans un 404 c'est pas très charitable, ça pourrait impacter de vrais internautes.

  • All
  • Subscribed
  • Moderated
  • Favorites
  • llm
  • rosin
  • DreamBathrooms
  • everett
  • magazineikmin
  • InstantRegret
  • ngwrru68w68
  • Youngstown
  • mdbf
  • slotface
  • vwfavf
  • tacticalgear
  • thenastyranch
  • kavyap
  • osvaldo12
  • provamag3
  • ethstaker
  • GTA5RPClips
  • khanakhh
  • Durango
  • tester
  • normalnudes
  • cisconetworking
  • modclub
  • cubers
  • anitta
  • Leos
  • megavids
  • JUstTest
  • All magazines