themoonisacheese,
@themoonisacheese@sh.itjust.works avatar

Un peu en retard sur ce poteau mais ça vaut le partage:

J’ai été personellement responsable d’environ 140k€ de pertes dues à un arrêt de production dans une usine Tefal en Allemagne.

J’étais un sysadmin junior, dans une équipe chargée de mettre a jour tous les serveurs de toutes les usines Tefal dans le monde. Le process était évidemment très carré, pas la place a l’erreur et le mec qui avait construit le process savait ce qu’il faisait. La veille, je fais mes checks et je m’aperçois qu’un composant d’un des serveurs de l’usine est défaillant, donc j’applique le process en vigueur et j’annule l’opération le temps qu’un technicien dell remplace la pièce sous garantie. Je préviens le responsable IT du site pour qu’il lui ouvre la porte et l’amène aux serveurs, mais l’assistante administrative me répond pour me dire qu’il est en arrêt. Pas de soucis, il faut juste lui montrer le serveur et il fait son job, pas besoin de quelqu’un de qualifié.

Le technicien arrive, je fais la bascule des services vers l’autre serveur pour qu’il n’y ait pas d’interruption et j’éteins le serveur. Il me dit qu’il commence l’opération donc je met une alarme dans 30 min et je vais chercher un café. 30 minutes plus tard l’alarme sonne, ce qui est étrange parce que en général ils sont plus rapides que ça mais ça arrive, peut être qu’il est nouveau. J’envoie un message à l’assistante administrative qui me dit “tout va bien il a presque terminé, par contre c’est normal qu’on peut plus imprimer depuis une demi heure?”

Comment ça mon reuf? L’impression c’est pas juste imprimer des fiche de paie, c’est l’impression des cartons qu’ils mettent dans les produits de l’usine, donc la production est stoppée depuis 30 minutes. Branle bas de combat, je regarde les services et… La VM qui porte le serveur d’impression est en écran bleu. quand j’ai fait la bascule des services, le le systeme de partage de données sous-jacent n’a pas correctement basculé et il est dans un etat complètement eclaté.

Le technicien finit son intervention a ce moment là (ouf) et rebranche le serveur, mais maintenant c’est deja trop tard, le système de fichiers est a la ramasse, donc il faut le faire reconstruire (heureusement il y a une fonction pour ça). Temps restant estimé: 14 heures. L’assistante administrative me demande quand est-ce que l’impression reviendra parce qu’ils perdent 10k€/heure avec les employés qui sont au chômage technique en 3*8 et le manque de production.

Oups.

Au post mortem, on verra que finalement ce n’était pas ma faute, j’ai appliqué la procédure a la lettre et c’est le système de fichiers qui est nul (mais ca on le savait deja).

Au meme boulot, j’ai aussi eu l’éclair de génie pour résoudre un problème: faire tourner un serveur depuis une clé USB. Ça a marché du tonnerre pendant 3 semaines jusqu’à réception de la pièce.

Camus,
@Camus@lemmy.blahaj.zone avatar

J’ai parlé avec un pote hier, apparemment ils ont développé une barre de recherche pour trouver des adresses (parce que le management ne voulait pas utiliser d’API existantes) qui a coûté 120k €…

De toute façon le projet a l’air bien pété vu qu’ils ont voulu utiliser des Excels d’imports et d’exports plutôt que les API des fournisseurs de données (pour les vraies données, pas juste les adresses), bref, un cas d’école de mauvaise gestion de projet dans un secteur qui a trop d’argent…

Jakylla,
@Jakylla@jlai.lu avatar

(banque/assurance) On a reçu un mail d’un responsable clientelle qu’il comprenait pas pourquoi depuis quelques jours c’est bizarre, “un grand nombre” de ses clients en charge étaient identifiés comme suspectés de blanchiment d’argent.

En fait, depuis 2 semaines, le logiciel qui calculait les risques de blanchiments a fait passer en production un bout de code pour les tests, qui bypass de nombreuses opérations pour ignorer une partie du traitement pour accélérer les tests; mais ça a eu pour impact de modifier la valeur de suspicion de 80% de la clientèle (+Milions de personnes), et une très grande partie d’entre eux sont passé grâce à ça en suspicion élevée, et ont été reportés au service Nationaux et internationaux de blanchiment d’argent

(Bien sûr tout ça a été réglé, mais ça a foutu le bordel pendant 2 semaines, et la boite a du payer un petit pactol en amandes et dédomagements… à cause d’une ligne de code qui a esquivé relecture + pair + tests + recette + homologation et qui a fait exploser la prod)

Camus,
@Camus@lemmy.blahaj.zone avatar

Ouch, ça a dû piquer

Jakylla,
@Jakylla@jlai.lu avatar

Aucune idée, j’étais consultant uniquement

Tout ce que je sais c’est que même après ça, on nous a encore refusé d’avoir un environnement de test plus proche d’une production, semble que de tester en conditions réelles ou presque avant de livrer c’est trop cher même en considérant ce qu’il s’est passé

Camus,
@Camus@lemmy.blahaj.zone avatar

Bordel, pourtant vu l’ampleur du truc ça aurait dû justifier un environnement plus proche…

Enfin bon, coup classique

Skunk,

Il y a un peu plus d’une dizaines d’années, la technologie aéronautique était bien ancienne, du genre les communications sol/sol passaient par des lignes RS232 et pas du lan tcp/ip.

Du coup, 1 liaison de donnée = 1 port physique sur la machine et en cas de problème c’était plutôt simple, tu reboot le port concerné et ça repart.

Le serveur principal et toutes les stations de travail principales étaient néanmoins en lan, donc 1 port RJ45 avec tout dessus.

Un collègue, un peu fatigué, s’est trompé de port et au lieu de déconnecter l’interface byte numéro bla-bla-bla a déconnecté l’unique interface Lan du serveur. L’interface qui te permet de contrôler l’entièreté du système…

Sans surprises, tout les écrans passent en erreur, tous les systèmes autour hurlent à la mort car ils ont perdus la connexion avec le point central de 100% des télécommunications aéro. Plus de plans de vols, plus de météo, plus de corrélation radar et le tout en début de soirée quand les techniciens de piquet sont chez eux en train de manger et que le trafic est élevé avec toutes les compagnies qui rentre à la base avant la fermeture nocturne.

1h30 de presque fermeture du ciel à cause d’un missclick. Oups 🤷🏻‍♂️

Edit: Dans le même genre en plus marrant c’est que déjà 2 fois nous avons ruiné les tableaux d’affichage dans les aéroports (les immenses tableaux noirs dans le hall départ) car nous avions répété par accident des messages trop anciens. Ça fait des passagers en panique et des clients aéroportuaires par content 🙂

Camus,
@Camus@lemmy.blahaj.zone avatar

Oucccch

Penguin_Rocket,
@Penguin_Rocket@lemmy.ml avatar

Il y a eu des conséquences par la suite ? Un renvoi pour faute grave par exemple ?

Skunk, (edited )

Non, en fait c’est exactement la réponse de just_chill. En aero il y a la “just culture” qui en gros dit; tant qu’une erreur n’est pas volontaire, elle n’est pas punie.

C’est une culture d’entreprise utilisée dans le nucléaire, l’aéronautique, la santé et d’autres domaines un peu sensibles où des vies sont potentiellement en jeu.

Donc dans le cas présent, si le système (informatique ou “le système” dans sa globalité, genre le fonctionnement de l’entreprise) te laisse faire une erreur il faut donc revoir le système ? La planification (pour éviter la fatigue du gars) ? La formation ? La charge de travail ou quantité de stress ?

Bref, une erreur, si elle est non volontaire, est vue comme une opportunité d’amélioration car le mot d’ordre de ce type de business est “safety first”.

Ça encourage les rapports fait par les employés pour dénoncer ce qui ne va pas (sans punitions). En fait si tu as suivi le cas Boeing ces dernières années, c’est tout le contraire de ce qu’ils ont fait, ou c’est plutôt ce qu’ils auraient normalement dû faire mais n’ont pas fait.

Donc non, pas de renvois, mais une refonte de l’interface graphique du logiciel et des droits d’accès différents selon les usages.

La faute grave aurait été “je vais faire exprès de tout casser (ou essayer de crasher un avion) car j’en ai ras le cul de ma boîte, ma vie etc et en plus j’ai la gueule de bois”. La oui t’es mort, c’est pénal sans aide juridique de ton boss…

Penguin_Rocket,
@Penguin_Rocket@lemmy.ml avatar

Hyper intéressant ! Merci pour ton explication

just_chill,

Je me demande si tu peux justifier “faute grave” si tu es à un missclick de la catastrophe. Il faudrait probablement construire un système avec un peu plus de précautions que ca, que l’utilisateur ait la possibilité de confirmer 3 fois avec un mot de passe avant de tout couper.

Skunk,

Exactement, c’est ce que j’ai répondu juste au dessus, c’est brièvement expliqué sur Wikipedia en.m.wikipedia.org/wiki/Just_culture

vorpuni,
@vorpuni@jlai.lu avatar

Un déraillement d’une rame qui a coûté une fortune en réparations, causée par des erreurs de plusieurs personnes et une procédure défaillante, pas de blessés. Ce n’est pas sorti dans la presse ni rien. Et ce n’était pas le premier déraillement qui a foutu le bordel sue cette période, l’autre était imputable à la voie et a causé le garage, expertise, cannibalisation puis réforme de la rame concernée. Les détails ce sera quand ce sera prescrit mes clauses de confidentialité et autres.

Sphks,
@Sphks@lemmy.dbzer0.com avatar

Je bossais dans une entreprise qui montait des dossiers de projets d’innovation. Des dossiers pour débloquer des budgets de l’ordre du million d’euros.

On gérait des dossiers concurrents les uns envers les autres. La date de remise de dossiers était la même pour tous. La dernière semaine on se retrouvait à gérer des “merge” de documents venant de tous les sens. C’était fait et nettoyé à la main (et c’était pour ça qu’on faisait appel à nous). On était en très gros rush deux fois une semaine par an.

Pendant un rush, sur l’espace partagé d’un projet, j’ai écrasé le dossier par celui d’un autre projet. J’ai dévoilé tout d’un projet à un projet concurrent. Oups.

Camus,
@Camus@lemmy.blahaj.zone avatar

Oups ha ha

just_chill,

Le type qui commande 200 ou 300 unités, destinées à l’export au Cameroun si je me souviens bien, de toute urgence on a des délais et avec le transport vous comprenez, vous me feriez pas un prix pour une telle quantité ?
Et il se plante dans la couleur comme le dernier des débutants.

Camus,
@Camus@lemmy.blahaj.zone avatar

Ouch

just_chill,

Heureusement ils s’en sont rendus compte pendant le transit à Paris, mais l’appel qui a suivi a été désagréable pour tout le monde.

Snoopy,
@Snoopy@jlai.lu avatar

Dans l’autoconstruction. On avait construit un escalier. et il n’avait pas de garde-corps. J’ai insisté pour qu’on les construise meme si c’était une zone interdite au public, on est jamais à l’abris d’une maladresse, d’une chute. ya aussi les chutes de perches lors du démontage des yourtes, de la sciure de bois sans masque pour les toilettes sèches ect…Bref, mettez des EPI.

Camus, (edited )
@Camus@lemmy.blahaj.zone avatar

Un jour, la compta a payé le salaire une fois de trop. Ils s’en sont immédiatement rendu compte, et ont demandé à tout le monde de rembourser, certains ont hésité à poser leur démission immédiatement ha ha

Sphks,
@Sphks@lemmy.dbzer0.com avatar

D’habitude ils payent zéro fois ?

Camus,
@Camus@lemmy.blahaj.zone avatar

Je ne vois pas de quoi tu parles

  • All
  • Subscribed
  • Moderated
  • Favorites
  • forumlibre@jlai.lu
  • ngwrru68w68
  • DreamBathrooms
  • thenastyranch
  • magazineikmin
  • InstantRegret
  • GTA5RPClips
  • Youngstown
  • everett
  • slotface
  • rosin
  • osvaldo12
  • mdbf
  • kavyap
  • cubers
  • megavids
  • modclub
  • normalnudes
  • tester
  • khanakhh
  • Durango
  • ethstaker
  • tacticalgear
  • Leos
  • provamag3
  • anitta
  • cisconetworking
  • JUstTest
  • lostlight
  • All magazines