scy, German
@scy@chaos.social avatar

Nachdem mir heute gesagt wurde, ich sei "so gut mit Linux", erzähl ich euch mal, wie ich meinen Nachmittag verbracht habe. Thread! 🧵

Wenn ihr mögt, gebt Ratschläge, aber wundert euch nicht, wenn ich nicht reagiere. Bin angenervt.

Ich habe nen Fujitsu ScanSnap S1300i Duplex-Einzugscanner. Früher hab ich unter Windows den proprietären Treiber benutzt, um in PDFs zu scannen, mit OCR. Wenn ich mal nen Kassenzettel scanne, erkennt die Software das und macht automatisch ein sehr schmales PDF daraus.

tuxflo,
@tuxflo@chaos.social avatar

@scy I feel your pain. Ich habe mit einem ix1500 genau das gleiche Dilemma. Mein Hauptproblem: das Ding kann nicht einfach auf einen SMB (oder NFS, FTP oder sonst was im lokalen Netz) scannen. Es ist immer ein verfluchte Rechner (oder VM) notwendig. Ich betreibe demnach auch eine Windows VM nur für die Scansnap Software 😒

ROMSY,

@scy
Nice. Ich habe auch noch ne Scansnap, welcher an ne Linuxmaschine soll. Ich Speicher mir deinen thread mal für morgen. Vlt erspardt du mir die Arbeit von der du hier berichtest 😁

scy,
@scy@chaos.social avatar
scy,
@scy@chaos.social avatar

Jetzt benutze ich aber inzwischen Linux als Daily Driver. Also den Scanner unter Debian 12 zum Laufen gebracht. Ging halbwegs problemlos: SANE installieren, Firmwareblob ausm Internet klauen, an die falsche Stelle legen, ne halbe Stunde debuggen, an die richtige Stelle legen.

Scannen.

So weit, so gut. Ich kann mit scanimage ein PNM scannen. Automatische Erkennung der Seitenbreite kann der Treiber nicht. Scanbutton am Gerät wird auch nicht unterstützt. Und ich will ja PDFs.

scy,
@scy@chaos.social avatar

Also ein bisschen was an Scansoftware ausprobiert. Simple Scan ist einfach, aber vielleicht ein bisschen zu einfach. gscan2pdf wirkt umfangreich, aber das UI ist örks. Automatische Seitenbreite können beide nicht, nur manuelles Cropping wie so'n Höhlenmensch.

Der Treiber exposed aber keine Möglichkeit zum automatischen Cropping. Evtl macht das unter Windows gar nicht der Scanner, sondern die Software.

Was gibt's denn da für Möglichkeiten unter Linux? schmeißt ne Suche an

Aha, "unpaper".

scy,
@scy@chaos.social avatar

Unpaper scheint ein Biest von Software zu sein, designed von und für Leuten, die antike Folianten und Schriftrollen digitalisieren. Du kannst dem Ding ne Doppelseite von nem auf nen Flachbettscanner geflanschten Buch geben und es extrahiert von dort die beiden Seiten Text als einzelne Files. Zudem zieht es den Text gerade und macht diverse Nachbearbeitungen.

Wenn du gewillt bist, das alles zu konfigurieren.

Von Hand.

Als Kommandozeilenparameter.

uliwitness,
@uliwitness@chaos.social avatar

@scy 😅

smrqdt,
@smrqdt@chaos.social avatar

@scy du kannst mal gucken, ob OCRmyPDF kann, was du suchst, das ist ein Python-Tool, das u.A. auch unpaper integriert https://ocrmypdf.readthedocs.io/en/latest/introduction.html

scy,
@scy@chaos.social avatar

Don't get me wrong, ich liebe Arbeit auf der Kommandozeile. Mein präferierter Editor ist Neovim, für Dateimanagement nehm ich manchmal Ranger, und mein liebster Mailclient ist Neomutt.

Aber, äh, nen Scan nachbearbeiten? Selbst ich seh ein, dass das dann halt doch vielleicht ein bisschen eine … visuellere Aufgabe ist.

Hab ich gerade Zeit und Nerv, mich in unpaper einzuarbeiten? Nee. (Foreshadowing: Hätte ich mal lieber.)

Also überlege ich, was meine Alternativen sind.

scy,
@scy@chaos.social avatar

Okay, was wäre, wenn ich einfach weiterhin unter Windows scanne? Das mach ich seit Jahren, der Workflow funktioniert, die PDFs die rauskommen sind zugeschnitten und scharf und nicht übermäßig groß.

Aber, und jetzt kommt das zweite Requirement: Am Ende soll das alles in Paperless-ngx landen. Das ist ne Webapplikation. Die muss natürlich auf irgendeinem Server laufen.

Habe ich daheim gerade nen Server, auf dem ich das laufen lassen könnte?

[sehr langes, beschwerliches, resigniertes Seufzen]

scy,
@scy@chaos.social avatar

Jaja, es gibt hier nen Heimserver. Aber der macht abenteuerliches Routingzeugs. Und womit verträgt sich abenteuerliches Routingzeugs nicht?

Mit Docker.

Der präferierten Installationsmethode von Paperless.

Ich hab auch noch ne andere Kiste, die ich nutzen könnte, aber die wollte ich "diesmal sauber™" aufsetzen, also mit Ansible oder Salt oder sowas. Salt kann ich, zu Ansible will ich evtl. wechseln, aber ich kann's noch nicht, und jetzt ist nicht die beste Zeit, sich darin einzuarbeiten.

scy,
@scy@chaos.social avatar

Ich könnte nen Raspberry Pi nehmen. Fahren hier noch welche rum.

Also hol ich einen, und dann fällt mir auf: Alle freien Switchports sind auf irgendwelche obskuren VLANs konfiguriert, so dass ich auf den Pi wahrscheinlich gar nicht richtig zugreifen könnte. Ich müsste also erst die VLANs umstricken.

Ughhhh, das VLAN-Setup zu dokumentieren schieb ich jetzt auch schon zwei Jahre vor mir her.

Och nee, da hab ich jetzt keinen Nerv für. Was hab ich denn sonst noch an Optionen?

scy,
@scy@chaos.social avatar

Ich könnte Paperless einfach auf meinen Laptop packen. Aber das ist derselbe Laptop, der in das Windows dualbootet, das ich zum Scannen verwenden will. Also muss ich entweder in Windows booten, scannen, dann in Linux booten und den Kram in Paperless einpflegen – oder aber ich installiere Paperless unter Windows.

[Windows-Bootgeräusch]

scy,
@scy@chaos.social avatar

Okay, Docker unter Windows. Da gammelt noch ne alte Installation "Docker for Desktop" rum. Schau mer doch mal, ob die noch startet.

"ohai, schön dass du mich aus meinem jahrelangen Schlummer erweckst. Lass mal updaten, Keule."

Na gut, das Ding hat wahrscheinlich eh schon zwei Jahre Sicherheitslücken angehäuft. Update geht klar.

"Damit ich funktioniere, muss ich Hyper-V aktivieren. Geht das klar? Danach tut aber VirtualBox nicht mehr."

Uggghhhhhh

scy,
@scy@chaos.social avatar

Na fein, VirtualBox auf dem Windows brauch ich eh nicht mehr, seit der Laptop auch Linux im Dualboot hat. Dann mach halt.

(Docker updated zehn Minuten.)

"Du musst neu starten."

Ja, passt, ist ja schließlich Windows hier. Start ich also neu.

Nach dem Neustart ist überraschenderweise noch nix kaputt gegangen. Cool. Dann jetzt also Paperless installieren?

Docker so: "Du hast hier noch WSL1 laufen. Ich brauch aber WSL2. Soll ich ein Update für dich anstoßen?"

Um Himmels Willen, bloß nicht!

falk_,
@falk_@chaos.social avatar

@scy Du hast da ein sehr haariges Yak.

scy,
@scy@chaos.social avatar

Ich benutz(t)e WSL1 auf der Maschine seit es WSL gibt. Mein Ubuntu-unter-Windows war das erste Fenster, das ich nach dem Booten aufgemacht habe, und das letzte, das ich vor dem Shutdown geschlossen habe.

Ich hab in WSL gelebt. Tage mit dem YubiKey-GPG4Win-OpenSSH-Setup verbracht. Ich will erst alles an Wissen und Setup und zwei Bildschirmseiten uncommittetes "git status" aus dem WSL1 raustragen bevor ich da ein Update mache. Sorry, das ist mir viel zu riskant.

Also: Docker? Sackgasse.

scy,
@scy@chaos.social avatar

Gut. Wenn der Berg nicht zum Propheten oder wasauchimmer … wie wär's, wenn ich wieder zurück in Linux boote, dort eine Windows-VM aufsetze, und dann in dieser Windows-VM scanne?

Also mal fix ne Windows-10-ISO bei Microsoft besorgt uuuund zurück in Linux.

virt-manager installiert, VM erstellt, ISO booten.

"Hi! I am Cortana!"

Ich hatte es verdrängt.

entfernt die Soundkarte aus der Windows-VM

Mitten in der Installation Windows dann so "okay, was ist denn dein Microsoft-Account?"

moemoe,
@moemoe@chaos.social avatar

@scy Den Spaß hatte ich vor ein paar Tagen auch, als ich eine VM für ETS6 brauchte. Es ist einfach nur noch schlimm nervig.

scy,
@scy@chaos.social avatar

Grml … ich habe einen Microsoft-Account, und der hat auch eine Windows-Lizenz. Für das Windows, das bare metal auf diesem Laptop läuft, aber sie werden ja nie beide gleichzeitig laufen.

Rein rechtlich sollte das also alles okay sein, aber ich hab wenig Bock, dass dann eins von beiden irgendwann aussteigt und ich irgendein Callcenter anrufen muss um mit denen rumzudiskutieren. Bitlocker hat letztens schon beim Booten den Recovery-Key gewollt, weil ich "ein USB-Gerät" angeschlossen habe.

scy,
@scy@chaos.social avatar

Kann man den Quark also irgendwie umgehen?

Stellt sich raus: Ja. Easy. Zieh der VM ihr virtuelles Netzwerkkabel. Schon lässt dich Windows ohne Mucken einen lokalen Account erstellen.

Du musst ihm dann aber auch drei Sicherheitsfragen und -antworten verpassen.

Ein paar Reboots später habe ich ein funktionierendes Windows. Es frisst im Leerlauf 10 % CPU, keine Ahnung ob es via QEMU statt Hardware-Virtualisierung läuft, ist mir gerade auch egal. Es läuft.

Nächster Schritt: Scannertreiber.

scy,
@scy@chaos.social avatar

Nachdem ich mich überzeugt habe, dass www.pfu.ricoh.com tatsächlich die korrekte Domain ist, um Treiber für einen Fujitsu-Scanner runterzuladen (🙄), begrüßt es mich mit "btw, deine alte Scannersoftware wird nicht mehr unterstützt; es gibt jetzt ne neue, bei der wir allerdings einige Features entfernt haben".

Großartig! Ich freu mich.

Aber, Kudos an Pfujiricoh: Sie stellen immerhin die alte Software auch noch zum Download bereit, wenn auch mit der Info, dass sie End of Life ist.

scy,
@scy@chaos.social avatar

An dieser Stelle dann also erst mal einen (weiteren) ungeplanten Umweg einschieben und erst mal sämtliche Treiber- und Softwaredownloads für den Scanner irgendwo hinspiegeln, bevor beim nächsten Konzernmerger die alten Downloads dann doch irgendwann verschütt gehen.

Oh cool, der Treiber ist nur 22 MB groß! Das sieht man heute selten.

scy: klickt die exe an

die exe: "Lade Treiber herunter, 10 von 600 MB abgeschlossen"

Natürlich. Du lässt dich aber auch echt simpel verarschen, scy.

scy,
@scy@chaos.social avatar

Ich also den Treiber installiert, und oh, stimmt, da gab es ja auch ein Bundle mit "ABBYY FineReader". Das hab ich auf dem Baremetal-Windows glaub ich gar nicht installiert, macht aber vielleicht nochmal besseres OCR. Ich installier das mal dazu.

Scanprofil konfiguriert, USB-Gerät in die VM durchgeschleift, gescannt.

Funktioniert einwandfrei. Nice. Aber dieses Abbyy macht nochmal nen extra Dialog auf, das nervt.

Mal die Qualität gegen das normale, mitgelieferte OCR vergleichen.

scy,
@scy@chaos.social avatar

Weil wenn die Qualität sich nicht groß unterscheidet, verzichte ich lieber auf den extra Dialog und nehm weiterhin die alte OCR-Variante, mit der ich jetzt jahrelang klarkam.

stellt auf das eingebaute OCR um

wirft nen Scan an

"Fehler beim OCR."

Öh, okay? Natürlich steht nicht dabei, was für ein Fehler. Ich mach zur Sicherheit mal nen Neustart, vielleicht ist irgendne Komponente nicht richtig registriert oder sonstwas Magisches nicht in Ordnung.

"Fehler beim OCR."

Damn.

scy,
@scy@chaos.social avatar

Troubleshooting-Abschnitt in der Hilfe weist darauf hin, dass eins der Tools, das bei der Scannersoftware mitkam, ein "Support-Tool" ist, das dich in die Logs schauen lässt.

Also schau ich in die Logs.

(Es braucht ne ganze Minute, um sie zusammenzustellen.)

Irgendwas mit "Language not installed". Okay, ich hab Deutsch gewählt, das sollte eigentlich per Default mitinstalliert werden, aber dann versuch ich eben Englisch.

"Fehler beim OCR."

Maaaaaaaaannn.

scy,
@scy@chaos.social avatar

Ich bin jetzt also an dem Punkt, wo ich wahrscheinlich als nächstes die Windows-VM nochmal neu aufsetze, erst mal ohne Abbyy, in der "Hoffnung", dass es das war, das mir die Installation des normalen OCR zerschossen hat.

Aber nicht mehr heute. Für heute hab ich keine Energie mehr.

Und ja, mag sein, dass ich "gut mit Linux" bin. Aber das heißt leider nicht, dass alles glatt läuft. Die Probleme werden nur haarsträubender und komplexer. :)

(Ende vom Thread. Ich geh erst mal duschen.)

xpac,
@xpac@chaos.social avatar

@scy ist das der Moment wo man dir dann erzählt, das paperless im default selber OCR macht (via OCRmyPDF)? Mein Scanner macht auch direkt OCR, kann ich mir aber eigentlich sparen weil macht halt sonst paperless (wo man wesentlich mehr bei Bedarf konfigurieren kann).

Heiße Story auf jeden Fall, klingt genau wie die Art von Nerdstory wo Otto Normal längst den ganzen Ranz aussem Fenster geworfen und alles in irgendeinen Cloudservice geworfen hätte 😁

scy,
@scy@chaos.social avatar

@xpac lol… eigentlich weiß ich, dass Paperless von sich aus OCR kann.

Aber jetzt wo du's sagst frage ich mich tatsächlich, warum ich mir dann eigentlich die Mühe mache, das schon beim Scan zu machen.

Ey… manchmal muss man echt mal drei Schritte Abstand nehmen und nachdenken, was genau man hier eigentlich treibt.

Danke. Ist auf jeden Fall ein guter Hinweis gewesen.

xpac,
@xpac@chaos.social avatar

@scy oh und bevor du noch mehr bastelst - paperless kann seit 2.7.0 basic PDF Kram, konkret merge/split/rotate, und dann kann man quasi die ganze Vorverarbeitung sein lassen und da direkt reinscannen....

scy,
@scy@chaos.social avatar

@xpac Das seh ich dann aber doch ein bisschen anders. Rotate geht nur auf das ganze Dokument und nicht auf einzelne Seiten, und Split ist auch ein bisschen seltsam. Weil in 95 % der Fälle brauche ich nicht "Split", sondern "lösche Seite 3, 5, 9 und 12". Das ist mit dem Feature, so wie's aktuell umgesetzt ist, ein Albtraum.

xpac,
@xpac@chaos.social avatar

@scy kenn das. Manchmal bastelste ewig an nem Problem rum, einfach weil es da ist, und dann kommt die 5jährige vorbei und stellt eine Frage und du denkst "ich bin so dumm warum nur" 😁

jens,
@jens@social.finkhaeuser.de avatar

@xpac @scy Paperless verwendet auch unpaper, wenn Du es ihm sagst.

fink,
@fink@chaos.social avatar

@scy @xpac 🤣 Ja sowas ist mir noch absolut nie passiert...

/sarcasm

scy,
@scy@chaos.social avatar

Schlussendlich scanne ich übrigens aktuell vom gedualbooteten Windows aus, weil das mein jahrelang funktionierendes Setup ist, das gute Scans produziert.

Paperless läuft auf nem Raspberry Pi, nachdem mich @Alcest daran erinnert hat, dass ich den ja gar nicht per Ethernet anbinden muss (und dafür Ports umkonfigurieren), sondern ich ihn ja auch einfach ins WLAN hängen kann. Danke nochmal dafür. 🤦‍♂️

Das ist alles suboptimal und bleibt nicht so, aber ich brauchte kurzfristig was funktionierendes.

NexCarter,
@NexCarter@chaos.social avatar

@scy bitte halt uns/mich gerne auf dem laufenden :)

LangerJan,
@LangerJan@chaos.social avatar

@scy 🫂

pa,
@pa@zusammenhalt.de avatar

@scy ich habe vorhin https://social.heise.de/ gelesen und mir dann das olle Referenzgerät erstanden. Die Idee mit dem PI klingt doch gut.

scy,
@scy@chaos.social avatar

@pa Welchen Scanner benutzen die da? Ich hab leider kein Abo.

Alcest,
@Alcest@chaos.social avatar

@scy raspi ins wifi? Rennt

scy,
@scy@chaos.social avatar

@Alcest Hahaha, fuck, das ist wahrscheinlich echt die einfachste Lösung. Danke xD

Alcest,
@Alcest@chaos.social avatar

@scy gern geschehen 😂

Fripi,
@Fripi@chaos.social avatar

@scy this will not end well 🙈

Hast du nicht irgendwo noch ein system das Paperless laufen lassen kann im Netzwerk? 😬

eazy,
@eazy@chaos.social avatar

@scy Deinen Fall hatte ich so noch nicht, aber ich hocke seit bald 30 Jahren in der grafischen Industrie und habe so viel Kram automatisiert, dass ich das gut nachfühlen kann :)

Mein Vorschlag: mit scanimage scannen und imagemagick (mit ghostscript) den Rest erledigen lassen:

convert bla.pnm -trim bla.pdf

scanimage sollte aber auch jpg erzeugen können. Das -trim kann durch -fuzz X% etwas toleranter gemacht werden.

Bash hast Du im Griff? :)

  • All
  • Subscribed
  • Moderated
  • Favorites
  • random
  • slotface
  • kavyap
  • thenastyranch
  • everett
  • tacticalgear
  • rosin
  • Durango
  • DreamBathrooms
  • mdbf
  • magazineikmin
  • InstantRegret
  • Youngstown
  • khanakhh
  • ethstaker
  • JUstTest
  • ngwrru68w68
  • cisconetworking
  • modclub
  • normalnudes
  • osvaldo12
  • cubers
  • GTA5RPClips
  • Leos
  • tester
  • megavids
  • provamag3
  • anitta
  • lostlight
  • All magazines