ftdl, Polish
@ftdl@pol.social avatar

Z życia Fundacji:

Karta GPU GTX 1080 Ti montowana w serwerze.

Przygotowania do generowania napisów i transkrypcji z audio w języku polskim za pomocą LLM whisper.cpp w projekcie (wcześniej NapGenPL).

Czyli napisy do i YouTube oraz transkrypcje do podkastów !

Oprogramowanie z naszymi "kustomizacjami" sprawdzone jest już na laptopach i na wynajętych serwerach z GPU (na godziny), niebawem będziemy mieli własny.

Serwer trzeba jeszcze doposażyć, m. in. w dodatkowy RAM, ale o tym później 😉

arek,
@arek@mastodon.internet-czas-dzialac.pl avatar

@ftdl jak z weryfikacją tego co wypluje Whisper? Na potrzeby @icd probowaliśmy, ale nawet przy największych modelach wciąż wymaga dość dużego wysiłku manualnego

ftdl,
@ftdl@pol.social avatar

@arek

Rezultaty są bardzo dobre. Mamy kilka przykładów, gdzie nie trzeba było wiele lub prawie nic poprawiać. Dodatkowo, w json raportuje nam, gdzie ma wątpliwości, i to będzie wykorzystane w edytorze do szybkiego podświetlenia miejsc wątpliwych i korekty.

Korekta zawsze jest niezbędnym etapem, bo nie powinno się "ufać" LLM, zwłaszcza przy nazwiskach, nazwach własnych i innych nietypowych, rzadszych sformułowaniach.

Ale wygląda to bardzo obiecująco.

Przykład:
https://tube.pol.social/w/1XRcn7jsZi2SphbRc58nme

Znajdziesz też napisy wygenerowane przez nas na YT na kanałach Piotra Czabana i GilotynaTV.

Są zadowoleni :)

@icd

PiTau,

@ftdl @arek @icd Jak trochę temu bawiłem się Whisperem, zauważyłem poważne problemy gdy jest wielu mówców albo zachodzi zmiana języka. Udało się wam (albo komuś innemu) obejść jakoś ten problem?

arek,
@arek@mastodon.internet-czas-dzialac.pl avatar

@PiTau póki co udało się ręczną weryfikacją, a to sporo roboczogodzin wymaga @ftdl @icd

piotrsikora,
@piotrsikora@pol.social avatar

@arek ale to też z tym który wyżej był podrzucony od nas?
my uzywamy najwiekszych modeli na GPU w naszej serwerowni...
Ostatnio tylko problem był z wywiadem z palestyńczykiem mówiącym po polsku... po prostu problem był ze akcentem. Ale ogólnie wynik i tak był całkiem niezły... dalej z kontekstu dało sie wylapac wszystko.

@PiTau Przyznam szczerze ze jedynie problem zdarza się że rozpocznie jakiś tekst zanim zaczną się słowa... Nie wiem czy też tego nie ogarnąć używając jakiegoś systemu Voice Activation Detection

@ftdl @icd

PiTau,

@piotrsikora @arek @ftdl @icd
Znajomy próbował bawić się z VADami ale wstępne efekty były takie se. Jeszcze go podpytam jak to było. Tak długo jak okazyjnie timestamp jest przesunięty, jest to mało uciążliwe. Ja pisałem o kaskadzie desynchronizacji gdzie wszystko po pewnym punkcie jest przesunięte.

Ale też nie ubolewajcie nad jakością napisów za bardzo. Whisperowi daleko do przestrzegania zasad tworzenia napisów, więc i tak będą one doraźne, a nie dobre.

https://kulturabezbarier.org/wp-content/uploads/2019/12/Napisy-dla-nieslyszacych_zasady-tworzenia_2019.pdf

piotrsikora,
@piotrsikora@pol.social avatar

@PiTau
IMHO to wciąż kwestia jakości źródła, nie wchodzenia sobie w słowa i ewentualnego dotrenowania modelu.
Jedna z lepszych transkrypcji tutaj: https://www.youtube.com/watch?v=KKZn2YKidc4
zero edycji... prosto jest to wrzucone
@arek @ftdl @icd

mstankiewicz,
@mstankiewicz@pol.social avatar

@piotrsikora skoro nie można sobie wchodzić w słowa to obawiam się, że nie zdałoby to egzaminu w Sejmie 😜

@PiTau @arek @ftdl @icd

PiTau,

@mstankiewicz @piotrsikora @arek @ftdl @icd Niby żartobliwy komentarz ale Whisper ma bardzo dużo poważnych ograniczeń, które powodują że napisy nie spełniają pełnych standardów dla osób niesłyszących. Nie ma rozpoznawania mówcy i podpisu mówcy, nie ma brania pod uwagę montażu czy widoczności źródeł dźwięku. Timestampowanie jest takie sobie, nie ma krojenia długich zdań złożonych. Tu są zalecenia:
https://kulturabezbarier.org/wp-content/uploads/2019/12/Napisy-dla-nieslyszacych_zasady-tworzenia_2019.pdf

Ale to nadal lepsze niż zupełny brak napisów.

piotrsikora,
@piotrsikora@pol.social avatar

@PiTau
Z chęcią się wczytam... co do out-of-sync dorwałęm coś takiego w komentarzy kodu do parametru:
condition_on_previous_text: If True, the previous output of the model is provided
as a prompt for the next window; disabling may make the text inconsistent across
windows, but the model becomes less prone to getting stuck in a failure loop,
such as repetition looping or timestamps going out of sync.

Co do rozpoznawania mówcy to już są powoli opcje... jeszcze średnio działają, ale już jest na tym praca. zaawansowana.

@mstankiewicz @arek @ftdl @icd

tomgwynplaine,
@tomgwynplaine@101010.pl avatar

@ftdl To fizyczny pol.social? Proszę pogłaskać ode mnie 😁

piotrsikora,
@piotrsikora@pol.social avatar

@tomgwynplaine @ftdl to jest dokładnie fizyczny pol.social

Pogłaskany ;)

kukrak,
@kukrak@pol.social avatar

@piotrsikora
Coś tu jest chyba stwarzane 😁
@tomgwynplaine @ftdl

szescstopni,
@szescstopni@qoto.org avatar

@piotrsikora @tomgwynplaine @ftdl Mam tylko nadzieję, że nie pokropiony wodą święconą.

kukrak,
@kukrak@pol.social avatar
piotrsikora,
@piotrsikora@pol.social avatar

@kukrak @szescstopni @tomgwynplaine @ftdl tu jest info że święcenia superkomputera przez Jedraszewskiego: https://lifeinkrakow.pl/w-miescie/5388,abp-jedraszewski-poswiecil-superkomputer-agh-najszybszy-w-polsce

Ten dziś jest na 155 miejscu na świecie.

Żadnej uczelni na liście 500 najsłodszych na świecie nie mamy, ale superkomputery AGH ma chyba nieprzerwanie od lat 90.

SceNtriC,
@SceNtriC@101010.pl avatar

@ftdl Właśnie miałem pytać, czy serwer dotarł, bo pamiętam, że go zamawialiście, ale jakoś umknęło mi ogłoszenie, że się pojawił :)

sebastian,
@sebastian@pol.social avatar

@SceNtriC

Jest, jeszcze go doposażamy, ram-u mało ;)

#FTdLHardware

@ftdl

hoseose,

@sebastian @SceNtriC @ftdl wygodniej w btop, moim zdaniem

piotrsikora,
@piotrsikora@pol.social avatar

@hoseose zerknij na uptime ;) tyle co go uruchomilem. @sebastian @SceNtriC @ftdl

piotrsikora,
@piotrsikora@pol.social avatar

@SceNtriC dotarł dotarł ;) tylko ostatnio do pol.social musialem siąść... do tego tez jeszcze czekałem na kabel zasilania do GPU (mialy byc, ale nie wyslali). @ftdl

  • All
  • Subscribed
  • Moderated
  • Favorites
  • fediverse
  • Durango
  • DreamBathrooms
  • everett
  • magazineikmin
  • osvaldo12
  • Youngstown
  • khanakhh
  • slotface
  • mdbf
  • rosin
  • thenastyranch
  • kavyap
  • cubers
  • tester
  • JUstTest
  • InstantRegret
  • ethstaker
  • GTA5RPClips
  • tacticalgear
  • cisconetworking
  • ngwrru68w68
  • normalnudes
  • anitta
  • modclub
  • Leos
  • provamag3
  • megavids
  • lostlight
  • All magazines