Depuis quelques années, une partie de la communauté internet se tourne vers des solutions plus simples et moins gourmandes en ressources, en réaction à ce que beaucoup considèrent comme l’« #emmerdification » progressive du web. Le protocole #Gemini a émergé comme une réponse prometteuse à ce besoin, mais après l’enthousiasme initial, une certaine désillusion semble s’installer [...]
Google will die Anrufe seiner Nutzer:innen scannen, um vor Telefonbetrug zu warnen – und sorgt damit für Entsetzen. Fachleute für Datenschutz warnen: Ist die Technologie erst mal auf dem Gerät, werde das weitere Begehrlichkeiten wecken – mit weitreichenden Konsequenzen für die Demokratie.
Niche question: I used to quite like reading Winter's Gemlog before rawtext.club took a dump with its trousers on. Does anyone know if they're posting anywhere else now? #gemini
Jeszcze dobrze nie opadł kurz wzniesiony przez rozentuzjazmowany tłum obserwatorów poczynań OpenAI (nowy i to dostępny za darmo dla każdego model GPT-4o), a tu konkurent z Mountain View, Google, wytoczył swoje AI. Oto w reporterskim skrócie, co pokazało Google na tegorocznej prezentacji otwierającej konferencję programistyczną Google I/O 2024.
Zacznę od pewnego disclaimera. Wszystko, co dziś ogłosiło Google, dotyczy przede wszystkim użytkowników ze Stanów Zjednoczonych. Jak nie od dziś wiadomo, wszelkie innowacje trafiają najpierw na lokalny dla technologicznego giganta, amerykański rynek, ale z czasem ogłoszone nowości (przynajmniej niektóre) powinny trafić również do nas. OK, startujemy:
Na początek ciekawostka. Wszystkich, którzy oczekiwali na prezentację keynote Google I/O 2024 witała muzyka generowana algorytmicznie przez AI, za pomocą autorskich rozwiązań Google, dokładniej czegoś, co sama firma określa jako Google MusicFX DJ tool. Jeżeli chcecie ją usłyszeć, odtwórzcie sobie kilka pierwszych minut poniższej relacji z prezentacji otwierającej tegoroczną konferencję:
Jeżeli muzyka was nie interesuje spokojnie możecie pominąć ponad godzinę powyższego wideo, a jeżeli nie macie czasu na oglądanie reszty, to – tak jak zapowiedziałem – poniżej skrót nowości.
Gemini 1.5 Flash
Google ogłosiło wprowadzenie do swojego portfolio nowego, szybszego modelu AI: Gemini 1.5 Flash. Ten model jest ponoć równie wydajny jak Gemini 1.5 Pro, ale jest zoptymalizowany pod kątem wykonywania zadań wymagających wysokiej częstotliwości i małych opóźnień. Ponadto samo okno kontekstowe Gemini 1.5 Pro wzrosło z 1 miliona do 2 milionów tokenów, co w praktyce oznacza znacznie głębsze “rozumienie” kontekstu. Ponadto Gemini 1.5 Pro pojawi się na pasku bocznym Google Workspace na kontach płatnych subskrybentów tej usługi i dzięki temu ma ułatwić inteligentne zarządzanie wszystkimi danymi z Dysku Google, np. AI może sama pisać maile na podstawie wskazanych przez użytkownika np. danych z arkusza czy innych dokumentów. Na razie rozwiązanie uruchomione jest testowo ograniczonej liczbie użytkowników, w przyszłym miesiącu ma zostać udostępnione subskrybentom płatnej wersji Gemini.
Imponujący Astra Google
Projekt Astra Google to prezentacja multimodalnego asystenta AI, który „rozumie” to, co widzi np. przez kamerę smartfona. Choć bardziej pasuje określenie asystenta to przyszłych smart-okularów. Wówczas przydatność tego typu rozwiązania znacznie wzrośnie. Zapomniałeś gdzie schowałeś klucze? Asystent Astra Google ci podpowie, gdzie leżą, bo przecież widział jak je kładłeś. Przydatne? Owszem, ale ja i tak mam skojarzenia z mroczną wizją rejestratorów tego co widzi użytkownik z jednego z odcinków serialu “Black Mirror”. Kto wie, ten wie.
Gemini i Zdjęcia Google
Masz dużo zdjęć w chmurze Google’a? Tego lata firma ma wprowadzić rozumienie przez Gemini całej biblioteki zdjęć danego użytkownika. Na prezentacji Sundar Pichai, CEO Google, zaprezentował to pytając Gemini o własny numer rejestracyjny. AI nie tylko udzieliła poprawnej odpowiedzi, ale też wyświetliła zdjęcie samochodu szefa Google z widoczną tablicą.
Wyszukiwanie w Google Lens
Google Lens samo w sobie nowością nie jest, ale usługa otrzyma nowe funkcje. Umożliwi ona wyszukiwanie danych nie tylko na podstawie wskazanych przez użytkownika zdjęć, ale również wideoklipów.
Veo, konkurent Sory
Kolejna nowość to Veo, generatywny model AI zdolnej do generowania wideo Full HD (1080p) na podstawie wskazówek tekstowych, graficznych lub innego wideo, dostępne różne tryby tworzenia (np. nagranie lotnicze, tryb poklatkowy etc.). Tak Google odpowiada na rozwiązanie OpenAI o nazwie Sora.
Google Gems, czyli stwórz sobie czatbota
Google Gems to rozwiązanie, które pozwala nauczyć Gemini specyficznego zachowania AI. Jeżeli na przykład chcesz, by sztuczna inteligencja zachowywała się jak np. dietetyk pilnujący twojego jadłospisu, proponującego przepisy i motywującego do zmiany złych nawyków żywieniowych, Gems pozwoli to zrobić.
Gemini Live – odpowiedź na GPT-4o z kamerą
Wczoraj świat zachwycił się OpenAI i ChatGPT z nowym GPT-4o rozmawiającym z użytkownikiem za pośrednictwem kamery w smartfonie (reagując na emocje wyrażane mimiką). Google odpowiedziało prezentując Gemini Live. To konwersacyjny czatbot, który nie tylko może cię obserwować przez kamerę urządzenia (smartfon/laptop), ale również dostosowuje głos emocjonalnie, by dialog z maszyną był bardziej naturalny.
Gemini Nano ochroni smartfony z Androidem przed spamem i dołączy do przeglądarki Chrome
Gemini Nano, lekka wersja modelu Gemini, trafi do Androida i będzie m.in. chronić użytkowników przed prawdopodobnym spamem i próbami ataków phishingowych, ponadto ten lekki model ma zostać zintegrowany z przeglądarką Google Chrome na komputerze.
Zakreśl by wyszukać lepiej rozumie matematykę
Wyszukiwanie obrazkowe typu Circle to find (po polsku: zakreśl by wyszukać) nowością samo w sobie nie jest, ale Google ogłosiło, że teraz algorytm analizujący zaznaczony przez użytkownika fragment np. zdjęcia, rozumie matematykę. Przy czym wyraźnie zaznaczono, że nie odrobi on prac domowych uczniom, którzy zamiast samodzielnie rozwiązać zadanie spróbują iść na łatwiznę, ale AI wyświetli proponowane kroki prowadzące do rozwiązania danego problemu matematycznego.
Are there any spartan compatible #gemini clients that can be directly installed from the App Store for iOS? My search results are pulling up a lot of crypto nonsense. I used to like Elaho, but I hear it is deprecated now.
tootik is a federated nanoblogging service for the small internet.
tootik allows people to participate in the fediverse using their Gemini, Gopher or Finger client of choice and makes the fediverse lighter, more private and more accessible. tootik's interface strips content to bare essentials (like text and links), puts the users in control of the content they see and tries to "slow down" the fediverse to make it more compatible with the slower pace of the small internet.
It's a single executable that handles both the federation (using ActivityPub) and the frontend (using Gemini) aspects, while sqlite takes care of persistency. It should be lightweight and efficient enough to host a small community even on a cheap server, and hopefully, be easy to hack on.
tootik implements only a small subset of ActivityPub, and probably doesn't really conform to the spec.
Anytime that you click on your browser reader mode you are implicitly admitting, and confirming, that #smolweb and #Gemini are the right way to read internet pages... 🤭
Publicaciones que deseo destacar de entre todas las escritas/leídas en la temporada. En esta entrega hay enlaces hacia los #gemlog de @aperalesf@sl1200 y @caleb
"There has been a shift in the #AI space: some models, like #ChatGPT & #Gemini, have evolved into entire web platforms spanning multiple use cases & access points. Other large language models like #LLaMa or #OLMo, though technically speaking they share a basic architecture, don’t actually fill the same role. They are intended to live in the background as a service or component, not in the foreground as a name brand." https://techcrunch.com/2024/04/19/too-many-models/
I've had occasion to ask an AI about a thing twice lately (a recent online phenomenon, and a book recommendation). Both times I asked both Gemini and ChatGPT, and both times one gave a reasonable if bland answer, and the other (a different one each time) gave a plausible but completely fictional ("hallucinated") answer.
When do we acknowledge that LLMs, and "AI" in general, aren't quite ready to revolutionize the world?
Nascom 2 still working after 42 years. Apps include Bill Gates' personally written BASIC interpreter. Notice the Veroboard add-on daugherboard with 4k (4096 bytes) memory I designed and built all those years ago.
SuperTXT is like Gemini, but it uses commands instead of URLs (supertxt.net)