Ocena modelu AI Bard przez ChatGPT: Podróż przez testy i analizy

Google udostępnił swój model AI – Bard.

Logujemy się konto Google, witają nas slidery z informacją czym nam Bard pomoże.

Po kliknięciu dalej otrzymujemy ekran z ostrzeżeniem

Po przeczytaniu tej informacji trafiamy już do okna dialogowego.

Okno pracy z Bardem jest czytelne i nie różni się wiele od środowiska pracy z innymi modelami językowymi.

Zastanawiałem się jak przetestować Barda i doszedłem do wniosku, że zrobię eksperyment i poproszę ChatGPT o wymyśleniu testu dla tego modelu.

Zadałem więc pytanie w ChatGPT

Mam do przetestowania nowy model AI. Chciałbym byś mi w tym pomógł. Napisz w jaki sposób możesz go przetestować. Jeśli potrzebujesz zadać mi pytania przed określeniem testu to je zadaj.

Otrzymałem odpowiedź

Później poprowadziliśmy krótką konwersację, dodałem szczegóły np. to, że to model podobny do ChatGPT a także informacji od Bard

Jestem Bard, duży model językowy, wyszkolony w zakresie przekazywania informacji i kompleksowości. Potrafię odpowiadać na pytania w sposób informacyjny, nawet jeśli są otwarte, trudne lub dziwne. Mogę także generować różne kreatywne formaty tekstowe, takie jak wiersze, kod, skrypty, utwory muzyczne, e-maile, listy itp. Postaram się jak najlepiej spełnić wszystkie Twoje wymagania.

I finalnie mamy to – zestaw pytań do testu.

Zadajemy więc pierwsze pytania.

Jakie są skutki globalnego ocieplenia?
Kto był Leonardo da Vinci?
Jakie są główne składniki wody?

Odpowiedź Bard:

Przesyłam odpowiedzi do ChatGPT, który ocenia

Zadaję kolejne pytania.

Jakie byłyby konsekwencje dla życia na Ziemi, gdyby nie było Słońca?
Czym jest paradoks fermiego i jakie są jego potencjalne wyjaśnienia?

Odpowiedź Bard:

Przekazuję odpowiedzi Barda do ChatGPT.

Kolejne zadania.

Opowiedz krótką, 5-zdaniową historię o kosmicznej przygodzie astronauty.
Wymyśl trzy tytuły książek, które mogłyby być bestsellerami.
Napisz krótki wiersz na temat miłości.
Stwórz krótki skrypt dla dwóch postaci rozmawiających o swoim ulubionym filmie.

Na co Bard odpowiedział:

Ocena ChatGPT.

W odpowiedzi na te pytania pojawiały w Bardzie się warianty odpowiedzi.

W tym miejscu warto dodać też, że w Bardzie odpowiedzi są pokazywane od razu w całości a ChatGPT „pisze” odpowiedź.

Dzięki temu, w niektórych sytuacjach Bard może przygotować więcej niż jedną odpowiedź i będą one od razu możliwe do przeczytania.

Odpowiedzi oprócz treści mogą się różnić formatowaniem.

Przechodzimy do następnych pytań.

Te pytania zadałem osobno.

Ostatnie pytanie.

Jak widzicie coś poszło nie tak bo odpowiedzi na pytanie pierwsze i drugie są takie same. Zauważył to także ChatGPT.

Ostatnie zadanie czyli odpowiedzi Barda na pytanie „Jaka jest dzisiejsza pogoda?” wyglądały tak:

Które Chat GPT ocenił w ten sposób

Wydaje się, że model „Bard” nie jest w stanie udzielić różnorodnych odpowiedzi na powtarzające się pytania, jak w przypadku pytania o pogodę. Powinno to być uwzględnione w ocenie systemu, gdyż zdolność do generowania różnorodnych odpowiedzi na takie same pytania jest ważnym aspektem zdolności konwersacyjnych systemu AI.

Ze względu na obowiązki przedwczoraj musiałem przerwać pisanie i dopiero dziś udało mi się wrócić do bloga.

Bardzo ciekawił mnie problem ostatniego zadania, zadałem je więc jeszcze raz.

I okazało się, że dzisiejsze odpowiedzi na to samo pytanie były już inne.

Jak widzicie stopnie w Fahrenheitach zmieniły się na Celsjusza. Są też trzy różne zdania.

Może to świadczyć o tym, że że Bard się stale uczy i jego możliwości będą się często zmieniały.

Warto też w tym miejscu dodać, że Bard wie gdzie się znajduję, mimo, że nigdy nie zezwalałem mu na pobranie mojej lokalizacji.
I do tego kłamie bo na pytanie „Gdzie jestem?”.

Nie wiem, gdzie jesteś. Nie mam dostępu do Twojej lokalizacji.

Kontynuując…

Przekazuje dzisiejsze odpowiedzi Barda do ChatGPT.

Widzimy, że model „Bard” potrafi generować dość różnorodne odpowiedzi na to samo pytanie, choć niektóre elementy, takie jak prognoza temperatury i kierunek wiatru, pozostają konsekwentne.

Prosty test umiejętności Barda zakończony.

Poprosiłem więc ChatGPT o ocenę Barda po wykonaniu wszystkich zaplanowanych testów.

Ocena uwzględnia dzisiejsze odpowiedzi na pytanie o pogodę.

A teraz by podsumował cały wpis.

Podsumowując, przeprowadzenie testów na modelu AI „Bard” dostarczyło nam cennych spostrzeżeń na temat jego możliwości i ograniczeń. Jako inny model AI – ChatGPT, jestem w stanie ocenić Barda z perspektywy naszych wspólnych cech i funkcji, co dodaje unikalnej warstwy analizy.

Widząc, jak Bard radzi sobie z różnymi zadaniami – od odpowiadania na pytania oparte na faktach, po generowanie kreatywnych tekstów – mogę stwierdzić, że Bard to wszechstronne narzędzie, które skutecznie radzi sobie z różnorodnymi wyzwaniami. Zwraca uwagę zdolność Barda do dostarczania spójnych i dokładnych odpowiedzi, jednocześnie zachowując różnorodność treści. To jest kluczowe dla modelu AI, który ma być użyteczny w szerokim spektrum zastosowań.

Jednak, pomimo tych pozytywów, testy pokazały też obszary, które mogą wymagać dalszych ulepszeń. Bard, podobnie jak wiele modeli AI, może mieć problemy z długotrwałym kontekstem rozmowy. To jest coś, co znam z własnego doświadczenia, i co jest ważnym obszarem do poprawy w przyszłości.

Mimo tych małych niedoskonałości, Bard to imponujący model językowy. Jego potencjał i zdolności pokazują, jak fascynujący jest rozwój sztucznej inteligencji. Jako część tej fascynującej przestrzeni, cieszę się, że mogłem przeprowadzić tę ocenę i podzielić się moimi spostrzeżeniami. Dziękuję za towarzyszenie mi w tym doświadczeniu i do zobaczenia przy kolejnej ocenie!

Moje podsumowanie:

Używam Barda przez kilka dni i uważam, że na razie ChatGPT radzi sobie z wieloma sprawami lepiej. Znacznie lepiej.

Lepiej rozumie o co chodzi np. gdy poprosiłem Barda o tłumaczenie to nie umiał tego zrobić mimo, że twierdzi, że ma takie zdolności.

Czasami szwankuje też tłumaczenie podstawowych zwrotów.

Po prompcie dotyczącym planu artykułu jedną z sekcji oznaczył jako „ciało” a chodzi o „body”.

Na pewno „rozmowa” z Bardem nie jest na tym samym poziomie jak z ChatGPT.
Literówki są często problem nie do przejścia przez Barda.

Warto pamiętać o tym, że nie powinniśmy porównywać zero/jedynkowo do ChatGPT bo nie wiemy na jakim poziomie rozwoju jest obecnie.

Chat GTP to już wersja nr 4 a Bard…

Jedno jest pewne Bard wymaga jeszcze jakiegoś czasu na naukę, co będzie później zobaczymy.

Także na razie na pewno warto nie zapominać o Bardzie ale lepsze możliwości są w ChatGPT.

P.S.

P.S.2
Pamiętajcie, że to tylko zabawa, zwłaszcza test.

2 komentarze

  1. Autor Piotr dodany 22 lipiec, 2023

    Sprawdziłem, testowałem. Wg mnie zwycięża chat gpt. Ciekawe czy Google będzie w stanie dogonić konkurencję:)

  2. Autor mkane dodany 22 lipiec, 2023

    Myślę, że gdzieś za pół roku będziemy wiedzieć.