Episode image

BM123:Fine-tuning LLM: fakty i mity

Biznes Myśli

Episode   ·  0 Play

Episode  ·  1:34:24  ·  Jul 3, 2024

About

️ Czy zdarza Ci się zastanawiać, jak powstają zaawansowane modele AI, takie jak ChatGPT? Czy wiesz, że trening takiego modelu może kosztować tyle, co luksusowy apartament w Warszawie (a w skali GPT nawet znacznie więcej)? A może ciekawi Cię, ile czasu zajmuje przygotowanie dużego modelu językowego? No właśnie! Tym zajmiemy się w 123. odcinku podcastu "Biznes Myśli", gdzie zgłębiamy tajniki fine-tuningu modeli LLM! Ale przejdziemy krok po kroku, aby dojść do etapu fine-tuning. Gościem dzisiejszego odcinka jest Remigiusz Kinas, ekspert AI i członek core teamu projektu SpeakLeash. Rozmawiamy o faktach i mitach związanych z treningiem modeli językowych. Kawał wiedzy dla Ciebie.W tym odcinku koncentrujemy się na wyjaśnieniu kluczowych etapów trenowania modeli LLM, takich jak pre-training, fine-tuning oraz alignment, oraz na omówieniu ich zastosowań i wyzwań.Dowiesz się:Jak wygląda proces trenowania dużych modeli językowych od podstaw?Czym jest fine-tuning i kiedy warto go stosować? Jakie są kluczowe etapy tworzenia modeli AI i dlaczego dane są tak ważne? Jakie superkomputery są używane do trenowania AI i ile to kosztuje? Jak wygląda praca nad polskim modelem językowym Bielik 2.0?Zapraszam! Najważniejsze fragmenty:00:01:52 - Remigiusz Kinas przedstawia się i opowiada o swoim doświadczeniu z ML/AI00:08:57 - Wyjaśnienie czym jest fine-tuning modeli na przykładzie Computer Vision00:14:23 - Omówienie różnych rodzajów modeli językowych (pre-trained, instruct, fine-tuned)00:30:00 - Czym jest T? Trilion czy bilion?00:31:05 - Ile danych potrzebujemy?00:43:53 - Cyfronet Helios, czyli na czym był trenowany Bielik? 00:47:15 - Ile kart GPU ma Meta (Facebook)?00:27:34 - Dlaczego dane są najważniejsze w procesie trenowania modeli AI 00:53:00 - Ile kosztuje wytrenować model LLM?00:58:32 - Czy warto robić fine-tuning? 01:09:07 - Co nowego w Bieliku 2?01:24:42 - PodsumowanieCzytać: https://biznesmysli.pl/fine-tuning-llm-fakty-i-mity/YouTube (ogłądać video): https://youtu.be/Kf55mex40-oLinkedIn:https://www.linkedin.com/in/remigiusz-kinas/https://www.linkedin.com/in/vladimiralekseichenko/Inne linki:https://ai.meta.com/blog/meta-llama-3/https://opencsg.com/datasets/AIWizards/Alpaca-CoThttps://top500.org/lists/green500/list/2024/06/https://github.com/meta-llama/llama/blob/main/MODEL_CARD.mdhttps://github.com/NVIDIA/Megatron-LM https://github.com/hiyouga/LLaMA-Factoryhttps://arxiv.org/pdf/2406.06608https://github.com/vllm-project/vllmW podcaście omówiono:Rodzaje modeli LLM:- Model bazowy (pre-trained): Posiada ogromną wiedzę, ale nie potrafi prowadzić konwersacji - służy do przewidywania następnego słowa.- Model instrukcyjny (instruct): Potrafi wykonywać polecenia i prowadzić konwersacje. Powstaje poprzez fine-tuning modelu bazowego.- Model po alignmencie: Model instrukcyjny dodatkowo "wygładzony" i dostosowany do preferowanego stylu konwersacji.Fazy trenowania modelu:- Pre-training: Najważniejsza faza, w której model nabywa wiedzę. Wymaga ogromnych zbiorów danych i jest bardzo kosztowna (rzędu setek tysięcy dolarów).- Fine-tuning: Dostrajanie modelu do konkretnych zadań. Wymaga mniejszych zbiorów danych i jest tańszy od pre-trainu.- Alignment: Dopasowanie stylu i sposobu odpowiedzi modelu. Wymaga najmniej danych i jest najtańszy.Dane:- Pre-training: Dane tekstowe w ogromnej ilości (terabajty), im więcej, tym lepiej. Ważna jest jakość danych.- Fine-tuning: Instrukcje dla modelu (polecenia i przykładowe odpowiedzi) w ilości od tysięcy do milionów.- Alignment: Pary odpowiedzi (preferowana i odrzucona) w ilości kilku tysięcy.Koszty:- Pre-training: Bardzo wysokie, porównywalne z ceną mieszkania w Warszawie.- Fine-tuning: Znacznie niższe od pre-trainu.- Alignment: Niskie, możliwe do przeprowadzenia na lokalnej maszynie.Mit fine-tuningu jako rozwiązania na wszystko:- W większości przypadków fine-tuning nie jest konieczny.- Lepiej skupić się na promptowaniu (zadawaniu precyzyjnych pytań) i technikach RAG (Retrieval Augmented Generation - wzbogacanie odpowiedzi o dane z zewnętrznych źródeł).- Fine-tuning może być przydatny w wąskich dziedzinach, dla specyficznych formatów odpowiedzi lub w celu zapewnienia bezpieczeństwa danych.Bielik 2.0: Nowa wersja polskiego modelu językowego.- Większy model (11 miliardów parametrów).- Dłuższy kontekst wejściowy (32 tysiące tokenów).- Wsparcie dla Function Calling (beta).- Uczenie wzmacniane (RLHF).- Więcej wersji kwantyzacyjnych.- Wsparcie dla VLLM.- Test na inteligencję emocjonalną (EQ Bench).- Planowana wersja multimodalna (tekst i obraz).#ai #genai #llm #podcast #machinelearning #datascience #finetuning

1h 34m 24s  ·  Jul 3, 2024

© 2024 Spreaker (OG)