Uniwersytet Warszawski, Wydział Fizyki - Centralny System Uwierzytelniania
Strona główna

Uczenie maszynowe w dużej skali

Informacje ogólne

Kod przedmiotu: 1000-319bBML
Kod Erasmus / ISCED: 11.3 Kod klasyfikacyjny przedmiotu składa się z trzech do pięciu cyfr, przy czym trzy pierwsze oznaczają klasyfikację dziedziny wg. Listy kodów dziedzin obowiązującej w programie Socrates/Erasmus, czwarta (dotąd na ogół 0) – ewentualne uszczegółowienie informacji o dyscyplinie, piąta – stopień zaawansowania przedmiotu ustalony na podstawie roku studiów, dla którego przedmiot jest przeznaczony. / (0612) Database and network design and administration Kod ISCED - Międzynarodowa Standardowa Klasyfikacja Kształcenia (International Standard Classification of Education) została opracowana przez UNESCO.
Nazwa przedmiotu: Uczenie maszynowe w dużej skali
Jednostka: Wydział Matematyki, Informatyki i Mechaniki
Grupy: Przedmioty obieralne dla informatyki
Przedmioty obowiązkowe dla II roku Machine Learning
Punkty ECTS i inne: 6.00 Podstawowe informacje o zasadach przyporządkowania punktów ECTS:
  • roczny wymiar godzinowy nakładu pracy studenta konieczny do osiągnięcia zakładanych efektów uczenia się dla danego etapu studiów wynosi 1500-1800 h, co odpowiada 60 ECTS;
  • tygodniowy wymiar godzinowy nakładu pracy studenta wynosi 45 h;
  • 1 punkt ECTS odpowiada 25-30 godzinom pracy studenta potrzebnej do osiągnięcia zakładanych efektów uczenia się;
  • tygodniowy nakład pracy studenta konieczny do osiągnięcia zakładanych efektów uczenia się pozwala uzyskać 1,5 ECTS;
  • nakład pracy potrzebny do zaliczenia przedmiotu, któremu przypisano 3 ECTS, stanowi 10% semestralnego obciążenia studenta.

zobacz reguły punktacji
Język prowadzenia: angielski
Rodzaj przedmiotu:

monograficzne

Wymagania (lista przedmiotów):

Głębokie sieci neuronowe 1000-317bDNN
Natural language processing 1000-318bNLP
Uczenie statystyczne 1000-317bSML

Założenia (opisowo):

programowanie obiektowe, sieci komputerowe, algorytmy i struktury danych

Skrócony opis:

Celem zajęć jest prezentacja techniki i narzędzia przetwarzania dużych zbiorów danych (ang. Big data) stosowanych przy uczeniu maszynowym. Przedstawimy najważniejsze modele i podstawowe techniki algorytmiczne dla nich. Omówimy metody analizy algorytmów rozpraszających obliczenia na klastrach. Przestawimy optymalizacje stosowane przy rozpraszaniu typowych algorytmów uczenia maszynowego jak regresja liniowa, klastrowanie, drzewa decyzyjne czy sieci neuronowe.

Pełny opis:

-Rozpraszanie obliczeń na klastrach oraz rozproszone systemy plików.

-Model Map-reduce i podstawowe techniki algorytmiczne dla tego modelu, metody analizy algorytmów na przykładzie typowych problemów (mnożenie macierzy, wielozłączenia, algorytmy minimalne, zliczanie trójkątów w dużych grafach).

-Całkowity vs mijający koszt komunikacji (ang. total vs elapsed communication cost) oraz metody radzenia sobie ze skew.

-Spark i model Resilient Distributed Dataset.

-Spark SQL i jego optymalizacje.

-Metody serializacji dużych danych i formaty kolumnowe.

-Architektury rozwiązań managed cloud data warehouse.

-Algorytmy strumieniowe.

-Rozpraszanie typowych algorytmów uczenia maszynowego, np. regresja liniowa - wariant strumieniowy, optymalizacje stosowane w metodach opartych o drzewa decyzyjne oraz przy rozpraszaniu klastrowania.

-Sieci neuronowe w dużej skali (data parallelism, model parallelism).

-Indeksowanie z wykorzystaniem uczenia maszynowego (learned index structores).

Literatura:

-Jure Leskovec, Anand Rajaraman, and Jeffrey David Ullman. Mining of Massive Datasets. Cambridge University Press

-Guglielmo Iozzia, Hands-On Deep Learning with Apache Spark, Packt Publishing

-Butch Quinto, Next-Generation Machine Learning with Spark: Covers XGBoost, -LightGBM, Spark NLP, Distributed Deep Learning with Keras, and More, Apress

Efekty uczenia się:

Wiedza: student zna i rozumie

techniki wielkoskalowego przetwarzania danych używane w kontekście uczenia maszynowego [K_W04]

metody rozpraszania i zrównoleglania obliczeń [K_W06]

Umiejętności: student potrafi

stosować współczesne systemy rozpraszania i zrównoleglania obliczeń [K_U20]

przetwarzać duże zbiory danych [K_U21]

Kompetencje społeczne: student jest gotów do

krytycznej oceny posiadanej wiedzy i odbieranych treści [K_K01]

uznawania znaczenia wiedzy w rozwiązywaniu problemów poznawczych i praktycznych oraz zasięgania opinii ekspertów w przypadku trudności z samodzielnym rozwiązaniem problemu [K_K02]

Metody i kryteria oceniania:

Ocena końcowa na podstawie punktów z programów zaliczeniowych, zadań domowych (w formie programów komputerowych) oraz egzaminu.

Zajęcia w cyklu "Semestr zimowy 2023/24" (zakończony)

Okres: 2023-10-01 - 2024-01-28
Wybrany podział planu:
Przejdź do planu
Typ zajęć:
Laboratorium, 30 godzin więcej informacji
Wykład, 30 godzin więcej informacji
Koordynatorzy: Krzysztof Rządca, Jacek Sroka
Prowadzący grup: Tomasz Kanas, Krzysztof Rządca, Jacek Sroka
Lista studentów: (nie masz dostępu)
Zaliczenie: Egzamin

Zajęcia w cyklu "Semestr zimowy 2024/25" (jeszcze nie rozpoczęty)

Okres: 2024-10-01 - 2025-01-26
Wybrany podział planu:
Przejdź do planu
Typ zajęć:
Laboratorium, 30 godzin więcej informacji
Wykład, 30 godzin więcej informacji
Koordynatorzy: Marek Cygan, Krzysztof Rządca
Prowadzący grup: Marek Cygan, Tomasz Kanas, Jakub Krajewski, Michał Krutul, Adrian Naruszko, Krzysztof Rządca
Lista studentów: (nie masz dostępu)
Zaliczenie: Egzamin
Opisy przedmiotów w USOS i USOSweb są chronione prawem autorskim.
Właścicielem praw autorskich jest Uniwersytet Warszawski, Wydział Fizyki.
ul. Pasteura 5, 02-093 Warszawa tel: +48 22 5532 000 https://www.fuw.edu.pl/ kontakt deklaracja dostępności USOSweb 7.0.3.0 (2024-03-22)