Wprowadzenie

KROK 1

Wprowadzenie do Big Data Analytics

CO TO JEST BIG DATA?

Big Data to dowolna du�a ilo�� danych ustrukturyzowanych, cz�ciowo ustrukturyzowanych i nieustrukturyzowanych, kt�re mog� zosta� wydobyte w celu uzyskania informacji, w kt�rych indywidualne rekordy przestaj� mie� znaczenie i tylko agreguj� je. Dane staj� si� Big Data, gdy przetwarzanie ich przy u�yciu tradycyjnych technik jest trudne.

CHARAKTERYSTYKA BIG DATA:

Istnieje wiele cech Big Data. Om�wmy kilka tutaj.

1. Obj�to��: du�e zbiory danych oznaczaj� ogromne ilo�ci danych generowanych przez czujniki, maszyny po��czone z eksplozj� internetu, media spo�eczno�ciowe, handel elektroniczny, urz�dzenia GPS itp.

2. Pr�dko��: implikuje szybko��, z jak� nap�ywaj� dane, tak jak u�ytkownicy Facebooka generuj� 3 miliony polubie� dziennie, a u�ytkownicy tworz� oko�o 450 milion�w tweet�w dziennie.

3. R�norodno��: sugeruje rodzaj format�w i mo�na je podzieli� na 3 typy:

- Strukturalne - RDBMS, takie jak Oracle, MySQL, starsze systemy, takie jak Excel, Access

- P�ustrukturyzowane - e-maile, tweety, pliki dziennika, opinie u�ytkownik�w

- Nieustrukturyzowane - zdj�cia, wideo, pliki audio.

4. Wiarygodno��: Odnosi si� do stronniczo�ci, szumu i nieprawid�owo�ci w danych. Je�li chcemy uzyska� znacz�cy wgl�d w te dane, musimy je wst�pnie oczy�ci�.

5. Wa�no��: Odnosi si� do adekwatno�ci i precyzji danych, poniewa� wa�no�� danych jest bardzo wa�na przy podejmowaniu decyzji.

6. Zmienno��: Odnosi si� do tego, jak d�ugo dane s� wa�ne, poniewa� dane, kt�re s� obecnie aktualne, mog� nie by� wa�ne zaledwie kilka minut lub dni p�niej.

DLACZEGO BIG DATA JEST WA�NE?

Sukces organizacji polega nie tylko na tym, jak dobrze radzi sobie w prowadzeniu dzia�alno�ci, ale tak�e na tym, jak dobrze mo�e analizowa� swoje dane i uzyskiwa� wgl�d w swoj� firm�, konkurent�w itp. Du�e zbiory danych mog� pom�c ci w podj�ciu w�a�ciwej decyzji we w�a�ciwej decyzji czas. Dlaczego nie RDBMS? Skalowalno�� jest g��wnym problemem w RDBMS, bardzo trudno jest zarz�dza� RDBMS, gdy zmieniaj� si� wymagania lub liczba u�ytkownik�w. Kolejny problem z RDBMS polega na tym, �e musimy zdecydowa� o strukturze bazy danych na pocz�tku, a p�niejsze wprowadzanie jakichkolwiek zmian mo�e by� ogromnym zadaniem. W przypadku du�ych zbior�w danych potrzebujemy elastyczno�ci i niestety RDBMS nie mo�e tego zapewni�.

TERMINOLOGIA ANALITYCZNA

Analityka to jedno z niewielu p�l, w kt�rym wiele r�nych termin�w jest rozpowszechnianych przez wszystkich i wiele z nich brzmi podobnie, ale s� one u�ywane w r�nych kontekstach. Niekt�re terminy brzmi� bardzo odmiennie, ale s� podobne i mo�na je stosowa� zamiennie. Kto�, kto nie zna si� na Analityce, spodziewa� si� pomyli� z bogactwem terminologii dost�pnej w tej dziedzinie. Analityka to proces dzielenia problemu na prostsze cz�ci i korzystania z wnioskowania na podstawie danych w celu podejmowania decyzji. Analityka nie jest narz�dziem ani technologi�, a raczej sposobem my�lenia i dzia�ania. Business Analytics okre�la zastosowanie Analityki w sferze biznesu. Obejmuje analiz� marketingow�, analiz� ryzyka, analiz� oszustw, analiz� CRM, analiz� lojalno�ci, analiz� operacji, a tak�e analiz� HR. W ramach dzia�alno�ci Analityka jest wykorzystywana we wszystkich bran�ach, takich jak analityka finansowa, analityka zdrowotna, analityka detaliczna, analityka telekomunikacyjna, analityka internetowa. Analityka predykcyjna zyska�a na popularno�ci w ostatnich latach vs. retrospektywna natura, taka jak OLAP i BI, Analiza opisowa polega na opisywaniu lub eksploracji dowolnego rodzaju danych. Eksploracja i przygotowanie danych jest niezb�dne, aby w du�ym stopniu polega� na analizie opisowej. Big Data Analytics to nowy termin u�ywany do analizy nieustrukturyzowanych danych i du�ych danych, takich jak terabajty, a nawet petabajty danych. Big Data to dowolny zestaw danych kt�re nie mog� by� analizowane za pomoc� konwencjonalnych narz�dzi.

RODZAJE ANALITYKI

Analityk� mo�na zastosowa� do tak wielu problem�w i w wielu r�nych bran�ach, �e wa�ne jest, aby po�wi�ci� troch� czasu na zrozumienie zakresu analiz w biznesie. Przyjrzymy si� bli�ej 3 szerokim klasyfikacjom analitycznym: 1. W oparciu o bran��. 2. W oparciu o funkcj� biznesow�. 3. W oparciu o rodzaj oferowanych spostrze�e�. Zacznijmy od spojrzenia na bran�e, w kt�rych wykorzystanie analizy jest bardzo powszechne. Istniej� pewne bran�e, kt�re zawsze tworzy�y ogromn� ilo�� danych, takie jak karty kredytowe i towary konsumpcyjne. Bran�e te by�y jednymi z pierwszych, kt�re wprowadzi�y analizy. Analityka jest cz�sto klasyfikowana na podstawie bran�y, do kt�rej jest stosowana, dlatego us�yszysz takie terminy, jak analizy ubezpieczeniowe, analizy detaliczne, analityka internetowa i tak dalej. Mo�emy nawet sklasyfikowa� analityk� na podstawie funkcji biznesowej, w kt�rej jest u�ywana. Klasyfikacja analityki na podstawie funkcji biznesowej i wp�ywu wygl�da nast�puj�co:

- Analityka marketingowa

- Analizy sprzeda�y i HR

- Analizy �a�cucha dostaw i tak dalej

Mo�e to by� do�� d�uga lista, poniewa� analiza ma wp�yw na praktycznie ka�d� dzia�alno�� biznesow� w du�ej organizacji. Ale najbardziej popularny spos�b klasyfikowania analiz opiera si� na tym, co pozwala nam to zrobi�. Wszystkie informacje s� gromadzone dla r�nych bran� i r�nych dzia��w. Wszystko, co musimy zrobi�, to kroi� i kroi� dane na r�ne sposoby, by� mo�e patrz�c na nie pod r�nymi k�tami lub wzd�u� r�nych wymiar�w itp. Jak wida� analiza opisowa jest prawdopodobnie najprostszym rodzajem analizy, poniewa� wykorzystuje istniej�ce informacje z przesz�o�ci, aby zrozumie� decyzje w tera�niejszo�ci i miejmy nadziej�, �e pomo�e zdecydowa� o skutecznym �r�dle dzia�ania w przysz�o�ci. Jednak ze wzgl�du na wzgl�dn� �atwo�� zrozumienia i opisow� analiz� analityczn� cz�sto uwa�ano za stonowanego bli�niaka analityki. Ale jest r�wnie� niezwykle pot�na pod wzgl�dem potencja�u i w wi�kszo�ci sytuacji biznesowych, analiza opisowa mo�e pom�c rozwi�za� wi�kszo�� problem�w. Detali�ci s� bardzo zainteresowani zrozumieniem relacji mi�dzy produktami. Chc� wiedzie�, czy dana osoba kupuje produkt A, czy prawdopodobnie kupuje r�wnie� produkt B lub produkt C. Nazywa si� to analiz� powinowactwa produktu lub analiz� skojarze� i jest powszechnie stosowane w bran�y detalicznej. Nazywa si� to r�wnie� analiz� koszyka rynkowego i jest u�ywane w odniesieniu do zestawu technik, kt�re mo�na zastosowa� do analizy koszyka zakup�w lub transakcji. Czy zastanawia�e� si� kiedy�, dlaczego mleko jest umieszczane z ty�u sklepu, a magazyny i guma do �ucia znajduj� si� przy kasie? Wynika to z faktu, �e za po�rednictwem detalist�w analitycznych zdajesz sobie spraw�, �e podczas podr�y na ty� sklepu, aby odebra� niezb�dne rzeczy, mo�esz po prostu pokusi� si� o co� innego, a tak�e dlatego, �e czasopisma i guma do �ucia s� tanimi zakupami impulsowymi. Postanawiasz wrzuci� je do koszyka, poniewa� nie s� zbyt drogie i prawdopodobnie patrzy�e� na nie, czekaj�c w kolejce przy kasie. Analiza predykcyjna dzia�a poprzez identyfikacj� wzorc�w i danych historycznych, a nast�pnie u�ycie statystyki, aby wyci�ga� wnioski na temat przysz�o�ci. Na bardzo uproszczonym poziomie staramy si� dopasowa� dane do okre�lonego wzorca, a je�li uwa�amy, �e dane s� zgodne z okre�lonym wzorcem, mo�emy przewidzie�, co stanie si� w przysz�o�ci. Sp�jrzmy na inny przyk�ad dotycz�cy analizy predykcyjnej w bran�y telekomunikacyjnej. Du�a firma telekomunikacyjna ma dost�p do wszelkiego rodzaju informacji o nawykach telefonicznych klienta:

- Ile czasu sp�dzaj� na telefonie?

-Ile po��cze� mi�dzynarodowych wykonuj�?

- Czy wol� numery SMS lub po��czenia poza swoim miastem?

Jest to informacja, kt�r� mo�na uzyska� wy��cznie poprzez obserwacj� lub analiz� opisow�. Ale takie firmy, co wa�niejsze, chcia�yby wiedzie�, kt�rzy klienci planuj� odej�� i nawi�za� nowe po��czenie ze swoimi konkurentami. Wykorzysta tu informacje historyczne, ale w celu uzyskania wynik�w wykorzysta modelowanie i analiz� predykcyjn�. To jest analiza predykcyjna. Chocia� analiza opisowa jest bardzo pot�nym narz�dziem nadal daje nam informacje tylko o przesz�o�ci, podczas gdy w rzeczywisto�ci g��wn� trosk� wi�kszo�ci u�ytkownik�w zawsze b�dzie przysz�o��. W�a�ciciel hotelu chcia�by przewidzie�, ile jego pokoi b�dzie zajmowanych w przysz�ym tygodniu. Dyrektor generalny firmy Pharma b�dzie chcia� wiedzie�, kt�ry z jego testowanych lek�w najprawdopodobniej odniesie sukces. W tym przypadku analizy predykcyjne s� o wiele bardziej przydatne. Opr�cz tych narz�dzi istnieje trzeci rodzaj analiz, kt�ry powsta� bardzo niedawno, by� mo�e zaledwie dziesi�� lat temu. Nazywa si� to analiz� nakazow�. Analizy preskryptywne wykraczaj� poza analityk� predykcyjn�, m�wi�c nie tylko o tym, co si� dzieje, ale tak�e o tym, co mo�e si� wydarzy�, a co najwa�niejsze, co z tym zrobi�. Mo�e r�wnie� informowa� o wp�ywie tych decyzji, co sprawia, �e analiza nakazowa jest tak nowoczesna. Domeny biznesowe, kt�re s� �wietnymi przyk�adami, w kt�rych mo�na zastosowa� nakazow� analiz�, to przemys� lotniczy lub og�lnokrajowe sieci drogowe. Preskryptywne analizy mog� przewidzie� skutecznie koryguj�ce w�skie gard�a na drogach lub zidentyfikowa� drogi, na kt�rych mo�na wprowadzi� op�aty za przejazd w celu usprawnienia ruchu. Aby zobaczy�, jak funkcjonuje analiza nakazowa w bran�y lotniczej, sp�jrzmy na nast�puj�cy przyk�ad. Linie lotnicze zawsze szukaj� sposob�w na optymalizacj� swoich tras w celu uzyskania maksymalnej wydajno�ci. Mog� to by� miliardy dolar�w oszcz�dno�ci, ale nie jest to takie �atwe. Przy ponad 50 milionach lot�w komercyjnych na �wiecie co roku, jest to lot co sekund�. Prosta trasa lotu mi�dzy dwoma miastami, powiedzmy, San Francisco i Bostonem, ma 2000 opcji trasy. Dlatego bran�a lotnicza cz�sto polega na nakazowej analizie, kt�ra decyduje o tym, co, kto i jak powinien lata� samolotem, aby obni�y� koszty i zyski. Przyjrzeli�my si� zatem do�� dog��bnej analizie opisowej, predykcyjnej i nakazowej. Celem tego kursu b�dzie analiza opisowa. Pod koniec po�wi�cimy troch� czasu na zrozumienie niekt�rych bardziej popularnych technik modelowania predykcyjnego.

CYKL �YCIA ANALITYKI

Cykl �ycia Analityki ma r�ne etapy i wiele os�b opisuje go na wiele sposob�w, ale og�lny pomys� pozostaje taki sam. Rozwa�my nast�puj�ce etapy cyklu �ycia projektu Analityki.

- Identyfikacja problemu

- Formu�owanie hipotez

- Zbieranie danych

- Eksploracja danych

- Przygotowanie danych / manipulacja

- Planowanie modelu / budowanie

- Sprawdenie poprawno�ci modelu

- Oce� / Monitoruj wyniki

1. Identyfikacja problemu: Problem to sytuacja, kt�ra jest oceniana jako co�, co wymaga naprawy. Naszym zadaniem jest upewnienie si�, �e rozwi�zujemy odpowiedni problem, mo�e nie by� to ten przedstawiony nam przez klienta. Co naprawd� musimy rozwi�za�? Czasami stwierdzenia problem�w, kt�re otrzymujemy od firmy, s� bardzo proste. Na przyk�ad:

- Jak zidentyfikowa� najcenniejszych klient�w?

- W jaki spos�b mog� zminimalizowa� straty wynikaj�ce z braku dost�pno�ci produktu na p�ce?

- Jak zoptymalizowa� m�j ekwipunek?

- Jak wykry� klient�w, kt�rzy prawdopodobnie nie wykonaj� p�atno�ci rachunk�w?

S� to proste stwierdzenia problem�w i naprawd� nie ma w�tpliwo�ci co do tego, co pr�bujemy osi�gn�� dzi�ki projektowi analitycznemu. Jednak za ka�dym razem nasze o�wiadczenie biznesowe mo�e nie prowadzi� do jednoznacznej identyfikacji problemu. Czasami o�wiadczenia biznesowe s� na bardzo wysokim poziomie, dlatego b�dziesz musia� sp�dzi� czas z firm�, aby zrozumie� potrzeby i uzyska� kontekst. Konieczne mo�e by� podzielenie tego problemu na podproblemy w celu zidentyfikowania krytycznych wymaga�. By� mo�e trzeba pomy�le� o ograniczeniach, kt�re nale�y uwzgl�dni� w rozwi�zaniu. Przypu��my, �e pracujesz dla firmy obs�uguj�cej karty kredytowe, a firma m�wi ci, �e jest problem, na kt�ry chc� spojrze�, a mianowicie: "Chcemy otrzymywa� wnioski o kart� kredytow� tylko od dobrych klient�w" . Teraz z perspektywy biznesowej, czy jest to prawid�owe o�wiadczenie biznesowe? Z pewno�ci� na bardzo wysokim poziomie jest to wa�ny wym�g biznesowy. Czy jednak dla twojego celu, jakim jest zbudowanie rozwi�zania maj�cego na celu rozwi�zanie tego pytania, jest to bardzo wa�ne stwierdzenie, czy wystarczaj�cy punkt wyj�cia do analizy danych? Nie. Poniewa� z takim o�wiadczeniem biznesowym jest wiele problem�w. Co to znaczy, �e chcemy otrzymywa� wnioski o kart� kredytow� tylko od dobrych klient�w? Sp�jrzmy na problem z tym stwierdzeniem problemu. Chc� otrzymywa� wnioski o kredyt wy��cznie od dobrych klient�w. Jednym z najbardziej oczywistych problem�w zwi�zanych z tym stwierdzeniem jest to, kim s� dobrzy klienci? Je�li masz wiedz� na temat bran�y kart kredytowych, jedn� z odpowiedzi dla dobrego klienta mog� by� ludzie, kt�rzy nie zwlekaj� z p�atno�ciami. Oznacza to, �e wydajesz na kart� kredytow� i sp�acasz jej kart� kredytow� na czas. Jednak inn� definicj� dobrego klienta mog� by� ludzie, kt�rzy nie p�ac� na czas. Dlaczego? Poniewa� je�li nie zap�acisz na czas, wystawca karty kredytowej mo�e obci��y� Ci� wysokimi stopami procentowymi od tego salda na karcie kredytowej. Tego rodzaju klienci nazywani s� rewolwerami. Kto naprawd� jest dobrym klientem dla firmy wydaj�cej karty kredytowe? Czy ci klienci p�ac� na czas? Czy s� to klienci, kt�rzy nie wywi�zuj� si� ze zobowi�za� i nie p�ac� na czas. Odpowied� mo�e by� taka ,�e obaj s� dobrymi klientami. Jak to mo�liwe? To zale�y od twojej perspektywy. Je�li chcesz zminimalizowa� ryzyko, je�li pracujesz w dziale ryzyka firmy wydaj�cej karty kredytowe, Twoj� definicj� dobrego klienta s� klienci, kt�rzy p�ac� na czas, klienci, kt�rzy wywi�zuj� si� ze zobowi�za�. Je�li natomiast patrzysz na przychody, to dobrym pomys�em na dobrego klienta mog� by� ludzie, kt�rzy du�o wydaj� na kart� kredytow� i nie zwracaj� jej ca�ej. Maj� wysok� r�wnowag� obrotow�. Teraz, jako analityk, kto decyduje, kim s� dobrzy klienci? Gdy wystawca karty kredytowej wyda Ci wyci�g biznesowy, kt�ry m�wi, �e chcemy przyj�� wniosek o kart� kredytow� tylko od dobrych klient�w. Czy wiesz, �e szukaj� ryzyka lub przychod�w? To naprawd� zale�y od interes�w biznesowych; zale�y to od cel�w biznesowych na ten rok. W rzeczywisto�ci dobry klient w tym roku mo�e by� z�ym klientem w przysz�ym roku. Dlatego wa�ne jest, aby uzyska� kontekst lub opis problemu przed rozpocz�ciem analizy. Ale to nie jedyny problem z tym opisem problemu. Innym problemem jest zastanowienie si� nad decyzj�: czy naprawd� mo�esz nalega� na otrzymywanie dobrych aplikacji lub czy mo�esz nalega� na zatwierdzanie dobrych aplikacji. Czy decyzja jest na etapie sk�adania wniosku lub zatwierdzania? Czy naprawd� mo�esz kontrolowa� aplikacje, aby by�y dobre, czy mo�esz kontrolowa� decyzje, aby umo�liwi� dost�p do ciebie tylko dobrym klientom?. Innym problemem zwi�zanym z tym opisem problemu jest to, �e chcemy otrzymywa� wnioski o karty kredytowe tylko od dobrych klient�w. Czy realistyczne jest zak�adanie, �e b�dziesz mie� rozwi�zanie, kt�re nigdy nie przyjmie z�ego klienta? Ponownie, nie jest to realistyczny wynik. Wracaj�c do naszego stanu definicji problemu, kt�rym jest problem biznesowy, chc� uzyska� dobrych klient�w jako wystawca kart kredytowych. Jak przekszta�ci� ten problem w co�, co mo�e rozwi�za� podej�cie analityczne? Jednym ze sposob�w jest dodanie szczeg��w do opisu problemu. Pomy�l wi�c o konkretnych, wymiernych, osi�galnych, realistycznych i terminowych wynikach, kt�re mo�esz do��czy� do tego opisu problemu. Dlatego podkre�lamy, �e musisz dok�adnie zrozumie� kontekst biznesowy i porozmawia� czy masz do czynienia z w�a�ciwym problemem. Jak mog� doda� szczeg�y do tego problemu? Za��my, �e patrz� na to z perspektywy ryzyka, poniewa� w tym roku moje firmy wydaj�ce karty kredytowe skupi�y si� na zmniejszeniu ryzyka portfela. M�g�bym mie� r�ne o�wiadczenia o problemach biznesowych. Na przyk�ad zmniejsz straty z domy�lnej karta kredytowa o co najmniej 30 procent w ci�gu pierwszych 12 miesi�cy po wdro�eniu nowej strategii. Opracuj algorytm do sprawdzania aplikacji, kt�re nie spe�niaj� kryteri�w okre�lonych przez klienta, co zmniejszy domy�lne warto�ci o 20 procent w ci�gu najbli�szych 3 miesi�cy. Zidentyfikuj strategie ograniczenia domy�lnych zobowi�za� o 20 procent w ci�gu najbli�szych trzech miesi�cy, umo�liwiaj�c zagro�onym klientom dodatkowe opcje p�atno�ci. Zdecydowali�my, �e dobr� definicj� problemu zajmujemy si� z perspektywy ryzyka. Ale w przypadku tego samego o�wiadczenia biznesowego mamy teraz trzy r�ne o�wiadczenia dotycz�ce problem�w, kt�re dotycz� trzech r�nych rzeczy. Znowu, kt�ry z nich powinienem wybra� jako punkt wyj�cia do mojej analizy? Czy powinienem identyfikowa� strategie dla moich obecnych klient�w, czy powinienem szuka� potencjalnych nowych klient�w? Ponownie jest to co�, co mo�e wynika� z potrzeb biznesowych. Dlatego wa�ne jest, aby stale rozmawia� z biznesem, aby upewni� si�, �e rozpoczynaj�c projekt analityczny, rozwi�zujesz w�a�ciwe stwierdzenie problemu. Dotarcie do jasno zdefiniowanego problemu jest cz�sto oparte na odkryciach - zacznij od definicji poj�ciowej, a poprzez analiz� (pierwotn� przyczyn�, analiz� wp�ywu itp. kszta�tujesz i redefiniujesz problem pod wzgl�dem zagadnie�. Problem staje si� znany, gdy dana osoba widzi rozbie�no�� mi�dzy tym, jakie rzeczy s� i tym, jakie powinny by�. Problemy mog� by� zidentyfikowane przez:

- Badania por�wnawcze / por�wnanie

- Raportowanie wynik�w - ocena bie��cych wynik�w w stosunku do cel�w i za�o�e�

- Analiza SWOT - ocena mocnych stron, s�abo�ci, szans i zagro�e�

- Skargi / ankiety

Czasami to, co uwa�amy za problem, nie jest prawdziwym problemem, wi�c aby doj�� do prawdziwego problemu, konieczne jest sondowanie. Analiza przyczyn pierwotnych jest skuteczn� metod� sondowania - pomaga zidentyfikowa�, co, jak i dlaczego co� si� wydarzy�o. Rozwa�my wzrost rotacji pracownik�w w naszej organizacji. Musimy dowiedzie� si� czemu Pi�� Razy Dlaczego odnosi si� do praktyki pytania pi�� razy, dlaczego problem istnieje, aby dotrze� do jego pierwotnej przyczyny:

- Dlaczego pracownicy wyje�d�aj� do innej pracy?

- Dlaczego pracownicy nie s� zadowoleni?

- Dlaczego pracownicy uwa�aj�, �e s� niedop�acani?

- Dlaczego inni pracodawcy p�ac� wy�sze pensje?

- Dlaczego popyt na takich pracownik�w wzr�s� na rynku?

Podstawowe pytania do zdefiniowania problemu:

- Kto powoduje problem?

- Kogo dotyczy ten problem?

- Co si� stanie, je�li ten problem nie zostanie rozwi�zany? Jakie s� skutki?

- Gdzie i kiedy wyst�puje ten problem?

- Dlaczego wyst�puje ten problem?

- Jak powinien dzia�a� proces?

- Jak ludzie obecnie radz� sobie z problemem?

2. Formu�owanie hipotezy: Rozbij problemy i formu�uj hipotezy. Okre�l ramy pyta�, na kt�re nale�y odpowiedzie�, lub temat�w, kt�re nale�y zbada�, aby rozwi�za� problem.

- Opracuj kompleksow� list� wszystkich mo�liwych problem�w zwi�zanych z problemem

- Ogranicz obszern� list�, eliminuj�c duplikaty i ��cz�c nak�adaj�ce si� problemy

- Korzystaj�c z budowania konsensusu, przejd� do listy g��wnych problem�w.

3. Zbieranie danych: Aby odpowiedzie� na kluczowe pytania i zweryfikowa� hipotezy, konieczne jest zebranie realistycznych informacji. W zale�no�ci od rodzaju rozwi�zywanego problemu mo�na zastosowa� r�ne techniki gromadzenia danych. Zbieranie danych jest kluczowym etapem rozwi�zywania problem�w - je�li jest powierzchowne, stronnicze lub niekompletne, analiza danych b�dzie trudna.

Techniki zbierania danych:

- Korzystanie z danych, kt�re zosta�y ju� zebrane przez innych

- Systematycznie wybieraj i obserwuj cechy ludzi, przedmiot�w lub wydarze�.

- Ustne pytania respondent�w, indywidualnie lub w grupie.

- Zbieranie danych na podstawie odpowiedzi udzielonych przez respondent�w w formie pisemnej.

- U�atwienie bezp�atnych dyskusji na wybrane tematy z wybran� grup� uczestnik�w.

4. Eksploracja danych: Przed przeprowadzeniem formalnej analizy danych analityk musi wiedzie�, ile przypadk�w znajduje si� w zbiorze danych, jakie zmienne s� uwzgl�dnione, ile jest brakuj�cych obserwacji i jakie og�lne hipotezy dane mog� wesprze�. Wst�pna eksploracja zestawu danych pomaga odpowiedzie� na te pytania, zapoznaj�c analityk�w z danymi, z kt�rymi pracuj�. Analitycy cz�sto u�ywaj� wizualizacji do eksploracji danych, poniewa� umo�liwia ona u�ytkownikom szybkie i proste przegl�danie wi�kszo�ci istotnych funkcji ich zbioru danych. W ten spos�b u�ytkownicy mog� zidentyfikowa� zmienne, kt�re mog� mie� interesuj�ce obserwacje. Wy�wietlaj�c dane graficznie za pomoc� wykres�w rozrzutu lub wykres�w s�upkowych, u�ytkownicy mog� sprawdzi�, czy dwie lub wi�cej zmiennych koreluje i ustali�, czy s� dobrymi kandydatami do dalszej szczeg�owej analizy.

5. Przygotowanie danych: Dane przychodz� do Ciebie w formie, kt�ra nie jest �atwa do analizy. Musimy wyczy�ci� dane i sprawdzi� ich sp�jno��, konieczna jest obszerna manipulacja danymi w celu ich analizy.

Etapy przygotowania danych mog� obejmowa�:

- Importowanie danych

- Identyfikacja zmiennych / Tworzenie nowych zmiennych

- Sprawdzanie i podsumowywanie danych

- Wybieranie podzbior�w danych

- Wybieranie zmiennych i zarz�dzanie nimi.

- ��czenie danych

- Dzielenie danych na wiele zestaw�w danych.

- Leczenie brakuj�cych warto�ci

- Leczenie odst�pne

Identyfikacja zmiennych: Najpierw zidentyfikuj zmienne predykcyjne (wej�ciowe) i docelowe (wyj�ciowe). Nast�pnie okre�l typ danych i kategori� zmiennych.

Analiza jednoczynnikowa: Na tym etapie badamy zmienne jeden po drugim. Metoda przeprowadzania analizy jednoczynnikowej b�dzie zale�e� od tego, czy typ zmiennej jest kategoryczny czy ci�g�y. Przyjrzyjmy si� tym metodom i miarom statystycznym indywidualnie dla zmiennych jako�ciowych i ci�g�ych.

Ci�g�e zmienne: W przypadku zmiennych ci�g�ych musimy zrozumie� centraln� tendencj� i rozprzestrzenianie si� zmiennej. S� one mierzone przy u�yciu r�nych metod wizualizacji metryk statystycznych.

Zmienne jako�ciowe: W przypadku zmiennych jako�ciowych u�ywamy tabeli cz�stotliwo�ci, aby zrozumie� rozk�ad ka�dej kategorii. Mo�emy r�wnie� odczyta� jako procent warto�ci w ka�dej kategorii. Mo�na to zmierzy� za pomoc� dw�ch wska�nik�w, liczby i procentu dla ka�dej kategorii.

6. Budowanie modelu: To tak naprawd� ca�y proces budowania rozwi�zania i wdra�ania rozwi�zania. Wi�kszo�� czasu po�wi�conego na projekt sp�dza si� na etapie wdra�ania rozwi�zania. Jedn� z interesuj�cych rzeczy, o kt�rych nale�y pami�ta� przy podej�ciu analitycznym, jest to, �e podej�cie analityczne podczas budowania modeli, modeli analitycznych, jest procesem bardzo iteracyjnym, poniewa� nie ma czego� takiego jak ostateczne rozwi�zanie lub idealne rozwi�zanie. Zazwyczaj po�wi�casz czas na budowanie wielu modeli na wielu rozwi�zaniach, zanim znajdziesz najlepsze rozwi�zanie, z kt�rym firma b�dzie wsp�pracowa�.

7. Istnieje wiele sposob�w podejmowania decyzji z perspektywy biznesowej. Analityka to jeden spos�b. Istniej� inne sposoby podj�cia decyzji. Mo�e to by� podejmowanie decyzji opartych na do�wiadczeniu. Mo�e to by� proces decyzyjny oparty na przeszukaniu. I nie za ka�dym razem zawsze wybierzesz podej�cie analityczne. Jednak na d�u�sz� met� sensowne jest budowanie zdolno�ci analitycznych, poniewa� prowadzi to do bardziej obiektywnego podejmowania decyzji. Ale zasadniczo, je�li chcesz danych, aby przyspieszy� podejmowanie decyzji, musisz upewni� si�, �e zainwestowa�e� w gromadzenie odpowiednich danych, aby umo�liwi� Ci podejmowanie decyzji na podstawie danych

8. Ocena / monitorowanie modelu: Jest to ci�g�y proces maj�cy na celu przede wszystkim sprawdzenie skuteczno�ci rozwi�zania w czasie. Pami�taj, �e analityczne podej�cie do rozwi�zywania problem�w r�ni si� od standardowego podej�cia do rozwi�zywania problem�w. Musimy pami�ta� o tych punktach:

- Dane maj� wyra�n� pewno�� co do identyfikacji rozwi�zania.

- U�ywamy technik analitycznych opartych na teoriach numerycznych.

- Musisz dobrze zrozumie� teoretyczne koncepcje sytuacji biznesowych, aby stworzy� realne rozwi�zanie.

Oznacza to, �e potrzebujesz dobrego zrozumienia sytuacji biznesowej i kontekstu biznesowego, a tak�e silnej wiedzy na temat podej�� analitycznych i umie� ��czy� koncepcje, znale�� praktyczne rozwi�zanie. W niekt�rych bran�ach tempo zmian jest bardzo wysokie. Rozwi�zania starzej� si� wi�c bardzo szybko. W innych bran�ach tempo zmian mo�e nie by� tak wysokie, a kiedy zbudujesz rozwi�zanie, mo�esz mie� rozwi�zanie na 2-3 lata, kt�re b�dzie dzia�a�, ale trzeba b�dzie dostosowa�, aby zarz�dza� nowymi warunkami biznesowymi. Jednak sposobem oceny, czy Twoje rozwi�zanie dzia�a, jest okresowe sprawdzanie skuteczno�ci rozwi�zania. Konieczne jest �ledzenie niezawodno�ci w czasie i mo�e by� konieczne wprowadzenie niewielkich zmian, aby przywr�ci� rozwi�zanie na w�a�ciwe tory. Czasami mo�e by� konieczne zbudowanie ca�ego rozwi�zania od zera, poniewa� �rodowisko zmieni�o si� tak drastycznie, �e zbudowane rozwi�zanie nie ��czy si� ju� w obecnym kontek�cie biznesowym

WSP�LNE B��DY W ANALITYCZNYM MY�LENIU

Definicja problemu przez klienta mo�e by� niepoprawna. Mo�e mu brakowa� wiedzy i do�wiadczenia, kt�re posiadasz. Poniewa� wi�kszo�� problem�w nie jest unikalna, mo�emy potwierdzi� problem i mo�liwe rozwi�zania w stosunku do innych �r�de�. Najlepsze rozwi�zania problemu s� cz�sto zbyt trudne do wdro�enia przez klienta. Zachowaj wi�c ostro�no�� w zalecaniu optymalnego rozwi�zania problemu. Wi�kszo�� wyja�nie� wymaga pewnego stopnia ugody w celu wykonania.

KROK 2

Rozpocz�cie pracy z R

WPROWADZENIE

R jest j�zykiem programowania do analizy statystycznej i raportowania. R jest prostym j�zykiem programowania, kt�ry zawiera wiele funkcji do analizy danych, ma efektywne narz�dzie do obs�ugi i przechowywania danych. R zapewnia graficzne mo�liwo�ci analizy danych i raportowania. Prosz� o zainstalowanie R and R studio, kt�re mo�na bezp�atnie pobra�. Kiedy po raz pierwszy otworzysz Studio R, zobaczysz cztery okna.

1. Skrypty: S�u�y jako obszar do pisania i zapisywania kodu R.
2. Obszar roboczy: Wy�wietla zestaw danych i zmienne w �rodowisku R.
3. Wykresy: Wy�wietla wykresy wygenerowane przez kod R.
4. Konsola : Zapewnia histori� wykonanego kodu R i danych wyj�ciowych

OPERACJE ELEMENTARNE W R

1. Wyra�enia:

Je�li pracujesz tylko z liczbami R mo�esz u�y� jako zaawansowanego kalkulatora, po prostu wpisz

4 + 5

i naci�nij enter, otrzymasz warto�� 9.

R mo�e wykonywa� obliczenia matematyczne bez konieczno�ci przechowywania go w obiekcie. Wynik jest wydrukowany na konsoli. Spr�buj obliczy� iloczyn 2 lub wi�cej liczb (* to operator mno�enia).

6 * 9 # otrzymasz 54.

Cokolwiek napisane po znaku # b�dzie uwa�ane za komentarz w R.

R stosuje si� do regu� BODMAS, aby wykonywa� operacje matematyczne. Wpisz nast�puj�ce polecenia i zrozum r�nic�.

20-15 * 2 # otrzymasz -10

(20-15) * 2 #uzyskasz 10

Uwa�aj, aby oddzieli� dowoln� warto�� od 0, aby uzyska� inf (niesko�czono��).

wpisz to polecenie w konsoli i sprawd�

8/0

Te operacje matematyczne mo�na ��czy� w d�ugie formu�y, aby osi�gn�� okre�lone zadania.

2. Warto�ci logiczne:

Niewiele wyra�e� zwraca "warto�� logiczn�": PRAWDA lub FA�SZ. (znane jako warto�ci "boolowskie"). Sp�jrz na wyra�enie, kt�re daje nam logiczn� warto��:

6 < 9 # PRAWDA

3. Zmienne:

Mo�emy przechowywa� warto�ci w zmiennej, aby uzyska� do niej dost�p p�niej.

X <- 48 # do przechowywania warto�ci w x.

Y <- "YL, Prasad" (nie zapomnij cudzys�ow�w)

Teraz X i Y s� obiektami utworzonymi w R, mog� by� u�ywane w wyra�eniach w pozycji oryginalnego wyniku. Spr�buj wywo�a� X i Y, wpisuj�c nazw� obiektu

Y # [1] "YL, Prasad"

musimy pami�ta�, �e R rozr�nia ma�e i wielkie litery.Je�li przypiszesz warto�� do znaku X i wywo�asz ma�e X, wy�wietli si� b��d. Spr�buj podzieli� X przez 2 (/ jest operatorem dzielenia) # dostaniesz 24 jako odpowied� Mo�emy ponownie przypisa� dowoln� warto�� do zmiennej w dowolnym momencie. Przypisz "Lakshmi" do Y.

Y <- "Lakshmi"

Mo�emy wy�wietli� warto�� zmiennej po prostu wpisuj�c jej nazw� w konsoli. Spr�buj wy�wietli� bie��c� warto�� Y. Je�li napisa�e� ten kod, gratulacje! Pierwszy kod napisa�e� w R i stworzy�e� obiekt.

4. Funkcje

Mo�emy wywo�a� funkcj�, wpisuj�c jej nazw�, a nast�pnie w nawiasie argumenty tej funkcji. Wypr�buj funkcj� sumowania, aby doda� kilka liczb. Wchodzi�:

sum(1, 3, 5) # 9

U�ywamy funkcji sqrt, aby uzyska� pierwiastek kwadratowy z 16.

sqrt(16) # 4

16^.5 # r�wnie� daje tak� sam� odpowied� jak 4

Pierwiastek kwadratowy jest najcz�ciej stosowan� transformacj� wraz z transformacj� log�w podczas przygotowywania danych. Wpisz nast�puj�ce polecenia i sprawd� odpowiedzi

log(1) # 0

log(10) # 2.302585

log10(100) # to zwr�ci 2, poniewa� log 100 o podstawie 10 wynosi 2. W dowolnym momencie, je�li chcesz uzyska� dost�p do okna pomocy, mo�esz wpisa� nast�puj�ce polecenia

help(exp)

? exp

Je�li chcesz poda� przyk�ad funkcji, podaj nast�puj�ce polecenie:

example (log)

R pozwala zapisa� �rodowisko robocze, w tym zmienne i za�adowane biblioteki, do pliku danych .R za pomoc� funkcji save.image (). Istniej�cy plik danych .R mo�na za�adowa� za pomoc� funkcji load.image ().

5. Pliki Polecenia R mo�na zapisywa� i przechowywa� w plikach tekstowych (z rozszerzeniem ".R") w celu ich p�niejszego wykonania. Za��my, �e zachowali�my kilka przyk�adowych skrypt�w. Mo�emy wy�wietli� list� plik�w w bie��cym katalogu z poziomu R wywo�uj�c funkcj� list.files.

list.files ()

USTAWIANIE KATALOGU ROBOCZEGO

Przed zag��bieniem si� w R zawsze lepiej jest skonfigurowa� katalog roboczy do przechowywania wszystkich naszych plik�w, skalar�w, wektor�w, ramek danych itp. Po pierwsze, chcemy wiedzie�, kt�ry katalog domy�lnie u�ywa R. aby to zrozumie�, wpisz polecenie:

getwd () # [1] "C:/Users/admin/Documents"

Teraz chc� ustawi� dane folderu R jako m�j katalog roboczy, kt�ry znajduje si� na dysku D. aby to zrobi�, wydam polecenie:

setwd ("D:/ R Data")

Naci�nij Enter (kliknij przycisk Prze�lij ikon�), aby upewni� si�, �e polecenie zosta�o wykonane i katalog roboczy zosta� ustawiony. Ustawiamy dane folderu R na dysku D jako katalog roboczy. Nie oznacza to, �e utworzyli�my tutaj co� nowego, ale w�a�nie przypisali�my miejsce jako katalog roboczy, tutaj zostan� dodane wszystkie pliki. Aby sprawdzi�, czy katalog roboczy zosta� poprawnie skonfigurowany, wydaj polecenie:

getwd ()

STRUKTURY DANYCH W R

Struktura danych to interfejs do danych zorganizowanych w pami�ci komputera. R zapewnia kilka rodzaj�w struktury danych, z kt�rych ka�da ma na celu optymalizacj� niekt�rych aspekt�w przechowywania, dost�pu lub przetwarzania. Przyk�ady struktur danych: 1. Wektor 2. Macierz 3. Czynnik 4. Ramka Danych

1. Wektory

Wektory s� podstawowym elementem sk�adowym danych w R. Zmienne R s� w rzeczywisto�ci wektorami. Wektor mo�e sk�ada� si� tylko z warto�ci z tej samej klasy. Testy wektor�w mo�na przeprowadzi� za pomoc� funkcji is.vector(). Nazwa mo�e brzmie� przera�aj�co, ale wektor to po prostu lista warto�ci. Warto�ciami wektorowymi mog� by� liczby, ci�gi znak�w, warto�ci logiczne lub dowolny inny typ, o ile wszystkie s� tego samego typu. Rodzaje wektor�w: Ca�kowity, Numeryczny, Logiczny, Znakowy, Z�o�ony. R zapewnia funkcjonalno��, kt�ra umo�liwia �atwe tworzenie i manipulowanie wektorami. Poni�szy kod R ilustruje spos�b tworzenia wektora za pomoc� funkcji ��czenia, c() lub operatora dwukropka:, Stw�rzmy wektor liczb:

c(4,7,9)

Funkcja c (c jest skr�tem od Combine) tworzy nowy wektor, ��cz�c list� warto�ci. Utw�rz wektor z ci�gami znak�w:

c("a", "b", "c")

Sekwencja wektor�w

Mo�emy stworzy� wektor z notacj� pocz�tek : koniec, aby utworzy� sekwencje. Zbudujmy wektor z sekwencji liczb ca�kowitych od 5 do 9.

5:9 # Tworzy wektor o warto�ciach od 5 do 9

Mo�emy nawet wywo�a� funkcj� seq. Spr�bujmy zrobi� to samo z seq:

seq (5,9)

Dost�p do wektora

Po utworzeniu wektora z niekt�rymi �a�cuchami i zapisaniu go, mo�emy odzyska� indywidualn� warto�� w wektorze, podaj�c jego indeks liczbowy w nawiasach kwadratowych.

sentence <- c('Learn', 'Data', 'Analytics')

sentence[3] # [1] "Analytics"

Mo�emy przypisa� nowe warto�ci do istniej�cego wektora. Spr�buj zmieni� trzecie s�owo na "Science":

sentence [3] <- "Science"

Je�li dodasz nowe warto�ci do wektora, wektor wzro�nie, aby je uwzgl�dni�. Dodajmy czwarte s�owo:

sentence [4] <- 'By YL, Prasad'

Mo�emy u�y� wektora w nawiasach kwadratowych, aby uzyska� dost�p do wielu warto�ci. Spr�buj uzyska� pierwsze i czwarte s�owo:

sentence [c(1, 4)]

Oznacza to, �e mo�esz pobra� zakresy warto�ci. Uzyskaj od drugiego do czwartego s�owa:

sentence [2:4]

Mo�emy ustawi� zakresy warto�ci, po prostu podaj�c warto�ci w wektorze.

sentence [5:7] <- c('at', 'PRA', 'Analytix') #aby doda� s�owa od 5 do 7

Spr�buj uzyska� dost�p do si�dmego s�owa wektora sentence:

sentence[7]

Nazwy wektor�w

Stw�rzmy 3-elementowy wektor i zapiszmy go w zmiennej rang. Mo�emy przypisywa� nazwy do element�w wektora, przekazuj�c drugi wektor wype�niony nazwami do funkcji przypisywania nazw, w nast�puj�cy spos�b:

ranks <- 1:3

names(ranks) <- c("first", "second", "third")

ranks

Mo�emy u�y� tych nazw, aby uzyska� dost�p do warto�ci wektora.

ranks["first"]

Macierze

Macierz w R to zbi�r jednorodnych element�w u�o�onych w 2 wymiarach.

• Macierz jest wektorem z atrybutem dim, tj. wektorem liczb ca�kowitych podaj�cym liczb� lub wiersze i kolumny.

• Funkcje dim(), nrow() i ncol() zapewniaj� atrybuty macierzy.

• Wiersze i kolumny mog� mie� nazwy, dimnames(), rownames(), colnames()

Przyjrzyjmy si� podstawom pracy z macierzami, tworzeniem ich, uzyskiwaniem do nich dost�pu i wykre�lenia. Stw�rzmy macierz o wysoko�ci 3 wierszy i szeroko�ci 4 kolumn, z wszystkimi polami ustawionymi na 0.

Sample <- matrix (0, 3, 4)

Konstrukcja macierzy

Mo�emy zbudowa� macierz bezpo�rednio z elementami danych, zawarto�� matrycy jest domy�lnie wype�niona wzd�u� orientacji kolumny. Sp�jrz na poni�szy kod, zawarto�� Sample jest wype�niana kolumnami kolejno.

Sample <- matrix( 1:20, nrow=4, ncol=5)

Dost�p do macierzy

Aby uzyska� warto�ci z macierzy, wystarczy poda� dwa wska�niki zamiast jednego. Wydrukujmy nasz� macierz pr�bek:

print (Sample)

Spr�buj uzyska� warto�� z drugiego wiersza w trzeciej kolumnie Sample:

Sample [2,3]

Mo�emy uzyska� ca�y wiersz macierzy, pomijaj�c indeks kolumny (zachowuj�c przecinek). Spr�buj pobra� trzeci rz�d:

Sample [3,] # [1] 3 7 11 15

Aby uzyska� ca�� kolumn�, pomi� indeks wiersza. Pobierz czwart� kolumn�:

Sample [,4] # [1] 13 14 15 16

Czynniki

Gdy chcemy, aby dane zosta�y pogrupowane wed�ug kategorii, R ma specjalny typ zwany factor do �ledzenia tych skategoryzowanych warto�ci. Czynnik jest wektorem, kt�rego elementy mog� przyjmowa� jedn� z okre�lonych warto�ci. Na przyk�ad "P�e�" zwykle przyjmuje tylko warto�ci "M�czyzna", "Kobieta" i "NA". Zbi�r warto�ci, kt�re mog� przyjmowa� elementy czynnika, nazywa si� jego poziomami.

Tworzenie Czynnik�w

Aby kategoryzowa� warto�ci, wystarczy przekaza� wektor do funkcji factor:

gender <- c('male', 'female', 'male', 'NA', 'female')

types <- factor(gender)

print(gender)

Zobaczysz nieprzetworzon� list� ci�g�w, powtarzane warto�ci i inne. Teraz wy�wietl wsp�czynnik typ�w:

print(types)

Rzu�my okiem na le��ce u podstaw liczby ca�kowite. Przeka� wsp�czynnik do funkcji as.integer:

as.integer(types) # [1] 2 1 2 3 1

Za pomoc� funkcji poziom�w mo�na uzyska� tylko poziomy czynnik�w:

levels(types) # [1] "female" "male" "NA"

Ramki danych

Ramki danych zapewniaj� struktur� do przechowywania i uzyskiwania dost�pu do kilku zmiennych mo�liwie r�nych typ�w danych. Ze wzgl�du na ich elastyczno�� w obs�udze wielu typ�w danych, ramki danych s� preferowanym formatem wej�ciowym dla wielu funkcji modelowania dost�pnych w R. Utw�rzmy trzy indywidualne obiekty o nazwach Id, Gender i Age i po��czmy je w zbi�r danych.

Id <- c(101, 102, 103, 104, 105)

Gender <- c('male', 'female', 'male', 'NA', 'female')

Age <- c(38,29,NA,46,53)

Id, Gender i Age s� trzema pojedynczymi obiektami, R ma struktur� znan� jako ramka danych, kt�ra mo�e powi�za� wszystkie te zmienne w jednej tabeli lub arkuszu kalkulacyjnym Excel. Ma okre�lon� liczb� kolumn, z kt�rych ka�da powinna zawiera� warto�ci okre�lonego typu. Ma tak�e nieokre�lon� liczb� wierszy - zestawy powi�zanych warto�ci dla ka�dej kolumny. �atwo jest utworzy� zestaw danych, wystarczy wywo�a� funkcj� data.frame i poda� argumenty Id, Gender i Age. Przypisz wynik do zestawu danych Test:

Test <- data.frame(Id, Gender, Age)

Wy�wietl test, aby zobaczy� jego zawarto��:

print(Test)

fix(Test) # Aby wy�wietli� ten zestaw danych obiektu

Dost�p do ramki danych: Dost�p do poszczeg�lnych cz�ci ramki danych jest �atwy. Mo�emy uzyska� poszczeg�lne kolumny, podaj�c ich numer indeksu w nawiasach podw�jnych. Spr�buj uzyska� drug� kolumn� (Gender) Test:

Test [[2]]

Mo�esz poda� nazw� kolumny jako ci�g w nawiasach podw�jnych dla wi�kszej czytelno�ci

Test [["Age"]]

Mo�emy nawet u�y� skr�tu: nazwa ramki danych, znak dolara i nazwa kolumny bez cudzys�ow�w.

Test$Gender

2.5 IMPORTOWANIE I EKSPORTOWANIE DANYCH

Do�� cz�sto musimy pozyskiwa� nasze dane z zewn�trznych plik�w, takich jak pliki tekstowe, arkusze Excela i pliki CSV, aby wykona� to R otrzyma� mo�liwo�� atwego �adowania danych z zewn�trznych plik�w. Twoje �rodowisko mo�e mie� wiele obiekt�w i warto�ci, kt�re mo�esz usun�� za pomoc� nast�puj�cego kodu:

rm(list = ls ())

Funkcja rm() umo�liwia usuwanie obiekt�w z okre�lonego �rodowiska. Importowanie plik�w TXT: Je�li masz plik .txt lub plik tekstowy rozdzielany tabulatorami, mo�esz go �atwo zaimportowa� za pomoc� podstawowej funkcji R read.table ().

setwd ("D: / R Data")

Inc_ds <- read.table ("Income.txt")

W przypadku plik�w, kt�re u�ywaj� ci�g�w separatora innych ni� przecinki, mo�na u�y� funkcji read.table. Argument sep = definiuje znak separatora i mo�na okre�li� znak tabulacji za pomoc� "\t". Wywo�aj read.table na "Inc_tab.txt", u�ywaj�c separator�w tabulator�w:

read.table ("Inc_tab.txt", sep= "\t")

Czy zauwa�ysz nag��wki kolumn "V1", "V2" i "V3"? Pierwszy wiersz nie jest automatycznie traktowany jako nag��wki kolumn w read.table. To zachowanie jest kontrolowane przez argument nag��wka. Ponownie wywo�aj read.table, ustawiaj�c nag��wek na TRUE:

Inc_th <- read.table ("Inc_tab.txt", sep= "\ t", nag��wek = TRUE)

fix (Inc_th)

Importowanie plik�w CSV: Je�li masz plik, kt�ry oddziela warto�ci przecinkiem, zwykle masz do czynienia z plikiem .csv. Mo�esz za�adowa� zawarto�� pliku CSV do ramki danych, przekazuj�c nazw� pliku do funkcji read.CSV.

read.CSV ("Employee.csv") # Wykonanie tego R oczekuje obecno�ci naszych plik�w w katalogu roboczym.

Eksporujemy pliki za pomoc� funkcji write.table: Funkcja write.table generuje pliki danych. Pierwszy argument okre�la, kt�ra ramka danych w R ma zosta� wyeksportowana. Nast�pny argument okre�la plik do utworzenia. Domy�lny separator to pusta spacja, ale dowolny separator mo�na okre�li� w opcji sep =. Poniewa� nie chcemy do��cza� nazw wierszy, otrzymali�my opcj� row.names = FALSE, Domy�lnym ustawieniem opcji quote jest uwzgl�dnianie cudzys�ow�w wok� wszystkich warto�ci znak�w, tj. Wok� warto�ci w zmiennych �a�cuchowych i wok� nazw kolumn. Jak pokazali�my w tym przyk�adzie, bardzo cz�sto nie chce si� cytat�w podczas tworzenia pliku tekstowego.

write.table(Employee, file="emp.txt", row.names = FALSE, quote = FALSE)

KROK 3

Eksploracja Danych

WPROWADZENIE

Ilekro� mamy zamiar stworzy� model, bardzo wa�ne jest, aby zrozumie� dane i znale�� ukryty wgl�d w dane. Powodzenie projektu analizy danych wymaga g��bokiego zrozumienia danych. Eksploracja danych pomo�e ci stworzy� dok�adne modele, je�li wykonasz to w zaplanowany spos�b. Przed formaln� analiz� danych analityk musi wiedzie�, ile przypadk�w znajduje si� w zbiorze danych, jakie zmienne s� uwzgl�dnione, ile brakuj�cych obserwacji znajduje si� w zbiorze danych. Etapy eksploracji danych obejmuj� zrozumienie zbior�w danych i zmiennych, sprawdzanie atrybut�w danych, rozpoznawanie i usuwanie brakuj�cych warto�ci, warto�ci odstaj�cych, zrozumienie podstawowej prezentacji danych itp. dzia�ania w zakresie eksploracji danych obejmuj� badanie danych w zakresie podstawowych miar statystycznych i tworzenie wykresy i wykresy do wizualizacji i identyfikacji relacji i wzorc�w. Wst�pna eksploracja zestawu danych pomaga odpowiedzie� na te pytania, zapoznaj�c analityk�w z danymi, z kt�rymi pracuj�. Dodatkowe pytania i uwagi dotycz�ce etapu warunkowania danych obejmuj�: Jakie s� �r�d�a danych? Jakie s� pola docelowe? Jak czyste s� dane? Jak sp�jna jest zawarto�� i pliki? Jako specjalista ds. danych musisz ustali�, w jakim stopniu dane zawieraj� brakuj�ce lub niesp�jne warto�ci oraz czy dane zawieraj� warto�ci odbiegaj�ce od normalnych, i oce� sp�jno�� typ�w danych. Na przyk�ad, je�li zesp� spodziewa si�, �e pewne dane b�d� liczbowe, potwierd�, �e s� one numeryczne lub jest to po��czenie ci�g�w alfanumerycznych i tekstu. Przejrzyj zawarto�� kolumn danych lub innych danych wej�ciowych i sprawd�, czy maj� one sens. Na przyk�ad, je�li projekt obejmuje analiz� poziom�w dochod�w, wy�wietl podgl�d danych, aby potwierdzi�, �e warto�ci dochod�w s� dodatnie lub czy dopuszczalne s� zera lub warto�ci ujemne. Poszukaj dowod�w na systematyczny b��d. Przyk�ady obejmuj� przesy�anie danych z czujnik�w lub innych �r�de� danych, kt�re ulegaj� awarii bez uprzedzenia, co powoduje nieprawid�owe, nieprawid�owe lub brakuj�ce warto�ci danych. Przejrzyj dane do pomiaru, je�li definicja danych jest taka sama dla wszystkich pomiar�w. W niekt�rych przypadkach kolumna danych jest zmieniana lub kolumna przestaje by� zape�niana, bez opisywania tej zmiany lub powiadamiania innych. Po zebraniu przez zesp� przynajmniej niekt�rych zestaw�w danych potrzebnych do p�niejszej analizy, przydatnym krokiem jest wykorzystanie narz�dzi do wizualizacji danych w celu przeanalizowania wzorc�w wysokiego poziomu w danych, umo�liwiaj�c bardzo szybkie zrozumienie cech danych. Jednym z przyk�ad�w jest u�ycie wizualizacji danych w celu zbadania jako�ci danych, takich jak to, czy dane zawieraj� wiele nieoczekiwanych warto�ci lub innych wska�nik�w brudnych danych. Innym przyk�adem jest Sko�no��, je�li wi�kszo�� danych jest mocno przesuni�ta w kierunku jednej warto�ci lub ko�ca kontinuum. Wizualizacja danych umo�liwia u�ytkownikowi wyszukiwanie interesuj�cych obszar�w, powi�kszanie i filtrowanie w celu znalezienia bardziej szczeg�owych informacji o danym obszarze danych, a nast�pnie wyszukanie szczeg�owych danych w okre�lonym obszarze. Takie podej�cie zapewnia og�lny widok danych i du�� ilo�� informacji o danym zbiorze danych w stosunkowo kr�tkim czasie.

WYTYCZNE I UWAGI

Przejrzyj dane, aby upewni� si�, �e obliczenia pozosta�y sp�jne w kolumnach lub tabelach dla danego pola danych. Na przyk�ad, czy czas �ycia klienta zmieni� si� w pewnym momencie w trakcie gromadzenia danych? Lub je�li pracujesz z finansami, czy obliczanie odsetek zmieni�o si� z prostych na z�o�one na koniec roku? Czy dystrybucja danych pozostaje sp�jna we wszystkich danych? Je�li nie, jakie dzia�ania nale�y podj��, aby rozwi�za� ten problem? Oce� ziarnisto�� danych, zakres warto�ci i poziom agregacji danych. Czy dane reprezentuj� populacj� b�d�c� przedmiotem zainteresowania? W przypadku danych marketingowych, je�li projekt koncentruje si� na klientach w wieku wychowawczym, czy dane te reprezentuj� to, czy s� pe�ne senior�w i nastolatk�w? Czy w przypadku zmiennych zwi�zanych z czasem pomiary s� codzienne, tygodniowe, miesi�czne? Czy to wystarczy? Czy wsz�dzie mierzy si� czas w sekundach? A mo�e w niekt�rych miejscach s� to milisekundy? Okre�l poziom szczeg�owo�ci danych potrzebnych do analizy i oce�, czy obecny poziom znacznik�w czasu w danych spe�nia t� potrzeb�. Czy dane s� standaryzowane / znormalizowane? Czy skale s� sp�jne? Je�li nie, w jakim stopniu dane s� sp�jne lub nieregularne? S� to typowe kwestie, kt�re powinny by� cz�ci� procesu my�lowego, gdy zesp� ocenia zestawy danych uzyskane dla projektu. Zdobycie g��bokiej wiedzy na temat danych b�dzie mia�o kluczowe znaczenie, gdy przyjdzie czas na budow� i uruchamianie modeli w dalszej cz�ci procesu.

SPRAWD� CZʦ� DANYCH DATASET

setwd("D:/R data")
Employee <- read.csv("Employee.csv")
fix(Employee)
print(Employee)

Funkcja print() wy�wietla zawarto�� ramki danych (lub dowolnego innego obiektu). Zawarto�� mo�na zmieni� za pomoc� funkcji edit().
edit(Employee)

SPRAWD� WYMIAR DANYCH

U�yj dim(), aby uzyska� wymiary ramki danych (liczba wierszy i liczba kolumn). Dane wyj�ciowe to wektor.

Dim(Employee)

U�yj nrow() i ncol(), aby uzyska� odpowiednio liczb� wierszy i liczb� kolumn. Mo�emy uzyska� te same informacje, wyodr�bniaj�c pierwszy i drugi element wektora wyj�ciowego z dim().

nrow(Employee)
ncol(Employee)
Sprawd� funkcje i zrozum dane, wy�wietlaj�c kilka pierwszych wierszy za pomoc� funkcji head(). Domy�lnie R wy�wietli pierwsze 6 wierszy. Mo�emy u�y� head(), aby uzyska� pierwsze n obserwacji, a tail(), aby uzyska� ostatnie n obserwacji; domy�lnie n = 6. S� to dobre polecenia do uzyskania intuicyjnego wyobra�enia o tym, jak wygl�daj� dane, bez ujawniania ca�ego zestawu danych, kt�ry mo�e mie� miliony wierszy i tysi�ce kolumn.

head(Employee)

Je�li chcemy wybra� tylko kilka wierszy, mo�emy okre�li� t� liczb� wierszy.

Selecting Rows(Observations)
Samp <- Employee[1:3,]
head(mydata) # Pierwsze 6 wierszy zestawu danych
head(mydata, n=10) # Pierwsze 10 wierszy zestawu danych
head(mydata, n= -10) # Wszystkie wiersze opr�cz ostatnich 10
tail(mydata) # Ostatnie 6 wierszy
tail(mydata, n=10) # Ostatnie 10 wierszy
tail(mydata, n= -10) # Wszystkie wiersze opr�cz pierwszych 10
Nazwy zmiennych lub nazwy kolumn

names(Employee)

SPRAWD� CZʦ� OPISU DATASETU

Cz�� deskryptora oznacza metadane (dane o danych):

str(Employee)

Funkcja str() zapewnia struktur� ramki danych. Ta funkcja identyfikuje ca�kowite i liczbowe (podw�jne) typy danych, zmienne czynnikowe i poziomy, a tak�e kilka pierwszych warto�ci dla ka�dej zmiennej. Wykonuj�c powy�szy kod, mo�emy uzyska� informacje o atrybutach zmiennych, takich jak nazwa zmiennej, typ itp. "Num" oznacza, �e zmienna "count" jest liczbowa (ci�g�a), a "Factor" oznacza, �e zmienna jest kategoryczna z kategoriami lub poziomami. Polecenie sapply (Employee, class) zwr�ci nazwy i klasy (np. numeryczne, liczby ca�kowite lub znaki) ka�dej zmiennej w ramce danych.

sapply(Employee, class)

Aby uzyska� wszystkie kategorie lub poziomy zmiennej jako�ciowej, u�yj funkcji levels()

levels(Employee)

TWORZENIE WIZUALIZACJI

Powszechnie u�ywamy wizualizacji danych do eksploracji danych, poniewa� pozwala ona u�ytkownikom na szybkie i proste przegl�danie wi�kszo�ci istotnych funkcji zestawu danych. Wizualizacje pomagaj� nam zidentyfikowa� zmienne, kt�re mog� mie� interesuj�ce relacje. Wy�wietlaj�c dane graficznie za pomoc� wykres�w punktowych lub wykres�w s�upkowych, mo�emy sprawdzi�, czy dwie lub wi�cej zmiennych koreluje i ustali�, czy s� dobrymi kandydatami do dalszej szczeg�owej analizy. Przydatnym sposobem postrzegania wzorc�w i niesp�jno�ci w danych jest eksploracyjna analiza danych z wizualizacj�. Wizualizacja daje zwi�z�y obraz danych, kt�re mog� by� trudne do zrozumienia na podstawie samych liczb i podsumowa�. Zmienne x i y danych w ramce danych mo�na zamiast tego wizualizowa� na wykresie, kt�ry �atwo przedstawia zwi�zek mi�dzy dwiema zmiennymi. Wizualizacja pomaga nam tworzy� r�ne typy wykres�w, takie jak:

1. Histogram
2. Wykres ko�owy
3. Wykres s�upkowy / liniowy
4. Fabu�a pude�ka
5. Wykres punktowy

Histogramy: Histogramy mo�na tworzy� za pomoc� funkcji hist(x), gdzie x jest wektorem liczbowym warto�ci do wykre�lenia. Opcja freq = FALSE wykre�la g�sto�ci prawdopodobie�stwa zamiast cz�stotliwo�ci. Opcja breaks = kontroluje liczb� pojemnik�w.

# Prosty histogram
hist(Employee$Salary)
# Kolorowy histogram z r�n� liczb� pojemnik�w
hist(Employee$Salary, breaks=12, col="red")
# Na�o�one histogramy
hist(Employee$Salary, breaks="FD", col="green")
hist(Employee$Salary [Employee$Gender=="Male"], breaks="FD", col="gray",
add=TRUE)
legend("topright", c("Female","Male"), fill=c("green","gray"))

Wykresy ko�owe: Wykresy ko�owe s� tworzone za pomoc� funkcji pie(x, labels =), gdzie x jest nieujemnym wektorem numerycznym wskazuj�cym obszar ka�dego wycinka, a labels = zapisuje wektor znakowy nazw dla wycink�w.

# Prosty wykres ko�owy
Items_sold <- c(10, 12,4, 16, 8)
Location <- c("Hyderabad", "Bangalore", "Kolkata", "Mumbai", "Delhi")
pie(Items_sold, labels = Location, main="Pie Chart of Locations")
# 3D Roz�o�ony wykres ko�owy
library(plotrix)
pie3D(slices,labels=lbls,explode=0.1, main="Pie Chart of Countries ")

Wykres s�upkowy / liniowy:

Wykres liniowy: Wykresy liniowe s� zwykle preferowane, gdy mamy analizowa� rozk�ad trend�w w danym okresie. Wykres liniowy nadaje si� r�wnie� do wykres�w, w kt�rych musimy por�wna� wzgl�dne zmiany wielko�ci w pewnej zmiennej (jak czas).

# Aby utworzy� prosty wykres liniowy:

Plot(, type=l)

Wykresy pude�kowe: Wykresy pude�kowe mo�na tworzy� dla poszczeg�lnych zmiennych lub dla zmiennych wed�ug grup. Format to boxplot(x, data =), gdzie x jest formu��, a data = oznacza ramk� danych dostarczaj�c� dane. Przyk�adem formu�y jest grupa y~, w kt�rej dla ka�dej warto�ci grupy generowany jest osobny wykres pude�kowy dla zmiennej numerycznej y. Dodaj varwidth = TRUE, aby szeroko�ci wykresu pude�kowego by�y proporcjonalne do pierwiastka kwadratowego z rozmiar�w pr�bek. Addhorizontal = TRUE, aby odwr�ci� orientacj� osi.

# Boxplot wynagrodzenia wed�ug wykszta�cenia
boxplot(Salary~Education,data=Employee, main="Wynagrodzenia wed�ug wykszta�cenia", xlab="Education", ylab="Salary")
boxplot jest s�owem kluczowym do generowania boxplot. Wykres odbywa si� mi�dzy wynagrodzeniem pracownik�w a poziomem wykszta�cenia. Istnienie warto�ci odstaj�cych w zbiorze danych obserwuje si� jako punkty poza ramk�.

Wykresy rozrzutu: Istnieje wiele sposob�w tworzenia wykresu rozrzutu w R. Podstawow� funkcj� jest plot(x, y), gdzie x i y to wektory numeryczne oznaczaj�ce punkty (x, y) do wykre�lenia.

# Prosty wykres rozrzutu
attach(Employee)
plot(Age, Salary, main="Scatterplot on Age vs Salary",
xlab="Age", ylab="Salary ", pch= 19

BRAK DANYCH

Przyjrzyjmy si�, jak mo�na wykry� brakuj�ce dane w fazie eksploracji danych za pomoc� wizualizacji. Og�lnie rzecz bior�c, analitycy powinni szuka� anomalii, weryfikowa� dane ze znajomo�ci� domeny i decydowa� o najbardziej odpowiednim podej�ciu do czyszczenia danych. Rozwa� scenariusz, w kt�rym bank przeprowadza analizy danych posiadaczy rachunk�w w celu oceny zatrzymania klient�w.

rowSums(is.na(mydata)) # Liczba brak�w w wierszu
colSums(is.na(mydata)) # Liczba brak�w w kolumnie / zmiennej
# Konwertuj na brakuj�ce dane
mydata[mydata$age=="& ","age"] <- NA
mydata[mydata$age==999,"age"] <- NA
# Funkcja complete.cases() zwraca logiczny wektor wskazuj�cy, kt�re przypadki s� zako�czone
# lista wierszy danych, w kt�rych brakuje warto�ci
mydata[!complete.cases(mydata),]
# Funkcja na.omit () zwraca obiekt z listowym usuni�ciem brakuj�cych warto�ci.
# Tworzenie nowego zestawu danych bez brakuj�cych danych
mydata1 <- na.omit(mydata)

Warto�ci ekstremalne: obserwacje ekstremalne s� przedmiotem zainteresowania i zas�uguj� na nasz� uwag�, poniewa� s� czym� wi�cej ni� zwyk�ymi warto�ciami odstaj�cymi na ko�cu krzywej dzwonowej. S� to te, kt�re wypaczaj� rozk�ad do pokazanego wcze�niej kszta�tu F. Wykres pola dla wykrywania warto�ci odstaj�cych: warto�� odstaj�ca jest wynikiem bardzo r�nym od reszty danych. Analizuj�c dane, musimy pami�ta� o takich warto�ciach, poniewa� wp�ywaj� one na model, kt�ry pasujemy do danych. Dobry przyk�ad tego uprzedzenia mo�na zobaczy�, patrz�c na prosty model statystyczny, taki jak �rednia. Za��my, �e film otrzymuje ocen� od 1 do 5. Siedem os�b obejrza�o film i oceni�o film z ocenami 2, 5, 4, 5, 5, 5 i 5. Wszystkie z wyj�tkiem jednej z tych ocen s� do�� podobne (g��wnie 5 i 4), ale pierwsza ocena by�a zupe�nie inna od pozosta�ych. To by�a ocena 2. To jest przyk�ad warto�ci odstaj�cej. Wykresy pude�kowe m�wi� nam co� o rozk�adach wynik�w. Wykresy pokazuj� nam najni�sz� (doln� poziom� lini�) i najwy�sz� (g�rn�) lini� poziom�. Odleg�o�� mi�dzy najni�sz� poziom� lini� a najni�sz� kraw�dzi� przyciemnionego pude�ka to zakres, mi�dzy kt�rym przypada najni�sze 25% wynik�w (tzw. dolny kwartyl). Ramka (zabarwiony obszar) pokazuje �rodkowe 50% wynik�w (znane jako zakres mi�dzykwartylowy); tj. 50% wynik�w jest wi�kszych ni� najni�sza cz�� zabarwionego obszaru, ale mniejsza ni� g�rna cz�� zabarwionego obszaru. Odleg�o�� mi�dzy g�rn� kraw�dzi� przyciemnionego pude�ka a g�rn� poziom� lini� pokazuje zakres, pomi�dzy kt�rym przypada g�rne 25% wynik�w (g�rny kwartyl). Na �rodku przyciemnionego pude�ka znajduje si� nieco grubsza pozioma linia. To reprezentuje warto�� mediany. Podobnie jak histogramy, m�wi� nam r�wnie�, czy rozk�ad jest symetryczny czy pochylony. W celu symetrycznego rozmieszczenia w�s�w po obu stronach pude�ka maj� one r�wn� d�ugo��. Wreszcie zauwa�ysz ma�e k�ka nad ka�dym polem wykresu. S� to przypadki uwa�ane za warto�ci odstaj�ce. Ka�de ko�o ma obok siebie liczb�, kt�ra m�wi nam, w kt�rym rz�dzie edytora danych znale�� przypadek. Wykres ramkowy jest szeroko stosowany do badania istnienia warto�ci odstaj�cych w zbiorze danych. Dwa wa�ne fakty, o kt�rych nale�y pami�ta� w przypadku wykresu pude�kowego to : 1. Liczba obserwacji w zestawie danych musi wynosi� co najmniej pi��. 2. Je�li w zestawie danych znajduje si� wi�cej ni� jedna kategoria, nale�y je posortowa� wed�ug kategorii. Zestaw danych zawieraj�cy oceny 5 student�w z przedmiot�w z j�zyka angielskiego i przedmiot�w �cis�ych istnieje w formacie CSV. boxplot jest s�owem kluczowym do generowania boxplot. Wykre�lanie odbywa si� mi�dzy ocenami uzyskanymi przez student�w a przedmiotem. Istnienie warto�ci odstaj�cych w zbiorze danych obserwuje si� jako punkty poza ramk�. Chcemy skupi� si� na interesuj�cych momentach na peryferiach, znanych jako warto�ci odstaj�ce i dlaczego mog� by� wa�ne. Kiedy warto�ci odstaj�ce staj� si� skrajnymi obserwacjami po lewej lub po prawej stronie, mo�e to zmieni� za�o�enia przyj�te przez statyst� w konfiguracji badania dotycz�ce zachowania rekrutowanej populacji, co mo�e zagrozi� dowodowi badania i ostatecznie kosztownej pora�ce. Obserwacje ekstremalne s� przedmiotem zainteresowania i zas�uguj� na nasz� uwag�, poniewa� s� czym� wi�cej ni� zwyk�ymi warto�ciami odstaj�cymi na ko�cu krzywej dzwonowej. S� to te, kt�re wypaczaj� rozk�ad do kszta�tu F.

KROK 4

Przygotowanie Danych

WPROWADZENIE

Przygotowanie danych obejmuje etapy eksploracji, przetwarzania wst�pnego i danych reklamacyjnych przed modelowaniem i analiz�. Szczeg�owe zrozumienie danych ma kluczowe znaczenie dla powodzenia projektu. Musimy zdecydowa�, w jaki spos�b uwarunkowa� i przekszta�ci� dane, aby uzyska� format umo�liwiaj�cy p�niejsz� analiz�. Mo�e by� konieczne wykonanie wizualizacji danych, aby pom�c nam zrozumie� dane, w tym ich trendy, warto�ci odstaj�ce i relacje mi�dzy zmiennymi danych. Przygotowanie danych jest zwykle najbardziej pracoch�onnym krokiem i w rzeczywisto�ci zespo�y sp�dzaj� co najmniej 50% czasu projektu w tej krytycznej fazie. Je�li zesp� nie jest w stanie uzyska� wystarczaj�cej ilo�ci danych o wystarczaj�cej jako�ci, mo�e nie by� w stanie wykona� kolejnych krok�w w cyklu �ycia. Przygotowanie danych odnosi si� do procesu czyszczenia danych, normalizacji zestaw�w danych i wykonywania transformacji danych. Krytyczny krok w cyklu �ycia analizy danych, warunkowanie danych mo�e obejmowa� wiele skomplikowanych krok�w w celu po��czenia lub scalenia zestaw�w danych lub w inny spos�b wprowadzenia zestaw�w danych w stan umo�liwiaj�cy analiz� w kolejnych fazach. Uwarunkowanie danych jest cz�sto postrzegane jako etap przetwarzania wst�pnego dla analizy danych, poniewa� obejmuje wiele operacji na zbiorze danych przed opracowaniem modeli do przetwarzania lub analizy danych. Etapy przygotowania danych obejmuj�:

1. Tworzenie nowych zmiennych.
2. Grupowanie danych, usuwanie duplikat�w obserwacji w zbiorze danych.
3. Formatowanie.
4. Przechowywanie, upuszczanie, zmiana nazwy, etykietowanie.
5. Przetwarzanie warunkowe.
6. Funkcje.
7. ��czenie zestaw�w danych.
8. Transpozycja danych.

TWORZENIE NOWYCH ZMIENNYCH

We�my zestaw danych pracownik�w, mamy ich miesi�czne dane dotycz�ce dochodu, chcemy obliczy� podwy�k� ich wynagrodze� i obliczy� now� pensj�. U�ywamy operatora przypisania (<-) do tworzenia nowych zmiennych.

setwd("D:/R data")
Employee <- read.csv("Employee.csv")
fix(Employee)
Utw�rz zmienn� o nazwie Bonus z 8% wzrostem wynagrodzenia
Employee$Bonus <- Employee$Salary*.08
Employee$Newsal <- Employee$Salary + Employee$Bonus
fix(Employee)

SORTOWANIE DANYCH

Aby zgrupowa� ramk� danych w R, u�yj funkcji order(). Domy�lnie sortowanie jest ROSN�CE. Dodaj zmienn� sortuj�c�. Znak minus oznacza kolejno�� MALEJ�CO.

# Sortuj wed�ug wieku
Agesort <- Employee[order(Age),]
#Sortowanie z wieloma zmiennymi, sortuj wed�ug p�ci i wieku
Mul_sort <- Employee[order(Gender, Age),]

Wykonuj�c powy�szy kod, posortowali�my ramk� danych na podstawie Gender jako pierwszej preferencji i Age jako drugiej.
#Sortuj wed�ug Gender (rosn�co) i Age (malej�co)
Rev_sort <- Employee[order(Gender, -Age),]
detach(Employee)

IDENTYFIKACJA I USUWANIE DUPLIKOWANYCH DANYCH

Mo�emy usun�� zduplikowane dane za pomoc� funkcji duplicated() i unique(), a tak�e funkcji odr�bnej w pakiecie dplyr. Funkcja duplicated() zwraca wektor logiczny, w kt�rym PRAWDA okre�la, kt�re elementy wektora lub ramki danych s� duplikatami. Bior�c pod uwag� nast�puj�cy wektor:

Cust_Id <- c (101, 104, 104, 105, 104, 105)

Aby znale�� pozycj� zduplikowanych element�w w x, mo�emy u�y� tego:

duplicated(Cust_Id)

Mo�emy wy�wietli� zduplikowane elementy, wykonuj�c nast�puj�cy kod.

Cust_Id [duplicated(Cust_Id)]

Je�li chcesz usun�� zduplikowane elementy i uzyska� tylko unikalne warto�ci, u�yj! Duplicated(), gdzie! jest logiczn� negacj�:

Uniq_Cust <- Cust_Id [! Duplicated (Cust_Id)]

W naszych codziennych zadaniach musimy tworzy�, modyfikowa�, manipulowa� i przekszta�ca� dane, aby przygotowa� je do analizy i raportowania. U�ywamy niekt�rych lub innych funkcji do wi�kszo�ci operacji na danych. Znajomo�� tych funkcji mo�e znacznie u�atwi� programowanie. Mo�emy usun�� zduplikowane wiersze z ramki danych na podstawie warto�ci kolumn, w nast�puj�cy spos�b: # Usu� duplikaty na podstawie kolumn Work_Balance

Uniq_WB <- Employee [!duplicated(Employee$ Work_Balance), ]

Mo�esz wyodr�bni� unikalne elementy w nast�puj�cy spos�b:

unique(Cust_Id)

Mo�liwe jest r�wnie� zastosowanie unique() do ramki danych, aby usun�� zduplikowane wiersze w nast�puj�cy spos�b:

unique(Employee)

Funkcja distinct() w pakiecie dplyr mo�e by� u�ywana do przechowywania tylko unikatowych / odr�bnych wierszy z ramki danych. Je�li istniej� zduplikowane wiersze, zachowany zostanie tylko pierwszy wiersz. Jest to wydajna wersja podstawowej funkcji R unique(). Pakiet dplyr mo�na za�adowa� i zainstalowa� w nast�puj�cy spos�b:

install.packages("dplyr")

library("dplyr")

Usu� zduplikowane wiersze na podstawie wszystkich kolumn:

distinct(Employee)
#Usu� zduplikowane wiersze na podstawie okre�lonych kolumn (zmiennych): Usu� zduplikowane wiersze na podstawie JobSatisfaction.
distinct(Employee, JobSatisfaction)
# Usu� zduplikowane wiersze na podstawie JobSatisfaction i Perf_Rating.
distinct(Employee, JobSatisfaction, Perf_Rating)

FILTROWANIE OBSERWACJI NA PODSTAWIE WARUNK�W

Age_Con <- Employee[which(Employee$Age < 40), ]

Podczas filtrowania obserwacji na podstawie zmiennych znakowych musimy osadzi� ci�g w cudzys�owach.

Sex_Con <- Employee[which(Employee$Gender ="male"), ]
Filtruj obserwacje na podstawie wielu warunk�w

Mul_Con <-Employee[which(Employee $Gender=='Female' & Employee $Age < 30),]

Wyb�r za pomoc� funkcji subset

Funkcja subset() jest naj�atwiejszym sposobem wybierania zmiennych i obserwacji. W poni�szym przyk�adzie wybieramy wszystkie wiersze, kt�re maj� warto�� wieku wi�ksz� lub r�wn� 50 lub wiek mniejsz� ni� 30. Zachowujemy kolumny Emp_Id i Age.

# Korzystanie z funkcji podzbioru
Test <- subset(Employee, Age >= 50 | Age < 30, select=c(Emp_Id, Age))

Przetwarzanie warunkowe

Do�� cz�sto musimy przetwarza� dane w oparciu o okre�lone warunki, a podejmowanie decyzji jest wa�n� cz�ci� programowania. Mo�na to osi�gn�� za pomoc� warunkowej instrukcji if ... else.

Sk�adnia instrukcji If:

if (test_expression) {
statement
}

Mo�emy tworzy� nowe zmienne, u�ywaj�c, je�li inaczej. Chcemy promowa� nasz produkt tylko w�r�d os�b, kt�rych doch�d przekracza 40 tys.

Employee$Promo <- ifelse(Employee$Salary>40000,"Promote Product","Do not Promote Product")
fix(Employee)

# Tutaj sprawdzamy, czy elementy Wynagrodzenia pracownika $ s� wi�ksze ni� 40000, je�li element jest wi�kszy ni� 40000, przypisuje warto�� Promuj produkt do promocji pracownika, a je�li nie jest on wi�kszy ni� 40000, przypisuje warto�� z Nie promuj produktu na promocj� $ pracownik. Chcemy przypisa� warto�ci Low, Medium i High do zmiennej Sal_Grp. Aby to zrobi�, mo�emy u�y� zagnie�d�onych instrukcji ifelse():

Employee$Sal_Grp <-ifelse(Employee$Salary >20000 & Employee$Salary<50000," Medium", ifelse(Employee$Salary >= 50000, "High","Low"))

Teraz to m�wi, najpierw sprawd�, czy ka�dy element wektora Salary jest > 20000 i < 50000. Je�li tak, przypisz Medium do Sal_Grp. Je�li tak nie jest, sprawd� nast�pn� instrukcj� ifelse (), czy Salary > 50000. Je�li tak, przypisz Sal_Grp warto�� High. Je�li nie jest to �aden z nich, przypisz Low.

FORMATOWANIE

Jest to powszechnie stosowane w celu poprawy wygl�du danych wyj�ciowych, mo�emy u�ywa� ju� istniej�cych (zdefiniowanych przez system) format�w, a nawet tworzy� niestandardowe formaty do warto�ci bin w efektywny spos�b. Korzystaj�c z tego, mo�emy grupowa� dane na r�ne sposoby, bez konieczno�ci tworzenia nowego zestawu danych. Wyobra�my sobie, przeprowadzili�my ankiet� na temat nowego produktu (A / c): Og�lnie zadowolony - 1 - Bardzo niski 2 - Niski 3. OK, 4 - Dobry 5 Bardzo dobry. Chocia� istnieje wiele sposob�w pisania niestandardowych rozwi�za�, analityk powinien zna� specjalne procedury, kt�re mog� zmniejszy� potrzeb� niestandardowego kodowania. R b�dzie traktowa� czynniki jako zmienne nominalne, a czynniki uporz�dkowane jako zmienne porz�dkowe. Mo�esz u�y� opcji w funkcjach factor() i ordered() do sterowania mapowaniem liczb ca�kowitych na ci�gi. Mo�emy u�y� funkcji czynnikowej do stworzenia w�asnych etykiet warto�ci.

setwd("D:/R data")
Shop <- read.csv("Shopping.csv")
fix(Shop)
# Zmienna marki w zestawie danych Sklepu ma kod 1, 2, 3 .: Chcemy do��czy� etykiety warto�ci
1=Samsung, 2=Hitachi, 3=Bluestar.
Shop$Brand <- factor(Shop$Brand, levels = c(1,2,3),
labels = c("Samsung", "Hitachi", "Bluestar"))
# zmienna y jest kodowana 1,2, 3,4 i 5 # chcemy do��czy� etykiety warto�ci 1 - Bardzo niski 2 - Niski 3. OK 4 - Ddobry 5 - Bardzo dobry.
Shop$Overall_Sat <- ordered(Shop$Overall_Sat, levels = c(1,2,3,4,5),
labels = c("Very Low", "Low", "OK", "Good", "Extremely Good"))

Czasami mo�esz chcie� utworzy� now� zmienn� kategorialn�, klasyfikuj�c obserwacje wed�ug warto�ci zmiennej ci�g�ej. Za��my, �e chcesz utworzy� now� zmienn� o nazwie Age.Cat, kt�ra klasyfikuje ludzi jako "M�odych", "Doros�ych" i "Starych" wed�ug ich wieku. Osoby w wieku poni�ej 35 lat s� klasyfikowane jako m�ode, osoby mi�dzy 35 a 60 rokiem �ycia s� klasyfikowane jako doro�li, a osoby powy�ej 60 lat s� klasyfikowane jako osoby starsze.

Employee$Age.Cat<-cut(Employee$Age, c(18,35, 60,90), c("Young", "Adult", "Old")

UTRZYMANIE, OPADANIE, ZMIANA NAZWY, ETYKIETOWANIE

# Wybierz zmienne
myvars <- c("Brand", "Safety", "Look")
Sub_shop <- Shop[myvars]
fix(Sub_shop)
# Wyklucz 4 i 6 zmienn�
Sub_data <- Shop[c(-4,-6)]
fix(Sub_data)
# Zmie� nazw� interaktywnie
fix(Shop) # results are saved on close
# Zmie� nazw� programowo
library(reshape)
Ren_Shop <- rename(Shop, c(Safety="Security"))

Etykietowanie zmiennych: Mo�emy przypisa� etykiety zmiennych w var.labels do kolumn w danych ramki danych za pomoc� etykiety funkcji z pakietu Hmisc.

install.packages("Hmisc")
library("Hmisc")
label(Shop[["Overall_Sat"]]) <- "Overall Satisfaction of the Customer"
label(Shop[["Look"]]) <- "Look and Feel of the Product"
label(Shop)

FUNKCJE

Funkcja zwraca warto�� z oblicze� lub manipulacji systemem, kt�ra wymaga zero lub wi�cej argument�w. Funkcja jest tworzona przy u�yciu s�owa kluczowego function. Podstawowa sk�adnia definicji funkcji R jest nast�puj�ca:

New_Var <- nazwa_funkcji (Argument1, Argument2, ... N).

Funkcja jest rozpoznawana przez u�ycie nazwy funkcji, po kt�rej nast�puje natychmiast argument (argumenty) funkcji, oddzielone przecinkami i uj�te w nawiasy. Liczba wymaganych i opcjonalnych argument�w jest jednak r�na. Niekt�re funkcje maj� po prostu jeden wymagany argument. Inne maj� jeden wymagany i jeden lub wi�cej opcjonalnych argument�w. W wi�kszo�ci przypadk�w wa�na jest kolejno�� argument�w. Niekt�re funkcje nie przyjmuj� argument�w, w takim przypadku wymagany jest zerowy zestaw nawias�w.

Funkcje znakowe

Funkcje toupper, tolower: Te funkcje zmieniaj� wielko�� liter argumentu

Name <- 'Ramya Kalidindi' #Przypisywanie warto�ci do zmiennej
upcf <- toupper (Name)
locf <- tolower(Name)

Funkcja trimws: Do�� cz�sto dane, kt�re otrzymujemy, mog� zawiera� niepo��dane spacje i chcemy je usun��, aby nasze dane by�y czyste. U�ywamy funkcji trimws, aby radzi� sobie z odst�pami �a�cucha.

Name <- " Y Lakshmi Prasad "
Trimmed_Name <- trimws(Name, which = c("both", "left", "right"))

Funkcja substr: Ta funkcja s�u�y do wydobywania znak�w ze zmiennych �a�cuchowych. Argumenty substr() okre�laj� wektor wej�ciowy, pocz�tkow� pozycj� znaku i ko�cow� pozycj� znaku. Ostatni parametr jest opcjonalny. W przypadku pomini�cia wszystkie znaki po lokalizacji okre�lonej w drugim miejscu zostan� wyodr�bnione.

Req_Name <- substr(Name, 6, 12)

Tworzenie zmiennej �a�cuchowej ze zmiennych numerycznych

stringx <- as.character (numericx)
typeof (stringx)
typeof (numericx)

Funkcja typeof() mo�e by� u�ywana do weryfikacji typu obiektu, mo�liwe warto�ci to logiczne, ca�kowite, podw�jne, z�o�one, znakowe, surowe, lista, NULL, zamkni�cie (funkcja), specjalne i wbudowane.

Tw�rz zmienne numeryczne ze zmiennych �a�cuchowych.

Argument w funkcji as.numeric, liczba ca�kowita jest liczb� znak�w w �a�cuchu, podczas gdy liczba dziesi�tna jest opcjonaln� specyfikacj�, ile znak�w wyst�puje po przecinku.

numericx <- as.numeric (stringx)
typeof (stringx)
typeof (numericx)

Zadanie: Oblicz przyrost na 10% i uzyskaj nowe wynagrodzenie dla ka�dego Id.
Num_data <- data.frame(Id = c(101,102,103),
Salary =c(40700,12000,37000))
sapply(Num_data, mode)
Num_data$Char_sal <- as.character(Num_data$Salary)
typeof(Num_data$Char_sal)
Num_data$Saln <- as.numeric(Num_data$Char_sal)
typeof(Num_data$Saln)
Num_data$Bonus <- Num_data$Saln*.10
fix(Num_data)
Num_data$New_Sal <- Num_data$Saln+Num_data$Bonus

Funkcje numeryczne

Funkcja Abs: U�ywamy tej funkcji do uzyskania warto�ci bezwzgl�dnej;

a = 5
aba <- abs (a)
Val <- -28,86
Req <- abs (Val))

Warto�ci Floor(Base) and ceiling(Top):

Flx = floor(X) # Warto�� bazowa
Cilx = ceilling(X) # Najwy�sza warto��
Funkcja Round:
Val= 43.837
Rval1=round(Val) #44
Rval2=round(Val,digits=2) #43.84

Funkcja MAX: Zwraca najwi�ksz� brakuj�c� warto�� z listy

X = maks. (2,6, NA, 8,0)
Funkcja MIN: Zwraca najmniejsz� nie brakuj�c� warto�� z listy

Y = min (2,6,1,7,0, -2)
Funkcja Sum: zwraca sum� (ca�kowit�) warto�ci

Y = Sum(9,8,., 9)
Funkcja mean: Oblicza si� j�, bior�c sum� warto�ci i dziel�c j� przez liczb� warto�ci w serii danych. Funkcja mean() s�u�y do obliczenia tego w R.

# Utw�rz wektor i znajd� jego �redni�.
x <- c (7,3, NA, 4,18,2,54,8)
res_mean <- mean(x)
print (res_mean)
# Znajd� �rednie spadaj�ce warto�ci NA.
resmean_na <- mean(x, na.rm = PRAWDA)
print (resmean_na)
Funkcja median: �rodkow� warto�ci� w serii danych jest mediana. Funkcja median() jest u�ywana w R do obliczenia tej warto�ci.

# Utw�rz wektor i znajd� median�.
x <- c (12,7,3,4.2,18,2,54, -21,8, -5)
median.result <- mediana (x)
print (median.result)
Funkcje daty / godziny: Funkcje daty / godziny to zestaw funkcji, kt�re zwracaj� cz�ci daty, warto�ci daty lub godziny lub konwertuj� warto�ci liczbowe na warto�ci R daty lub godziny. Te funkcje s� przydatne do wyodr�bniania daty i godziny z warto�ci daty i godziny lub przekszta�cania osobnych warto�ci miesi�ca, dnia i roku w warto�� daty R.

Funkcje Sys.Date, date: Funkcja zwraca dzisiejsz� dat� z zegara systemowego, nie wymagaj�c �adnych argument�w.

Sys.Date() zwraca dzisiejsz� dat�.
date() zwraca aktualn� dat� i godzin�.
# print today's date
today <- Sys.Date()
format(today, format="%B %d %Y")
format(today, format="%m %d %Y")
format(today, format="%m %d %y")

Mo�esz zauwa�y�, �e data systemowa jest prezentowana na r�ne sposoby, gdy zmieniamy format. Musimy znale�� format, kt�ry lepiej pasuje do naszych wymaga� i wybra� go. Konwertowanie znak�w na dat�: Mo�esz u�y� funkcji as.Date () do konwersji danych znak�w na daty. Format to As.Date (x, "format"), gdzie x to dane znakowe, a format daje odpowiedni format. Domy�lny format to rrrr-mm-dd

Testdts <- as.Date(c("1982-07-12", "1975-03-01"))
# U�yj as.Date () do konwersji ci�g�w na daty
Testdts <- as.Date(c("1982-07-12", "1975-03-01"))
# liczba dni mi�dzy 7/12/82 a 03/01/75
days <- Testdts [1] - Testdts [2]

��CZENIE DANYCH

Odczytywanie danych z dw�ch lub wi�cej zestaw�w danych i przetwarzanie ich przez Append Rows, Append Columns, Merging

Do��czanie wierszy: ��czenie zestaw�w danych zasadniczo oznacza uk�adanie jednego zestawu danych na drugim, to znaczy, bior�c pod uwag� dwa zestawy danych, wszystkie rekordy z drugiego zestawu danych zostan� dodane na ko�cu pierwszego zestawu danych podczas konkatenacji zestaw�w danych maj� identyczn� struktur�, ale inn� zawarto��. Przez struktur� rozumiemy, �e tabele mia�yby takie same nazwy kolumn, a kolumny mia�yby ten sam typ (numeryczny lub znakowy). Je�li kolumna istnieje w co najmniej jednym zestawie danych, ale nie w innym, kolumna ta jest uwzgl�dniana we wszystkich rekordach wyj�ciowych, ale z brakuj�c� warto�ci� dla wszystkich rekord�w w tabelach, kt�re nie mia�y tej kolumny. Funkcja rbind umo�liwia do��czenie jednego zestawu danych na dole drugiego, co jest znane jako do��czanie lub ��czenie zestaw�w danych. Jest to przydatne, gdy chcesz po��czy� dwa zestawy danych, kt�re zawieraj� r�ne obserwacje dla tych samych zmiennych. Korzystaj�c z funkcji rbind, musimy upewni� si�, �e ka�dy zestaw danych zawiera t� sam� liczb� zmiennych i wszystkie nazwy zmiennych s� zgodne. Konieczne mo�e by� usuni�cie lub zmiana nazw niekt�rych zmiennych w tym procesie. Zmienne nie musz� by� u�o�one w tej samej kolejno�ci w zestawach danych, poniewa� funkcja rbind automatycznie dopasowuje je wed�ug nazwy. Funkcja rbind nie identyfikuje duplikat�w ani nie sortuje danych. Mo�esz to zrobi� dzi�ki funkcjom unikalnym i zam�wieniowym.

sale1 <- data.frame(Cust_Id = c(101,103,105),
Amount_Spent =c(1700,1200,3700),
Pur_dt = c(20-03-2015,20-03-2015,20-03-2015))
fix(sale1)
sale2 <- data.frame(Cust_Id = c(103,104,105,108),
Pur_dt = c(22-03-2015,22-03-2015,22-03-2015,22-03-2015),
Amount_Spent =c(1800,3400,2500,3200))
fix(sale2)
saleall <-rbind(sale1, sale2)
fix(saleall)

Zauwa�, �e nowy zestaw danych zawiera wszystkie oryginalne dane w oryginalnej kolejno�ci, w tym dwie kopie danych dla Cust_Id 103 i 105. Mo�emy do��czy� dwa lub wi�cej zbior�w danych w ten sam spos�b.

Do��czanie kolumn: Funkcja cbind wkleja jeden zestaw danych na bok innego. Jest to przydatne, je�li dane z odpowiednich wierszy ka�dego zestawu danych nale�� do tej samej obserwacji. Funkcji cbind mo�na u�ywa� tylko do ��czenia zestaw�w danych o tej samej liczbie wierszy.

Scalanie zestaw�w danych przez wsp�lne zmienne: Funkcja scalania pozwala po��czy� dwa zestawy danych poprzez dopasowanie obserwacji zgodnie z warto�ciami wsp�lnych zmiennych. Rozwa� zestawy danych sale1 i loc1. Zestawy danych maj� wsp�ln� zmienn� o nazwie Cust_Id, kt�rej mo�na u�y� do dopasowania odpowiednich obserwacji.

loc1 <- data.frame(Cust_Id = c(101,102,103,104,105),
Location =c("Hyderabad","Bangalore","Chennai","Hyderabad","Bangalore"))
Merdata <- merge(sale1,loc1)
fix(Merdata)
Funkcja merge identyfikuje zmienne o tej samej nazwie i u�ywa ich do dopasowania obserwacji. W tym przyk�adzie oba zestawy danych zawieraj� zmienn� o nazwie Cust_Id, wi�c R automatycznie u�ywa tej zmiennej, aby dopasowa� obserwacje.

All_mer <- merge (sale1, loc1, all = T)
fix (All_mer)

Po po��czeniu dw�ch zestaw�w danych z funkcj� merge R automatycznie wyklucza wszelkie niedopasowane obserwacje, kt�re pojawiaj� si� tylko w jednym z zestaw�w danych. Argumenty all, all.x i all.y pozwalaj� kontrolowa�, w jaki spos�b R radzi sobie z niedopasowanymi obserwacjami. Aby zachowa� wszystkie niedopasowane obserwacje, ustaw argument all na T:

L_mer <- merge(sale1,loc1,all.x=T)
fix(L_mer)
R_mer <- merge(sale1,loc1,all.y=T)
fix(R_mer)

Aby po��czy� dwie ramki danych (zestawy danych) w poziomie, u�yj funkcji scalania. W wi�kszo�ci przypadk�w ��czysz dwie ramki danych za pomoc� jednej lub wi�cej wsp�lnych zmiennych kluczowych (tj. sprz�enia wewn�trznego).

# scal dwie ramki danych wed�ug identyfikatora
total <- merge(data frameA,data frameB,by="ID")

Dodawanie wierszy: Aby po��czy� dwie ramki danych (zestawy danych) pionowo, u�yj funkcji rbind. Dwie ramki danych musz� mie� te same zmienne, ale nie musz� by� w tej samej kolejno�ci.

total <- rbind (data frame A, data frame B)

TRANSPOZYCJA DANYCH

Przekszta�canie zestawu danych jest r�wnie� znane jako Obracanie, Transpozycja lub Transformacja zestawu danych. Zwykle ma to zastosowanie do zestaw�w danych, w kt�rych wykonano powtarzane pomiary, funkcja zmiany kszta�tu s�u�y do zmiany orientacji danych., Ale przed wykonaniem zmiany kszta�tu musimy zada� sobie nast�puj�ce pytania:

• Co powinno pozosta� takie samo
• Kt�ra zmienna powinna wzrosn��
• Kt�ra zmienna powinna zmale�
• Kt�ra zmienna powinna przej�� na �rodek

# Przeniesienie danych
setwd("D:/R data")
Vitals <- read.csv("Vitals.csv")
fix(Vitals)
T_vitals<-reshape( Vitals, direction="wide", v.names="Result", timevar="VS_Test", idvar="Pat_Id")
fix(T_vitals)

Poniewa� Pat_Id jest okre�lony w idvar, pozosta� na tej samej pozycji, wszystkie pozosta�e zmienne zosta�y transponowane. U�yj argumentu v.names, aby okre�li� zmienn�, kt�r� chcesz podzieli� na r�ne kolumny. U�yj argumentu timevar, aby okre�li� zmienn� wskazuj�c�, do kt�rej kolumny nale�y warto��. U�yj argumentu idvar, aby okre�li�, kt�ra zmienna jest u�ywana do grupowania rekord�w.

KROK 5

My�lenie Statystyczne

WPROWADZENIE

Statystyka to nauka zajmuj�ca si� zbieraniem, klasyfikacj�, analiz� i interpretacj� fakt�w liczbowych oraz wykorzystaniem teorii prawdopodobie�stwa w celu uporz�dkowania agregat�w danych. Przyjrzyjmy si� niekt�rym problemom biznesowym, z kt�rymi boryka si� cz�owiek biznesu, gdzie potrzebuje statystycznych metod ich rozwi�zywania.

• Gdzie powinni�my otworzy� nasz nowy sklep detaliczny?
• Jak du�e pomieszczenia powinni�my wynaj��?
• Ile os�b powinienem obs�u�y� w tym sklepie?
• Jaki jest odpowiedni poziom zapas�w dla ka�dego produktu?
• Jak zwi�kszy� warto�� klienta i og�lne przychody?
• Jak opracowa� nowe, udane produkty?
• Czy powinni�my przyjmowa� zam�wienia online, czy nie?
• Ile powinni�my zainwestowa� w reklam�?
• Jak obni�y� koszty operacyjne?

TERMINOLOGIA STATYSTYCZNA

Przed rozwi�zaniem wy�ej wymienionych problem�w przyjrzyjmy si� terminom statystycznym, kt�re pozwalaj� nam wygodnie radzi� sobie z tymi scenariuszami.
Populacja: Populacja to kompletny zestaw element�w, kt�re maj� co najmniej jedn� wsp�ln� cech�.
Pr�bka: podzbi�r populacji wybrany do analizy.
Parametr: miara obliczana dla ca�ej populacji.
Statystyka: miara obliczana na pr�bce.
Statystyki opisowe: s�u�� do opisywania lub podsumowywania danych w spos�b znacz�cy i u�yteczny. Mo�emy opisywa� dane na wiele sposob�w, takich jak miary tendencji centralnej, miary dyspersji, miary lokalizacji i kszta�tu rozk�adu. Miary opisowe daj� lepsze wyczucie danych i mog� przedstawia� og�lny obraz danych, statystyki te obejmuj� �redni�, tryb, median�, minimum, maksimum, wariancj�, odchylenie standardowe, sko�no��, kurtoz� itp.
Statystyki wnioskowania: metody wykorzystuj�ce teori� prawdopodobie�stwa do dedukcji w�a�ciwo�ci populacji na podstawie analizy w�a�ciwo�ci pr�bki danych z niej pobranej.
Statystyka predykcyjna: metody przewidywania przysz�ych prawdopodobie�stw na podstawie danych historycznych.
Statystyka preskryptywna: Metody pozwalaj� nam na okre�lenie szeregu mo�liwych dzia�a� i prowadz� nas w kierunku optymalnego rozwi�zania.

Zmienna losowa: zmienna, kt�rej warto�� mo�e ulec zmianie ze wzgl�du na przypadek.
Odchylenie: Nadawanie niesprawiedliwej preferencji jednej rzeczy wzgl�dem drugiej.
Zmienna: Zmienna jest cech� lub atrybutem, kt�ry mo�na zmierzy� lub policzy�.

Dane mo�na podzieli� na 2 typy:

1. Dane jako�ciowe: Je�li mo�emy ustawi� dane w dowolnej liczbie grup, nazywamy te dane danymi jako�ciowymi. Je�li nie ma uporz�dkowania mi�dzy kategoriami, nazywamy t� zmienn�, zmienn� nominaln�, je�li kategorie mog� by� uporz�dkowane, w�wczas nazywamy t� zmienn� jako zmienn� porz�dkow�.
2. Dane ilo�ciowe: jest to pomiar wyra�ony w liczbach, ale nie wszystkie liczby s� liczbowe, takie jak numer telefonu kom�rkowego i kod pocztowy w Indiach, kt�rych nie mo�emy dodawa� ani odejmowa�.

SKALA POMIARU

S� to sposoby kategoryzacji r�nych typ�w zmiennych.

Skala nominalna: Skala ta spe�nia w�a�ciwo�� to�samo�ci pomiaru. We�my na przyk�ad P�e�. Osoby mog� by� klasyfikowane jako "m�czyzna" lub "kobieta", ale �adna warto�� nie reprezentuje mniej wi�cej "p�ci" ni� druga. Religia i rasa to inne przyk�ady zmiennych, kt�re s� zwykle mierzone w skali nominalnej.
Skala porz�dkowa: ta skala ma w�a�ciwo�� zar�wno to�samo�ci, jak i wielko�ci. Ka�da warto�� na skali porz�dkowej ma unikalne znaczenie i ma uporz�dkowany zwi�zek z ka�d� inn� warto�ci� na skali. We�my przyk�ad oceniania filmu ?. Otrzymujemy odpowiedzi na bardzo dobre, dobre, �rednie, z�e itp.
Skala interwa��w: ta skala ma w�a�ciwo�ci identyczno�ci, wielko�ci i r�wnych przedzia��w. Doskona�ym przyk�adem skali interwa�owej jest skala Fahrenheita do pomiaru temperatury. Skala sk�ada si� z r�wnych jednostek temperatury, tak �e r�nica mi�dzy 40 a 50 stopni Fahrenheita jest r�wna r�nicy mi�dzy 50 a 60 stopni Fahrenheita. Dzi�ki skali interwa�owej wiesz r�wnie�, jak du�e lub mniejsze s�.
Skala stosunku: ta skala pomiaru spe�nia wszystkie cztery w�a�ciwo�ci pomiaru: to�samo��, wielko��, r�wne przedzia�y i zero bezwzgl�dne. Na przyk�ad, je�li waga obiektu wynosi 80 kilogram�w, mo�emy powiedzie�, �e ten obiekt jest podw�jny w stosunku do obiektu kt�ry wa�y 40 kilogram�w. Zmienne takie jak wzrost, wiek, waga maj� unikalne znaczenie, mog� by� uporz�dkowane wed�ug rangi, jednostki wzd�u� skali s� sobie r�wne, a absolutne zero.

TECHNIKI POBIERANIA PR�BEK

Techniki pobierania pr�bek to metody stosowane do pobrania pr�bki z populacji. Istniej� r�ne metody pr�bkowania. Statystyka pr�by jest charakterystyczn� cech� pr�by, statystyki pr�by mog� by� wykorzystane jako oszacowanie punktowe dla parametru populacji. Wyb�r prostej pr�bki losowej (SRS):

• Bezstronny: Ka�da jednostka ma r�wne szanse na wyb�r w pr�bie
• Niezale�ny: Wyb�r jednej jednostki nie ma wp�ywu na wyb�r innych jednostek
• SRS to z�oty standard, w stosunku do kt�rego mierzone s� wszystkie inne pr�bki

Wybieranie ramki pr�bkowania:

• Ramka pr�bkowania to po prostu lista element�w, z kt�rych mo�na pobra� pr�bk�.
• Czy ramka pr�bkowania reprezentuje populacj�?
• Dost�pna lista mo�e r�ni� si� od ��danej listy: np. nie mamy listy klient�w, kt�rzy nie kupili w sklepie.
• Czasami nie istnieje kompleksowa ramka pr�bkowania: przy prognozowaniu na przysz�o��. Tak wi�c pe�na lista akceptacji ofert kart kredytowych jeszcze nie istnieje.

Typowe wady pobierania pr�bek:

• Zbieranie danych tylko od ochotnik�w (pr�bka dobrowolnej odpowiedzi): - np. recenzje online (maps.google.com, tripadvisor.com)
• Wyb�r �atwo dost�pnych respondent�w (pr�ba wygody): - np. wybranie ankiety w centrum handlowym In-Orbit
• Wysoki wska�nik braku odpowiedzi (ponad 70%): - np. Ankiety CEO / CIO dotycz�ce niekt�rych trend�w w bran�y

Wariacja pr�bkowania:

• �rednia pr�bki r�ni si� w zale�no�ci od pr�bki
• �rednia pr�bki mo�e by� (i najprawdopodobniej jest r�na) od �redniej populacji
• �rednia pr�bki jest zmienn� losow�

Centralne twierdzenie graniczne (CLT) i rozk�ad �redniej pr�bki:

Rozk�ad �redniej pr�bki b�dzie normalny, gdy rozk�ad danych w populacji b�dzie normalny. W przeciwnym razie zak�adamy, �e jest on w przybli�eniu normalny, nawet je�li rozk�ad danych w populacji nie jest normalny, je�li wielko�� pr�by jest "do�� du�a". CLT jest wa�ny, gdy ka�dy punkt danych w pr�bce jest niezale�ny od drugiego, a wielko�� pr�bki jest wystarczaj�co du�a.

Jak du�y jest wystarczaj�co du�y?

• Zale�y od dystrybucji danych - przede wszystkim od symetrii i obecno�ci warto�ci odstaj�cych
• Je�li dane s� do�� symetryczne i maj� kilka warto�ci odstaj�cych, nawet mniejsze pr�bki s� w porz�dku. W przeciwnym razie potrzebujemy wi�kszych pr�bek
• Pr�bka o wielko�ci 30 jest uwa�ana za wystarczaj�co du��, ale mo�e to / nie by� wystarczaj�ce

Rozk�ady pr�bkowania i centralne twierdzenie graniczne:

• Ilu nowych klient�w pozyskam, je�li otworz� sklep w tym obszarze?
• Jaki jest odpowiedni poziom zapas�w
• Jaki jest odpowiedni poziom zapas�w dla naszego nowego ereadera?
• Jaki jest wp�yw braku zapas�w
• Jaki jest wp�yw braku zapas�w na zachowanie konsument�w?
• Jakie oprocentowanie powinni�my pobiera� za t� po�yczk�?
• Czy nasza jako�� poprawi si� po zleceniu konsultacji?
• Ile czasu sp�dzaj� potencjalni klienci w sieci?
• Czy po po��czeniu skr�ci�y si� terminy realizacji naszych zam�wie�?
• Ile ma takich po�yczek Ile takich po�yczek by�o niesp�aconych w przesz�o�ci?
• Jaka jest ilo�� osobogodzin potrzebnych do uko�czenia takiego projektu?

Wprowadzenie do teorii prawdopodobie�stwa: prawdopodobie�stwo jest wykorzystywane w ca�ej firmie do oceny ryzyka zwi�zanego z podejmowaniem decyzji. Ka�da podj�ta przez nas decyzja niesie ze sob� pewn� szans� na niepowodzenie, dlatego analiza prawdopodobie�stwa jest przeprowadzana formalnie i nieformalnie. Wi�kszo�� z nas stosuje prawdopodobie�stwa z dwoma warunkami:

1. Kiedy wyst�pi jedno lub drugie zdarzenie
2. W przypadku wyst�pienia dw�ch lub wi�cej zdarze�
Rozumiemy to na przyk�adzie bi�uterii z okazji Dnia Festiwalu. Jakie jest prawdopodobie�stwo, �e dzisiejszy popyt przekroczy nasz� �redni� sprzeda�? Jakie jest prawdopodobie�stwo, �e popyt przekroczy nasz� �redni� sprzeda�, a ponad 20% naszych si� sprzeda�y nie zg�osi do pracy?

Zmienna losowa:

• Zmienna losowa opisuje prawdopodobie�stwo niepewnego przysz�ego wyniku liczbowego losowego procesu.
• Jest to zmienna, poniewa� mo�e przyj�� jedn� z kilku mo�liwych warto�ci.
• Jest losowa poniewa� z ka�d� mo�liw� warto�ci� wi��e si� pewna szansa.

Niezale�na: gdy warto�� przyjmowana przez jedn� zmienn� losow� nie wp�ywa na warto�� przyjmowan� przez drug� zmienn� losow�: np. rzut dwiema kostkami.

Zale�na: gdy warto�� jednej zmiennej losowej daje nam wi�cej informacji na temat drugiej zmiennej losowej: np. wzrost i waga student�w.

TEORIA PRAWDOPODOBIE�STWA

Podej�cie klasyczne: prawdopodobie�stwo zdarzenia jest r�wne liczbie wynik�w, w kt�rych zdarzenie ma miejsce, podzielonej przez ca�kowit� liczb� mo�liwych wynik�w.
Podej�cie wzgl�dnej cz�stotliwo�ci: Podczas rzucania monet� pocz�tkowo stosunek liczby g��w do liczby pr�b pozostanie zmienny. Wraz ze wzrostem liczby tials stosunek zbiega si� do sta�ej liczby (powiedzmy 0,5).
Podej�cie prawdopodobie�stwa subiektywnego: opiera si� na przesz�ych do�wiadczeniach i intuicji jednostki. Wi�kszo�� decyzji kierowniczych dotyczy konkretnych, unikalnych sytuacji
Rozk�ad prawdopodobie�stwa: rozk�ad prawdopodobie�stwa jest regu��, kt�ra identyfikuje mo�liwe wyniki zmiennej losowej i przypisuje ka�demu prawdopodobie�stwo.

• Rozk�ad dyskretny ma sko�czon� liczb� warto�ci: np. warto�� nominalna karty, sta� pracy student�w zaokr�glony do najbli�szego miesi�ca.
• Rozk�ad ci�g�y ma wszystkie mo�liwe warto�ci w pewnym zakresie: np. miesi�czna sprzeda� w sklepie detalicznym, t�tno pacjent�w w szpitalu. Ci�g�e rozk�ady s� �atwiejsze w obs�udze i s� dobrym przybli�eniem, gdy istnieje du�a liczba mo�liwych warto�ci

Dyskretny rozk�ad prawdopodobie�stwa: Za��my, �e losowo wybra�e� kart� z talii kart. Jakie jest prawdopodobie�stwo, �e ta karta b�dzie

• Wi�ksza ni� 7?
• R�wna lub wi�ksza ni� 6?
• Mniejsza ni� 3?
• Wi�ksza ni� 4 i mniej ni� 8?

Dzienna sprzeda� du�ych p�askich telewizor�w w sklepie (X): Jakie jest prawdopodobie�stwo sprzeda�y? Jakie jest prawdopodobie�stwo sprzeda�y co najmniej trzech telewizor�w?
Oczekiwana warto�� lub �rednia: Oczekiwana warto�� lub �rednia (?) zmiennej losowej jest �redni� wa�on� jej warto�ci, prawdopodobie�stwa s�u�� jako wagi. Jaka jest �rednia liczba zegark�w sprzedawana dziennie?
Odchylenie i odchylenie standardowe: obie miary zmienno�ci lub niepewno�ci w zmiennej losowej.
Wariancja (σ2): �rednia wa�ona kwadratowych odchyle� od �redniej, Prawdopodobie�stwa s�u�� jako wagi, Jednostki s� kwadratem jednostek zmiennej.
Odchylenie standardowe (σ): Pierwiastek kwadratowy wariancji, Maj� takie same jednostki jak zmienna
Rozk�ad dwumianowy: Rozk�ad dwumianowy opisuje dyskretne dane wynikaj�ce z eksperymentu znanego jako proces Bernoulliego. Rzucanie monety okre�lon� liczb� razy jest procesem Bernoulliego, a wyniki takich rzut�w mog� by� reprezentowane przez dwumianowy rozk�ad prawdopodobie�stwa. Sukces lub pora�ka rozm�wc�w w te�cie umiej�tno�ci mo�e by� r�wnie� opisany przez proces Bernoulliego. Z drugiej strony rozk�ad cz�stotliwo�ci �ywotno�ci �wietl�wek w fabryce by�by mierzony w ci�g�ej skali godzin i nie kwalifikowa�by si� jako rozk�ad dwumianowy. Funkcja masy prawdopodobie�stwa, �rednia i wariancja jest nast�puj�ca:

Charakterystyka rozk�adu dwumianowego

• Mo�liwe s� tylko dwa mo�liwe wyniki: g�owy lub reszka, tak lub nie, sukces lub pora�ka
• Ka�dy proces Bernoulliego ma swoje charakterystyczne prawdopodobie�stwo. We�my sytuacj�, w kt�rej historycznie siedem dziesi�tych wszystkich os�b, kt�re ubiega�y si� o okre�lony rodzaj pracy, zda�o egzamin. Powiedzieliby�my, �e charakterystycznym prawdopodobie�stwem jest tutaj 0,7, ale mogliby�my opisa� nasze wyniki test�w jako Bernoulli tylko wtedy, gdyby�my byli pewni, �e odsetka tych
• Jednocze�nie wynik jednego testu nie mo�e wp�ywa� na wynik innych test�w.

Dystrybucja Poissona: Dystrybucja Poissona jest u�ywana do opisania szeregu proces�w, w tym dystrybucji po��cze� telefonicznych przechodz�cych przez system rozdzielnic, zapotrzebowania pacjent�w na us�ugi w plac�wce s�u�by zdrowia, przyjazdu ci�ar�wek i samochod�w do punktu poboru op�at oraz liczba wypadk�w na skrzy�owaniu.

Wszystkie te przyk�ady maj� wsp�lny element: mo�na je opisa� za pomoc� dyskretnej zmiennej losowej, kt�ra przyjmuje warto�ci ca�kowite (0, 1, 2, 3, 4 itd.). Liczba pacjent�w przybywaj�cych do szpitala w danym przedziale czasu b�dzie wynosi� 0, 1, 2, 3, 4, 5 lub inn� liczb� ca�kowit�. Podobnie, je�li policzysz liczb� samochod�w przybywaj�cych do punktu poboru op�at na autostradzie w ci�gu oko�o 10 minut, liczba b�dzie wynosi� 0, 1, 2, 3, 4, 5 itd. Funkcja masy prawdopodobie�stwa, �rednia i wariancja s� nast�puj�ce:

Charakterystyka rozk�adu Poissona

• Je�li we�miemy pod uwag� przyk�ad liczby samochod�w, �redni� liczb� pojazd�w, kt�re przybywaj� na godzin� szczytu, mo�na oszacowa� na podstawie danych o ruchu drogowym w przesz�o�ci.
• Je�li podzielimy godzin� szczytu na odst�py po jednej sekundzie ka�da, stwierdzimy, �e nast�puj�ce stwierdzenia s� prawdziwe.
• Prawdopodobie�stwo, �e dok�adnie jeden pojazd dotrze do pojedynczej kabiny na sekund�, jest bardzo ma�� liczb� i jest sta�e dla ka�dego przedzia�u jednej sekundy.
• Prawdopodobie�stwo, �e dwa lub wi�cej pojazd�w dotrze w ci�gu jednej sekundy, jest tak ma�e, �e mo�emy przypisa� mu warto�� zerow�.
• Liczba pojazd�w, kt�re przybywaj� w danym interwale jednosekundowym, jest niezale�na od czasu, w kt�rym interwa� jednosekundowy wyst�puje w godzinach szczytu.
• Liczba przylot�w w dowolnym przedziale jednosekundowym nie zale�y od liczby przylot�w w �adnym innym przedziale jednosekundowym.

ROZK�AD NORMALNY

Co to jest rozk�ad normalny?

• Jak wykona� obliczenia prawdopodobie�stwa zwi�zane z rozk�adem normalnym?
• Jakie s� r�ne wa�ne w�a�ciwo�ci rozk�adu normalnego?

Podstawy rozk�adu normalnego:

• Wykres pdf (funkcja g�sto�ci prawdopodobie�stwa) jest krzyw� w kszta�cie dzwonu
• Normalna zmienna losowa przyjmuje warto�ci od -∞ do +∞
• Jest symetryczny i wy�rodkowany wok� �redniej (kt�ra jest r�wnie� median� i trybem)
• Dowolny rozk�ad normalny mo�na okre�li� za pomoc� tylko dw�ch parametr�w - �redniej (?) i odchylenia standardowego (σ)
Piszemy to jako X ˜ N (μ, σ2)

Normalna dystrybucja ma zastosowania w wielu obszarach administracji biznesowej. Na przyk�ad:

• Wsp�czesna teoria portfela zwykle zak�ada, �e zwroty ze zdywersyfikowanego portfela aktyw�w s� zgodne z normalnym rozk�adem.
• W zarz�dzaniu operacjami zmiany proces�w cz�sto s� zwykle rozk�adane.
• W zarz�dzaniu zasobami ludzkimi wydajno�� pracownik�w jest czasem uwa�ana za normalnie roz�o�on�.

Czy rozk�ad jest normalny? Aby rozk�ad by� normalny, powinny zosta� spe�nione nast�puj�ce warunki:

• �rednia, mediana i tryb powinny by� prawie r�wne
• Odchylenie standardowe powinno by� niskie
• Sko�no�� i kurtoza powinny by� bliskie zeru
• Mediana powinna le�e� dok�adnie pomi�dzy g�rnym i dolnym kwartylem

Wykres normalnego prawdopodobie�stwa: Wykres normalnego prawdopodobie�stwa to technika graficzna do testowania normalno�ci: ocena, czy zbi�r danych jest w przybli�eniu normalnie roz�o�ony. W tym przypadku por�wnujemy zaobserwowane prawdopodobie�stwo skumulowane z teoretycznym prawdopodobie�stwem skumulowanym. Je�li obserwowane dane pochodz� z rozk�adu normalnego, powinni�my uzyska� lini� prost�. W przypadku rozk�adu normalnego 68,2% danych mie�ci si� w zakresie jednego odchylenia standardowego. (�rednia - odchylenie standardowe, �rednia + odchylenie standardowe).

Odst�pstwa od normalno�ci: jak mo�emy powiedzie�, �e rozk�ad normalny jest rozs�dnym przybli�eniem danych? Mo�emy spojrze� na dane 1. Wi�cej ni� jeden tryb sugeruj�cy dane pochodz� z odr�bnych grup, 2. Brak symetrii danych, 3. Niezwyk�e warto�ci ekstremalne. Je�li kt�rykolwiek z nich zaobserwujemy, mo�emy powiedzie�, �e dane nie s� normalne. Mo�emy zidentyfikowa� te r�nice, patrz�c na 1. Kontrola wzrokowa histogramu 2. Podsumowania numeryczne, takie jak Sko�no�� i Kurtoza 3. Podsumowania graficzne (wykres normalnego kwantylu).

1. Miary tendencji centralnej: Istniej� dok�adnie trzy sposoby znalezienia warto�ci centralnej:

�rednia arytmetyczna, mediana i tryb.
�rednia jest obliczana przez znalezienie sumy danych z badania i podzielenie ich przez ca�kowit� liczb� danych. Okre�lenie cz�sto�ci akcji serca jest wa�n� cz�ci� stanu medycznego. Oto wektor zawieraj�cy liczb� uderze� serca. rytmy <- c (94, 83, 84, 93, 82, 78, 98, 84). Szybkim sposobem oceny naszych danych by�oby uzyskanie �redniej liczby uderze�. Statystycy nazywaj� to "�rodkiem". Wywo�aj funkcj� �redni� z uderze� serca.

mean(beats)
barplot (beats)
Je�li narysujemy lini� na wykresie reprezentuj�c� �redni�, mo�emy �atwo por�wna� r�ne warto�ci ze �redni�. Funkcja abline mo�e przyjmowa� parametr h o warto�ci, przy kt�rej narysowana zostanie linia pozioma lub parametr v dla linii pionowej. Po wywo�aniu aktualizuje poprzedni� fabu��. Narysuj poziom� lini� w poprzek wykresu na �rodku:

abline (h = mean(beats))

Mediana jest �rodkow� warto�ci� w zestawie danych. Oblicza si� go najpierw poprzez uporz�dkowanie danych w kolejno�ci numerycznej, a nast�pnie zlokalizowanie warto�ci na �rodku listy. We�my przyk�ad ocen uzyskanych przez grup� student�w. Za��my, �e egzamin zosta� przeprowadzony dla 50 znak�w.

marks <- c (14, 13, 14, 23, 42, 24, 47, 18)
mean (marks)

Zobaczmy, jak ten nowy �rodek pokazuje si� na tym samym wykresie.

barplot (marks)
abline (h = mean (marks))

Rzeczywiste mo�e by� stwierdzenie, �e nasi uczniowie maj� �rednio 24.375 ocen, ale prawdopodobnie r�wnie� wprowadzaj� w b��d. W takich sytuacjach prawdopodobnie bardziej przydatne jest m�wienie o warto�ci "mediany". Mediana jest obliczana przez sortowanie warto�ci i wybranie �rodkowej.

Wywo�aj funkcj� mediany na wektorze:

median(marks)

Poka�my median� na wykresie. Narysuj poziom� lini� w poprzek wykresu na �rodkowej.

abline (h = median(marks))

Tryb to liczba, kt�ra pojawia si� najcz�ciej w zbiorze danych.

2. Miary dyspersji: Chcemy dowiedzie� si�, jak roz�o�y� dane na podstawie warto�ci centralnej, tj. �redniej. W tym przypadku chcieliby�my przyjrze� si� miarom dyspersji, takim jak zasi�g, wariancja, odchylenie standardowe.

Zakres: Aby uzyska� zakresu, odejmij najmniejsz� liczb� od najwi�kszej.

Wariancja: Pochodzi z sumy kwadratowej r�nicy ka�dej z danych ze �redniej arytmetycznej danych.

Odchylenie standardowe: we� pierwiastek kwadratowy wariancji, otrzymamy odchylenie standardowe danych. Statystycy u�ywaj� poj�cia "odchylenie standardowe" od �redniej, aby opisa� zakres typowych warto�ci dla zestawu danych. W przypadku grupy liczb pokazuje, jak cz�sto r�ni� si� one od warto�ci �redniej. Aby obliczy� odchylenie standardowe, nale�y obliczy� �redni� warto�ci, a nast�pnie odj�� redni� od ka�dej liczby i obliczy� wynik, a nast�pnie u�redni� te kwadraty i przyj�� pierwiastek kwadratowy z tej �redniej. We� wektor z warto�ciami wynagrodze� os�b pracuj�cych w dziale.

wynagrodzenie <- c (46000, 50000, 35000, 30000, 44800, 45000, 10200, 15000)
barplot (wynagrodzenie)
meanValue <- mean(wynagrodzenie)
Zobaczmy wykres pokazuj�cy �redni� warto��:
abline (h = meanValue)

Do obliczenia odchylenia standardowego u�ywamy funkcji sd. Wywo�ajmy teraz sd na wektorze wynagrodze� i przypiszmy wynik do zmiennej odchylenia.

odchylenie <- sd (wynagrodzenie)
Dodamy lini� na wykresie, aby pokaza� jedno odchylenie standardowe powy�ej �redniej

abline (h = meanValu� + odchylenie)

Teraz spr�buj doda� lini� na wykresie, aby pokaza� jedno odchylenie standardowe poni�ej �redniej (dolnej cz�ci normalnego zakresu):

abline (h = meanValue - odchylenie)
3. Miary lokalizacji: Aby lepiej zrozumie� dane, obserwujemy nawet miary lokalizacji, takie jak kwartyle, decyle i percentyle, kt�re dziel� dane odpowiednio na 4, 10 i 100 cz�ci.

4. Kszta�t rozk�adu: Istniej� dwie statystyki zwi�zane z kszta�tem, sko�no�ci� i kurtoz�.

Sko�no��: wykrywa, czy dane s� symetryczne wzgl�dem centralnej warto�ci rozk�adu. Je�li histogram ma d�ugi lewy ogon, nazywamy to danymi ujemnie wypaczonymi, a je�li histogram ma d�ugi prawy ogon, mo�emy powiedzie�, �e dane s� wypaczone pozytywnie.

Kurtoza: Jest to miara, kt�ra mo�e powiedzie� o tym, jak p�askie lub szczytowe s� dane. Je�li warto�� kurtozy jest dodatnia, mo�emy zrozumie�, �e dane s� leptokurtyczne (szczytowe), je�li warto�� jest ujemna, dane s� platykurtyczne (p�askie). Warto�� kurtozy dla rozk�adu mezokurtycznego wynosi zero (normalna). Rozk�ad normalny jest asymetryczny, ci�g�y rozk�ad prawdopodobie�stwa, kt�ry jest jednoznacznie okre�lony przez �redni� i odchylenie standardowe. Ka�dy rozk�ad normalny mo�na przekszta�ci� w standardowy rozk�ad normalny (wynik Z).

UZYSKANIE OPISOWYCH STATYSTYK

Aby obliczy� konkretn� statystyk� dla ka�dej ze zmiennych w zbiorze danych jednocze�nie, u�yj funkcji sapply, je�li w zbiorze danych brakuje jakichkolwiek warto�ci, a nast�pnie ustaw argument na.rm na T:

sapply (Zdrowie, �rednia, na.rm = T)

Mo�emy zaobserwowa� niekt�re ostrze�enia w oknie konsoli, poniewa� je�li dowolna zmienna w zbiorze danych nie jest numeryczna, funkcja sapply zachowuje si� niesp�jnie. Tutaj pr�bujemy obliczy� maksymaln� warto�� dla ka�dej ze zmiennych w zestawie danych Health. R zwraca komunikat o b��dzie, poniewa� kilka zmiennych w zestawie danych to zmienne czynnikowe. Aby unikn�� tego problemu, wyklucz wszelkie zmienne nienumeryczne z zestawu danych, u�ywaj�c funkcji podzbioru nawiasu. Je�li chcemy pogrupowa� warto�ci zmiennej numerycznej zgodnie z poziomami wsp�czynnika i obliczy� statystyki dla ka�dej grupy, mo�emy u�y� funkcji tapply lub agregacji.

tapply (Zdrowie $ Wiek, Zdrowie $ P�e�, �rednia)

Mo�emy r�wnie� u�y� funkcji agreguj�cej do podsumowania zmiennych wed�ug grup. Korzystanie z funkcji agreguj�cej ma t� zalet�, �e mo�na podsumowa� kilka zmiennych ci�g�ych jednocze�nie.

aggregate (pracownik $ wynagrodzenie ~ p�e�, pracownik, �rednia)

Ponownie mo�esz tak�e u�y� wi�cej ni� jednej zmiennej grupuj�cej. Na przyk�ad, aby obliczy� �redni� pensji dla ka�dej kombinacji p�ci i wykszta�cenia dla zestawu danych pracownika:

aggregate (wynagrodzenie ~ p�e� + wykszta�cenie, pracownik, �rednia)

Aby podsumowa� dwie lub wi�cej zmiennych ci�g�ych jednocze�nie, zagnie�d� je w funkcji cbind.

aggregate (cbind (wynagrodzenie, wiek) ~ poziom, pracownik, �rednia)

Uzyskaj cz�stotliwo�� mi�dzy tabelami: Tabele tabel lub nieprzewidzianych tabel to rodzaj tabeli, kt�ra wy�wietla rozk�ad cz�stotliwo�ci zmiennych w wierszu, a druga w kolumnie. Te tabele s� szeroko stosowane w Business Analytics, poniewa� zapewniaj� wzajemne powi�zania mi�dzy zmiennymi. Zbudujmy tabel� kontyngencji, u�ywaj�c funkcji tabeli na czynnikach Health $ Gender i Health $ Response Mo�esz generowa� tabele cz�stotliwo�ci za pomoc� funkcji table(), tabel proporcji za pomoc� funkcji prop.table(), a cz�stotliwo�ci brze�ne za pomoc� margin.table(). # zbuduj tabel� zdarze� awaryjnych w oparciu o p�e� i czynniki reakcji

Health_table <- table (Health $ P�e�, Health $ Response)
Tabela zdrowia
margin.table (Health_table, 1) Cz�stotliwo�ci # A (zsumowane nad B)
margin.table (Health_table, 2) Cz�stotliwo�ci # B (zsumowane nad A)
prop.table (Health_table) # procenty kom�rek
prop.table (Health_table, 1) # procenty wierszy
prop.table (Health_table, 2) # warto�ci procentowe kolumny

Funkcja summary: Funkcja summary() zapewnia kilka statystyk opisowych, takich jak �rednia i mediana, dotycz�cych zmiennej, takiej jak ramka danych Wysoko�� w zdrowiu. Aby utworzy� podsumowanie wszystkich zmiennych w zbiorze danych, u�yj funkcji podsumowania. Funkcja podsumowuje ka�d� zmienn� w spos�b odpowiedni dla jej klasy. W przypadku zmiennych numerycznych podaje �redni�, median�, zakres i zakres mi�dzykwartylowy. W przypadku zmiennych czynnikowych podaje liczb� w ka�dej kategorii. Je�li zmienna ma jakie� brakuj�ce warto�ci, powie ci ile jest brakuj�cych warto�ci. summary(Zdrowie) zapewni przegl�d rozk�adu ka�dej kolumny. Funkcja summary generuje wszystkie statystyki opisowe zwi�zane ze zmienn� wysoko�ci� w zestawie danych Health. Normalno�� rozk�adu implikuje element symetrii zwi�zane z dystrybucj�. Sko�no�� i kurtoza zestawu danych wyst�puj� w okolicach zera. Podstawowa analiza daje wynik, �e zmienna wysoko�� jest zwykle rozk�adana w zbiorze danych Zdrowie.

UZYSKANIE NIERUCHOMO�CI STATYSTYCZNYCH

Statystyki wnioskowania odnosz� si� do wyci�gania wniosk�w na temat populacji na podstawie danych z pr�by.

Przedzia�y ufno�ci: Podczas przeprowadzania analizy statystycznej musimy odpowiedzie� na nast�puj�ce pytania.

• Jak poda� oszacowanie przedzia�u (przedzia� ufno�ci) dla parametr�w populacji, takich jak �rednia?
• Jak skorygowa� oszacowanie przedzia�u, je�li odchylenie standardowe populacji nie jest znane?
• Jak obliczy� przedzia� ufno�ci dla proporcji populacji?
• Jaka powinna by� wielko�� pr�bki do pobrania dla po��danej szeroko�ci oszacowania przedzia�u?

Testowanie hipotez:

1. Czy powinienem obs�u�y� ten projekt z jeszcze jednym programist�?
2. Czy powinni�my otworzy� nasz nowy sklep detaliczny w lokalizacji X?
3. Czy powinni�my zatrudni� t� firm� konsultingow�?
4. Czy powinni�my naby� t� lini� lotnicz�?
5. Czy powinni�my inwestowa� w reklam� online?
6. Czy powinni�my podwy�szy� oprocentowanie tej po�yczki?
7. Czy powinni�my wej�� na indyjski rynek detaliczny?
Gdy rozwi�zujemy tego rodzaju pytania, mo�e by� konieczne znalezienie odpowiedzi na kilka dodatkowych pyta�, takich jak:

• Jak i kiedy formu�owa� hipotezy dotycz�ce parametr�w populacji?
• Jak obliczy� si�� dowod�w?
• Co to s� b��dy typu I i typu II?

Jak sformu�owa� hipotez�: Hipoteza jest pozycj� pocz�tkow�, kt�ra jest otwarta na test i odrzucenie w �wietle silnych dowod�w negatywnych. Pocz�tkowe przekonanie nazywa si� hipotez� zerow� (H0). Na og� status quo m�wi: nie r�b nic. Jego negacja nazywana jest hipotez� alternatywn� (HA, Ha, H1). Cz�sto twierdzenie, kt�re nale�y przetestowa�, lub zmiana, kt�r� nale�y wykry�, m�wi: zr�b co�. Te dwie hipotezy wykluczaj� si� wzajemnie i wyczerpuj� si� zbiorowo

Proces testowania hipotez: Rozpocznij od hipotez na temat parametru populacji. Parametrem mo�e by� �rednia, proporcja lub co� innego. Zbierz informacje z losowo wybranej pr�bki i oblicz odpowiedni� statystyk� pr�bki. Odrzucamy / nie odrzucamy hipotezy na podstawie informacji o pr�bie, je�li jest ona silnie niezgodna z hipotez� zerow�? Je�li tak, to odrzucona hipoteza.

Przyk�ad supermarketowego programu lojalno�ciowego: supermarket planuje uruchomi� program lojalno�ciowy, je�li spowoduje to, �e �rednie wydatki na kupuj�cego wynios� ponad 120 USD tygodniowo. Losowa pr�ba 80 kupuj�cych zarejestrowanych w programie pilota�owym wyda�a �rednio 130 USD w ci�gu tygodnia ze standardowym odchyleniem 40 USD. Czy nale�y uruchomi� program lojalno�ciowy?

Proces testowania

• Zacznij od za�o�enia, �e H0 (zwykle status quo) jest prawdziwe? : np. Uwa�am, �e wydatki b�d� mniejsze lub r�wne 120 USD.

• Okre�l, co nale�y rozumie� przez "wystarczaj�co silny dow�d", aby odrzuci� H0 np. prawdopodobie�stwo znalezienia �redniej pr�by powinno by� mniejsze ni� 0,05
• Zbierz dowody, kt�re zostan� wykorzystane do przetestowania H0: np. pilota� przyni�s� �rednie wydatki w wysoko�ci 130 USD w pr�bie 80 klient�w
• Oblicz prawdopodobie�stwo zaobserwowania danego lub silniejszego dowodu, np. Maksymalne prawdopodobie�stwo uzyskania pr�bki o warto�ci 130 USD lub wi�kszej w ramach H0 wynosi 0,01
• Zawrze� i podj�� odpowiednie dzia�ania? : na przyk�ad. dowody s� wystarczaj�co silne (0,01 <0,05), aby odrzuci� H0, a nast�pnie uruchomi� kart�. Podczas wyci�gania wniosk�w mo�esz pope�ni� dwa rodzaje b��d�w:

Decyzja / Rzeczywisto�� : Nie odrzucaj H0 : Odrzu� H0

H0 to prawda : Prawid�owa decyzja : B��d typu I.

H0 jest fa�szem : B��d typu II : Prawid�owa decyzja

Prawdopodobie�stwo pope�nienia b��du typu I jest takie samo jak warto�� p. Warto�� α mo�na interpretowa� jako dopuszczalne prawdopodobie�stwo pope�nienia b��du typu I (zwanego r�wnie� poziomem istotno�ci). Hipoteza jest za�o�eniem dotycz�cym parametru populacji, kt�ry podlega testowi i odrzuceniu na podstawie dowod�w. Test hipotezy ma zastosowanie, gdy mened�er zajmuje okre�lon� pozycj� w parametrze populacji, kt�ry nale�y odrzuci�, aby podj�� dzia�anie. Naukowiec danych zazwyczaj atakuje b��d typu I zwany poziomem istotno�ci. Je�li obliczone prawdopodobie�stwo danej pr�bki jest mniejsze ni� poziom istotno�ci w ramach hipotezy zerowej, odrzuca swoj� hipotez� zerow� i wprowadza niezb�dn� zmian�.

TEST CHI-KWADRAT

Test asocjacji chi-kwadrat: Test asocjacji chi-kwadrat pomaga ustali�, czy dwie lub wi�cej zmiennych kategorialnych jest powi�zanych. Test ma hipotez� zerow�, �e zmienne s� niezale�ne, a alternatywn� hipotez�, �e nie s� one niezale�ne. Test jest odpowiedni tylko wtedy, gdy istniej� wystarczaj�ce dane, kt�re s� zwykle definiowane jako wszystkie kom�rki tabeli, kt�re maj� oczekiwane, co najmniej pi��. W przypadku tabel dwukierunkowych mo�na u�y� narz�dzia chisq.test (moja tabela) do przetestowania niezale�no�ci zmiennej wierszowej i kolumnowej. Domy�lnie warto�� p jest obliczana na podstawie asymptotycznego rozk�adu chi-kwadrat statystyki testowej.

chisq.test (Zdrowie $ Leczenie, Zdrowie $ Odpowied�)

Poniewa� warto�� p jest mniejsza ni� poziom istotno�ci 0,05, mo�emy odrzuci� hipotez� zerow� i stwierdzi�, �e oba s� powi�zane zmiennymi.

Dok�adny test Fishera: dok�adny test Fishera s�u�y do testowania powi�zania mi�dzy dwiema kategorycznymi zmiennymi, z kt�rych ka�da ma dwa poziomy. mo�na go u�ywa� nawet wtedy, gdy dost�pnych jest bardzo ma�o danych. Test ma hipotez� zerow�, �e dwie zmienne s� niezale�ne, a alternatywn� hipotez�, �e nie s� one niezale�ne.

fisher.test (Zdrowie $ Leczenie, Zdrowie $ Odpowied�)
Do wynik�w testu do��czony jest 95-procentowy przedzia� ufno�ci dla ilorazu szans. Mo�esz zmieni� rozmiar interwa�u za pomoc� argumentu conf.level:

fisher.test (Health $ Treatment, Health $ Response, conf.level = 0.99)

fisher.test (x) zapewnia dok�adny test niezale�no�ci. x jest dwuwymiarow� tabel� kontyngencji w postaci macierzy.

Analiza zmiennych ci�g�ych: Analizuj�c zmienne ci�g�e, mo�emy potrzebowa� odpowiedzi na kilka pyta�.

• Jak por�wna� �rednie z dw�ch populacji przy u�yciu sparowanych obserwacji?
• Kiedy i jak por�wna� dwie populacje oznacza u�ycie niezale�nych pr�bek?
• Jak sprawdzi� r�nice w dw�ch proporcjach populacji?

Przyk�ad programu redukcji wagi: Ekspert od�ywiania chcia�by oceni� wp�yw zorganizowanych program�w diety na mas� uczestnik�w. Losowo wybiera 60 uczestnik�w programu dietetycznego i mierzy ich wag� (w kg) tu� przed zapisaniem si� do programu i bezpo�rednio po jego zako�czeniu. Czy na podstawie tych dowod�w nowy program diety skutecznie redukuje wag�? �a�cuch zdrowia mo�e poleci� konwencjonaln� diet� niskokaloryczn� za darmo lub mo�e zaleci� now� diet�, p�ac�c op�at� licencyjn�. Firma stwierdzi�a, �e warto ui�ci� op�at� licencyjn�, je�li zdob�d� wystarczaj�c� liczb� dodatkowych cz�onk�w, co jest mo�liwe, je�li nowa dieta obni�y �redni� wag� o 3 kg lub wi�cej w por�wnaniu z konwencjonaln� diet� niskokaloryczn�. Firma zbiera dane na temat odchudzania od dw�ch prostych losowych pr�bek os�b, z kt�rych jedna przechodzi now� diet�, a druga konwencjonaln� diet� przez 6 miesi�cy

TEST

Test t dla jednej pr�bki s�u�y do por�wnania �redniej warto�ci pr�bki ze sta�� warto�ci� oznaczon� m0. Ma hipotez� zerow�, �e �rednia populacji jest r�wna m0, i hipotez� alternatywn�, �e nie jest.

# Jedna pr�bka t-test
setwd("D:/R data")
WR_Trt <- read.csv("Wt_red.csv")
fix(WR_Trt)
OS_ttest <- WR_Trt[which(WR_Trt$Treatment=="Dummy Pill"),]
OS_ttest$Change <- OS_ttest$Before-OS_ttest$After
fix(OS_ttest)
OS_tt_res<- t.test(OS_ttest$Change, mu=3)

Argument podaje warto��, z kt�r� chcesz por�wna� �redni� pr�bki. Jest opcjonalny i ma domy�ln� warto�� 0. Domy�lnie R wykonuje test dwustronny. Aby wykona� test jednostronny, ustaw alternatywny argument na "wi�kszy" lub "mniej". Aby dostosowa� rozmiar interwa�u, u�yj argumentu conf.level:

t.test(OS_ttest$Change, mu=1, alternative="greater")
t.test(OS_ttest$Change, mu=1, conf.level=0.99)

Dwupr�bkowy test t s�u�y do por�wnania �rednich warto�ci dw�ch niezale�nych pr�bek w celu ustalenia, czy s� one pobierane z populacji w jednakowych �rednich warto�ciach. Ma zerow� hipotez�, �e dwa �rednie s� r�wne, i alternatywn� hipotez�, �e nie s� r�wne. Aby wykona� test t dla dw�ch pr�bek z danymi w formie stosu, u�yj polecenia: t.test(values~groups, dataset gdzie warto�ci to nazwa zmiennej zawieraj�cej warto�ci danych, a grupa to zmienna zawieraj�ca nazwy pr�bek. Je�li zmienna grupuj�ca ma wi�cej ni� dwa poziomy, musisz okre�li�, kt�re dwie grup

t.test(WR_Trt$Change~WR_Trt$Treatment, WR_Trt, Treatment %in% c("Old_Trt", "Test_Drug"))

Domy�lnie R u�ywa osobnych oszacowa� wariancji podczas przeprowadzania test�w dw�ch pr�b i sparowanych. Je�li uwa�asz, �e wariancje dla dw�ch grup s� r�wne, mo�esz skorzysta� z oszacowania ��cznej wariancji. Aby u�y� oszacowania wariancji w puli, ustaw argument var.equal na T.

Sparowany test T: sparowany test t s�u�y do por�wnania �rednich warto�ci dla dw�ch pr�bek, gdzie ka�da warto�� w jednej pr�bce odpowiada okre�lonej warto�ci w drugiej pr�bce. Ma hipotez� zerow�, �e dwa �rednie s� r�wne, a alternatywn� hipotez�, �e nie s� r�wne.

# paired t-test
t.test(WR_Trt$Before,WR_Trt$After,paired=T)

Jest to naturalne, a tak�e wykonalne przed i po pomiarach na tych samych obiektach, w tym przypadku u�ywamy testu sparowanego.

Rozk�ady pr�bkowania �rednich dw�ch pr�bek: Dwa rozk�ady �rednich pr�b s� normalne, pod warunkiem �e warunek Twierdzenia o granicy centralnej jest spe�niony osobno dla 1. Niezale�no�� taka jak kto jest w pr�bce nie wp�ywa na to, kto jeszcze jest w tej pr�bce i kto jest w pr�bce nie wp�ywa na to, kto jest w drugiej pr�bie. 2. Warunki wielko�ci, takie jak Liczba obserwacji w ka�dej pr�bce, musz� przekracza� 10-krotno�� warto�ci bezwzgl�dnej Kurtozy i 10-krotno�� kwadratowej Sko�no�ci w tej pr�bce.

Przyk�ad: Odsetek dietetyk�w, kt�rzy trac� na wadze: Za��my, �e alternatywnym wska�nikiem pomiaru wydajno�ci programu dietetycznego jest odsetek uczestnik�w, kt�rzy stracili wi�cej ni� 3 kg. Najlepszym sposobem por�wnania �rednich dw�ch rozk�ad�w jest u�ycie sparowanych obserwacji, je�li jest to wykonalne. �rednia r�nica w sparowanych obserwacjach pr�bki jest zgodna z rozk�adem normalnym zgodnie z Central Limit Theorem. Gdy sparowane obserwacje nie s� mo�liwe, u�ywamy niezale�nych pr�bek i formu�ujemy hipotez� dotycz�c� r�nicy mi�dzy dwoma �rednimi. Wa�ne jest, aby upewni� si�, �e badani zostali losowo przydzieleni do dw�ch pr�bek, aby unikn�� pomy�ek. Podobne podej�cie mo�na zastosowa� do przetestowania r�nicy proporcji mi�dzy dwoma.

ANALIZA WARIANCJI (ANOVA)

Analiza wariancji pozwala por�wna� �rednie z trzech lub wi�cej niezale�nych pr�bek. Jest odpowiedni, gdy warto�ci s� rysowane z rozk�adu normalnego i gdy wariancja jest w przybli�eniu taka sama w ka�dej grupie. Hipoteza zerowa dla testu jest taka, �e �rednia dla wszystkich grup jest taka sama, a alternatywna hipoteza jest taka, �e �rednia jest r�na dla co najmniej jednej pary grup. Zastan�wmy si� nad nast�puj�cymi pytaniami i spr�buj odpowiedzie� na nie w studium przypadku.

• Dlaczego do por�wnania �rednich populacji wymagana jest analiza wariancji (ANOVA)?
• Jaka jest zasada sumy kwadrat�w?
• Jak przeprowadzi� test ANOVA?
• Jak� dalsz� analiz� nale�y wykona�, je�li test ANOVA jest istotny?

Studium przypadku: Program redukcji wagi: Za��my, �e ekspert od�ywiania chcia�by dokona� oceny por�wnawczej trzech program�w dietetycznych. Losowo przypisuje r�wn� liczb� uczestnik�w do ka�dego z tych program�w ze wsp�lnej puli wolontariuszy. Za��my, �e �rednie straty masy w ka�dej grupie (ramionach) eksperyment�w wynosz� 4 kg, 7 kg, 5,4 kg. Co ona mo�e wyci�gn��? Tutaj wa�ne s� dwa rodzaje zmian. Nie ka�da osoba w ka�dym programie zareaguje identycznie na program diety. �atwiej jest zidentyfikowa� zmiany w r�nych programach, je�li zmiany w programach s� mniejsze, dlatego metoda nazywa si� Analiza wariancji (ANOVA). Formalizowanie intuicji stoj�cej za wariacjami. Bardziej zaskakuj�ce i przydatne jest: Suma kwadrat�w og�em (SST), Suma kwadrat�w Leczenie (SSTR), Suma kwadrat�w B��d (SSE)

Test statystyczny pod k�tem r�wno�ci �rednich:

n przedmiot�w r�wno podzielonych na r grupy

Hipotezy: H0: ?1 = ?2 = ?3 =� = ?r. Odrzu� hipotez� zerow�, je�li warto�� p
aov(Change~Treatment, WR_Trt)

Wyniki analizy sk�adaj� si� z wielu komponent�w, kt�rych R nie wy�wietla automatycznie. Je�li zapiszesz wyniki w obiekcie, jak pokazano tutaj, mo�esz u�y� dalszych funkcji, aby wyodr�bni� r�ne elementy wyniku:

aovobject<-aov(Change~Treatment, WR_Trt)

#Once zapisaniu wynik�w jako obiekt mo�esz wy�wietli� tabel� ANOVA z funkcj� anova:

anova (aovobject)
# Aby wy�wietli� wsp�czynniki modelu, u�yj funkcji coef:
coef (aovobject)
# Aby wy�wietli� przedzia�y ufno�ci dla wsp�czynnik�w, u�yj funkcji confint:
confint (aovobject)
# One Way Anova (ca�kowicie losowy projekt)
fit <- aov (Zmiana ~ Leczenie, WR_Trt)

Tabela ANOVA: Je�li odrzucimy hipotez� zerow�, �e wszystkie �rednie s� r�wne, prawdopodobie�stwo pope�nienia b��du wynosi mniej ni� 2,5%. Czy mo�emy stwierdzi�, �e dieta testowa jest bardziej skuteczna ni� stara dieta ?. Zakres zmienno�ci mi�dzy grupami i wewn�trz grup determinuje si�� dowod�w w stosunku do hipotezy zerowej, �e �rednie wszystkich grup s� r�wne. Suma kwadrat�w odchyle� (wok� �redniej �redniej) jest r�wna sumie b��d�w kwadrat�w odchyle� (wok� odpowiednich �rednich grup) plus suma leczenia odchyle� kwadratu (grupa oznacza wok� wielkiego �rodka). Test ANOVA por�wnuje �rednie kwadratowe leczenie ze �rednimi kwadratowymi b��dami. Je�li stosunek ten jest "znacznie" wi�kszy, mo�emy odrzuci� hipotez� zerow�, �e �rednie s� r�wne.

KROK 6

Machine Learning

WPROWADZENIE

Czy kiedykolwiek my�la�e�, �e Maszyny mog� uczy� si� i organizowa� prac� bardziej konsekwentnie ni� Ty? Czy kiedykolwiek my�la�e� o tych pytaniach?

• Jakie zadania s� dobre do wykonania przez maszyny, kt�re dla ludzi nie s� dobre lub odwrotnie
• Co to oznacza uczenie maszynowe?
• Jak nauka wi��e si� z inteligencj�? Czy cz�owiek mo�e naprawd� stworzy� Inteligentne Maszyny, kt�re mog� przewy�szy� Cz�owieka na wiele sposob�w? Co to znaczy by� inteligentnym?
• Czy wierzysz, �e kiedykolwiek zostanie zbudowana maszyna ujawniaj�ca inteligencj�?
• Co to znaczy by� �wiadomym, czy mo�na by� inteligentnym i nie�wiadomym lub odwrotnie?

Kiedy widzimy wiele danych, nie jeste�my pewni, czego szuka� i co tam jest, i co zostanie znalezione. Miej to na uwadze, uczenie si� to nie tylko podej�cie do �ycia, ale tak�e podej�cie do eksploracji danych i uczenia maszynowego, zawsze podchodzimy do danych i uczenia maszynowego z takim podej�ciem, kt�re zaprowadzi Ci� bardzo daleko. Om�wmy filozofi� uczenia si�, uczymy si� na wiele sposob�w. Uczymy si� przez asymilacj�, czytamy du�o ksi��ek, ogl�damy du�o film�w, s�uchamy piosenek, to jest asymilacja. Rzeczy, kt�rych si� uczymy, musz� by� zastosowane, w przeciwnym razie zapomnimy, stosujemy te rzeczy, robi�c i omawiaj�c. Ten tekst b�dzie zawiera�a zar�wno teoretyczne, jak i praktyczne scenariusze, postaramy si� zastosowa� niekt�re rzeczy tutaj do rzeczywistych zestaw�w danych, mo�esz u�y� dowolnego j�zyka, jakiego potrzebujesz, dowolnego ulubionego narz�dzia (u�ywam R jako narz�dzia), stosujemy rzeczy, kt�rych si� nauczyli�my. Po sko�czeniu aplikacji mo�emy przej�� do dostosowywania wszystkiego, czego si� nauczy�e� i stworzy� co� nowego. Po wype�nieniu tego tekstu chc�, takie jakie� stwierdzenie : Wiedza jest tym, co pozosta�o po zapomnieniu fakt�w. Ten tekst nie dotyczy uczenia si� okre�lonych formu�, ale tak naprawd� dotyczy poj��. Zajm� si� tematami z r�nych dziedzin, r�nymi problemami rozwi�zanymi za pomoc� uczenia maszynowego. Ten tekst pomo�e Ci zrozumie�, jakie s� r�ne algorytmy uczenia maszynowego, kt�rych u�ywamy w bran�y do rozwi�zywania problem�w biznesowych. S� trzy I, kt�re stworz� �wietny produkt. Sp�jrzmy na radio i telewizj�, by�y �wietnymi produktami swoich czas�w, ale dzi� zobaczmy, jakie cechy sprawiaj�, �e produkt jest �wietny. Pierwsze I to Interfejs produktu. Czy musz� czyta� instrukcj� obs�ugi produktu, czy m�j produkt mo�e obs�ugiwa� 5-latek lub nawet 70-letni facet, pole wyszukiwania Google to przyk�ad �wietnego interfejsu. Nast�pne I to Infrastruktura, budujemy produkty nie na komputery PC. Nast�pi�a zmiana paradygmatu, wcze�niej ludzie buduj� produkty takie jak Windows O/S, Outlook, wszystkie te s� przeznaczone na komputery PC. Je�li spojrzysz na LinkedIn, YouTube, Google, Facebook, s� to produkty stworzone dla �wiata, z kt�rych mog� korzysta� miliardy ludzi na ca�ym �wiecie. Trzecie I , aby stworzy� �wietny produkt, to Inteligencja. Je�li spojrzysz na wyszukiwanie w Google i wpiszesz zapytanie, ma ono pewn� autosugesti�. Kiedy na nie patrzysz, masz wra�enie, �e Google czyta w twoich my�lach, filmy z YouTube'a podczas ogl�dania, sugeruj� podobne filmy, czujesz, �e produkt jest inteligentny. LinkedIn, Amazon, Netflix, kiedy z nich korzystasz i przegl�dasz rekomendacje, kt�re uwa�amy za bardzo inteligentne. Ta funkcja jest znana jako sztuczna inteligencja, bez kt�rej produkty te mog� nie odnie�� takiego sukcesu. Tak wi�c, ilekro� my�lisz o zbudowaniu nowego produktu, pomy�l w ten spos�b, �e powinien on zawiera� wszystkie Trzy Ja. Moja ksi��ka dotyczy cz�ci Inteligencji i zawsze dyskutujemy o tym, jak stworzy� Inteligentny produkt za pomoc� uczenia maszynowego

DLACZEGO UCZENIE MASZYNOWE?

Uczenie maszynowe, sztuczna inteligencja, eksploracja danych, analiza du�ych zbior�w danych - wszystko to wygl�da podobnie i prawie dotyczy tego samego. Mo�e istnie� niewielka r�nica w podej�ciu i nak�adaniu si� mi�dzy nimi, ale wszystko, co musisz zrozumie�, to wszystko to samo. Uczenie maszynowe jest tradycyjnym terminem u�ywanym i u�ywamy tego samego terminu. Pozw�lcie, �e przedstawi� perspektyw� uczenia maszynowego: wezm� przyk�ad rankingu stron internetowych. Jest to proces przes�ania zapytania do wyszukiwarki, kt�ra nast�pnie wyszukuje strony internetowe powi�zane z zapytaniem i zwraca je w odpowiedniej kolejno�ci. Aby osi�gn�� ten cel, wyszukiwarka musi "wiedzie�", kt�re strony s� trafne, a kt�re pasuj� do zapytania. Tak� wiedz� mo�na uzyska� ze struktury link�w stron internetowych, ich zawarto�ci, cz�stotliwo�ci, z jak� u�ytkownicy b�d� pod��a� za sugerowanymi linkami w zapytaniu. Filtrowanie grupowe to kolejna aplikacja do uczenia maszynowego, sklep e-commerce, taki jak Amazon, intensywnie wykorzystuje te informacje, aby zach�ci� u�ytkownik�w do zakupu dodatkowych towar�w. Sp�jrzmy na filtrowanie spamu, jeste�my zainteresowani odpowiedzi� tak / nie, czy e-mail zawiera odpowiednie informacje, czy nie. Jest to ca�kowicie zale�ne od u�ytkownika: w przypadku cz�sto podr�uj�cych wiadomo�ci e-mail od linii lotniczych informuj�ce go o ostatnich zni�kach mog� okaza� si� cennymi informacjami, podczas gdy dla wielu innych odbiorc�w mo�e to by� bardziej uci��liwe. Aby zwalczy� te problemy, chcemy zbudowa� system, kt�ry b�dzie w stanie nauczy� si� klasyfikowa� nowe wiadomo�ci e-mail. Sp�jrzmy na diagnoz� raka, ma wsp�ln� struktur�, kt�ra bior�c pod uwag� dane histologiczne tkanki pacjenta, mo�emy wnioskowa�, czy pacjent jest zdrowy, czy nie. Tutaj nawet jeste�my proszeni o wygenerowanie odpowiedzi tak / nie na podstawie zestawu obserwacji. wszyscy pracujemy dla r�nych firm, widzieli�my okre�lon� ilo�� danych, je�li cofniesz si� i spojrzysz na to, co robi �wiat, to po prostu cudowne, �e zebrali wiele danych, je�li spojrzysz na sekwencj� gen�w, projekt genomu cz�owieka, ludzi s� zebrane sekwencje gen�w ka�dego organizmu, jest to miliard sekwencji, kt�re musisz przeanalizowa�, teraz mo�esz sobie wyobrazi�, ile to danych. Za ka�dym razem, gdy przesuwasz kart� kredytow� lub debetow�, tworzysz du�o danych, Za ka�dym razem, gdy kupujesz lub sprzedajesz akcje, generowany jest punkt danych, za ka�dym razem, gdy piszesz ksi��k� lub dokument prawny, lub gdy wysy�asz satelit�, te satelity gromadz� wszelkiego rodzaju dane. Pozw�lcie, �e dam troch� poj�cia o Big Data, ka�dego dnia odbywa si� prawie 200 milion�w tweet�w i istnieje oko�o 500 milion�w kont na Twitterze. U�ytkownicy YouTube przesy�aj� 100 godzin film�w co minut�, w Internecie co minut� powstaje 800 nowych stron internetowych, Facebook przetwarza 100 terabajt�w danych ka�dego dnia, co miesi�c udost�pnianych jest 30 miliard�w element�w, co daje ponad 30 petabajt�w danych u�ytkownika. Google przetwarza 20 petabajt�w danych dziennie, chodzi o indeksowanie sieci, indeksowanie sieci itp. Wal-Mart ponad 1 milion transakcji klient�w co godzin�, to zupe�nie nowy �wiat, w kt�rym �yjcie w arkuszach kalkulacyjnych Excel, nie wystarczy, �e nie mo�na za�adowa� danych do komputera, przetwarza� danych za pomoc� komputera i tworzy� wgl�du w dane, nie jest to mo�liwe. Zastan�wmy si�, jak si� tu dostali�my? Nie dotarli�my tu przypadkiem, wiele rzeczy musia�o si� tu dosta�, ta eksplozja danych jest mo�liwa dzi�ki lepszym czujnikom, kiedy m�wi� czujnik, wszystko, co zbiera punkt danych, to czujnik, termometr to czujnik, GPRS w samochodzie jest czujnikiem, nawet my jeste�my czujnikami, za ka�dym razem, gdy generujemy punkty danych, kiedy wykonujesz po��czenie z telefonu, tworzysz dane, za ka�dym razem, gdy przesuwasz kart�, generujesz dane, chc�, aby� wyobrazi� sobie nowy �wiat, w kt�rym �yjemy. Po zebraniu danych, kiedy uzyskujemy pewne statystyki, nadal jeste�my w stanie wygenerowa� wiele statystyk, raport�w i histogram�w, ale to nie jest inteligencja. To s� obliczenia brutalnej si�y, musimy zdawa� sobie spraw� ze wszystkich rzeczy, kt�re robimy. Eksperci od uczenia maszynowego my�l� o futurystycznych rzeczach, twierdz�, �e nasza technologia jest taka, �e nasze maszyny s� cz�ci� ludzko�ci. Stworzyli�my je, aby si� rozwija�, co jest wyj�tkowe w ludziach. To stwierdzenie jest prawdziwe przez ca�y czas, je�li spojrzysz na nagich ludzi, stworzyli narz�dzia do polowania, wymy�lili ogie�, stworzyli ko�a, chcemy zobaczy� bardzo daleko wynaleziony teleskop, chcieli�my zobaczy� bardzo ma�y tak wynaleziony mikroskop, cokolwiek stworzymy, jak samoloty, d�wigi, ma si� rozszerzy�. To czego nie przed�u�ono, co zawsze chcemy stworzy� i wci�� nie odnosimy sukces�w, jest nasz m�zg, kiedy patrz� na problem, jak go rozwi�za�, kiedy zobaczyli�my obraz, jak to zrobi� rozpoznajemy to? Teraz naszym celem jest stworzenie maszyny, kt�ra jest inteligentna, nie tylko kalkulator, nie tylko przechowuje du�o danych, nie tylko z�o�ony program, ale w jaki spos�b uczyni� inteligentn� maszyn� tak inteligentn� jak ludzki m�zg. Sp�jrzmy nawet na ewolucj� komputer�w, wyobra� sobie, �e pierwszy komputer zosta� stworzony tak ,�e musisz wej�� do komputera, pod��czy� przewody, aby programowa�. Potem wymy�lono komputery IBM, potem laptopy, od jednego komputera uniwersyteckiego do jednego komputera w ka�dym domu, dzi�ki IBM i Microsoft, posiadanie komputera w domu to ich wizja. Jaka jest kolejna ewolucja informatyki? Przetwarzanie w chmurze to kolejna ewolucja. Jest to centrum danych, p�yty g��wne s� po��czone jeden po drugim w szafie, nie potrzebujemy do nich monitora ani klawiatury. Wszystkie dane generowane przez Amazon, YouTube, LinkedIn, Twitter, Facebook itp. znajduj� si� w centrum danych. Jaka jest przysz�o��. Przysz�o�ci�� nazywamy komputere kwantowy, wykraczaj�cym poza tradycyjny rodzaj oblicze�, kt�ry wykorzystuje stany kwantowe atomu do oblicze� i przechowywania informacji. Ca�e centrum danych mo�e zmie�ci� si� w tym komputerze kwantowym, wi�c mo�esz sobie wyobrazi� przysz�o�� komputer�w. Por�wnaj pierwszy komputer z komputerem kwantowym, oba wygl�daj� na niezdarne, ale ten drugi jest bilion razy szybszy ni� pierwszy komputer. W najbli�szych dniach mo�emy mie� miniatur� komputer�w kwantowych, a centra danych komputera kwantowego zastanawiaj� si�, co si� stanie. Trzeba pami�ta�, �e moc obliczeniowa ro�nie w ogromnym tempie wyk�adniczym, a my mo�emy sobie poradzi� z danymi bez wzgl�du na rozmiar. Sp�jrzmy na ewolucj� technologii informacyjnej. Podzieli�em je na trzy cz�ci. Pierwsza to era indeksowania, w kt�rej jedyne, co musieli�my zrobi�, to znale�� spos�b na zebranie danych, przechowywa� je w bazie danych w taki spos�b, aby�my mogli je pobra� za pomoc� zapytania SQL. To by�a era indeksowania, tutaj nawet nowoczesne wyszukiwarki nale�� do tej kategorii, nawet wyszukiwarka Google to gigantyczny system indeksowania, kluczem jest s�owo, a warto�� to dokument zawieraj�cy wszystkie s�owa, ale w gruncie rzeczy to nic wi�cej ni� system SQL. Ludzie pytali o podstawowe pytania, takie jak czy mog� wzi�� redni� wszystkich os�b pracuj�cych w dziale lub w okre�lonej technologii z okre�lonym wieloletnim do�wiadczeniem. W�a�nie tam zako�czy� si� system indeksowania. Nast�pna era to era interpretacji, w tej erze my�leli�my, �e powinienem m�c zinterpretowa� dane w bardzo interesuj�cy spos�b, czy istnieje jaki� ukryty wzorzec w danych, czy dane m�wi� co�, czego nie jestem �wiadomy, oto co to nauka bez nadzoru, kt�rej si� nauczymy. Chodzi o to, aby wyj�� poza zapytania i pozwoli�, aby dane m�wi�y o tym, co ma, poniewa� zadaj� wi�cej pyta� ni� proste zapytanie. Widzimy wiele przyk�ad�w na ten temat w ca�ym tek�cie. Nast�pna era to era inteligencji, w kt�rej podejmujemy decyzje. Czy mog� korzysta� z moich danych, nie tylko jako bazy danych, czy mog� r�wnie� przewidywa� przysz�o�� ?, Czy ten klient zamierza odej�� ?, Kt�r� osob� polecisz na LinkedIn w przysz�o�ci ?, Jaki jest nowy produkt, kt�ry powinienem stworzy� dla rynku ?, Jak mog� podj�� decyzj� na podstawie moich przesz�ych do�wiadcze�, we wszystkich danych, kt�re mia�em? W erze inteligencji nadzorowane uczenie si� i optymalizacja upadn�. Istniej� dwa cele uczenia maszynowego. Do tej pory rozumiemy, �e jeste�my w �wiecie bogatym w dane i musimy co� zrobi� z tymi danymi. Uczenie maszynowe jest na to sposobem.

JAK DZIA�A UCZENIE MASZYNOWE?

Aby to zrozumie�, musimy pomy�le� o naturze umys�u? Czy chcemy zrozumie�, jak dzia�a umys�? Czym jest inteligencja? Czego si� uczysz? Co my�lisz? Na przyk�ad mog� zbudowa� system OCR do odczytu znak�w tekstowych ksi��ki, ale czy on rozumie tekst. Czy mo�emy przej�� od czytania tekstu do rozumienia tekstu? Czy mo�emy przej�� od s�uchania do s�uchania i rozumienia d�wi�ku? Czy telefon kom�rkowy, kamera wideo, kt�rej u�ywasz do robienia zdj�� lub film�w, mog� je zrozumie� i zinterpretowa� jako jak lubisz? Jak mo�emy rozszerzy� maszyny na ten poziom? To jeden z cel�w Sztucznej Inteligencji. W 1950 roku Alan Turing przyszed� ze swoim testem. Jak mo�emy powiedzie�, �e maszyny s� inteligentne? Wymy�li� ciekawy test zwany testem Turinga, w zasadzie test polega na tym, czy dana osoba rozmawia z dwoma polami czatu, jeden z czat�w jest pod��czony do komputera drugi z prawdziw� osob�, osob�. Celem jest okre�lenie, kt�ry jest maszyn�, a kt�rnie, je�li osoba A nie mo�e powiedzie�, �e rozmawia z maszyn� lub osob�, mo�emy powiedzie�, �e osi�gn�� poziom sztucznej inteligencji. Obecnie m�wimy o naszej wyszukiwarce Google, bardzo ostro�nie wybieramy s�owa kluczowe, zachowujemy kolejno��, poniewa� mo�e on rozumie� tylko zapytania oparte na s�owach kluczowych, nie mo�e zrozumie� pyta� i zapomnie� o rozmowach. Chcemy ewoluowa� od s��w kluczowych po pytania, a nawet rozmowy. Firmy takie jak Google staraj� si� rozwi�za� ten problem i stworzy� maszyn� tak dobr� jak ludzki m�zg. Drugim celem uczenia maszynowego s� decyzje oparte na danych. Pozw�lcie, �e podam kilka przyk�ad�w, w jakiej pozycji reklama / strona ma by� wy�wietlana dla danego zapytania?. Czy powinienem zatwierdzi� t� po�yczk� mieszkaniow�, czy nie? Kt�ry film poka�e si� nast�pnie na YouTube? Firmy musz� odpowiedzie� na wszystkie te pytania, to nie jest jedna wielka decyzja, wszystkie s� mikro decyzjami, kt�re nale�y podj�� kilka razy. Celem jest podejmowanie decyzji w spos�b bardziej systematyczny, bardziej zorganizowany. Powiniene� spojrze� na swoj� firm� i zobaczy�, jakie decyzje podejmuj� twoje firmy, czy s� one oparte na odczuciu, czy s� oparte na wcze�niejszych studiach przypadk�w, czy naprawd� s� oparte na danych? Musimy sprawdzi�, czy mamy wystarczaj�c� ilo�� danych, aby podj�� decyzj�, jak mierzymy i zatwierdzamy decyzj�, to w�a�nie jest celem tego kursu, aby uczyni� ci� lepszym naukowcem danych, kt�ry mo�e gromadzi� dane i konwertowa� je na problem badawczy, opracowywa� modele, wdra�a� modele itp., Nauka o danych jest kombinacj� trzech rzeczy: 1. Dane 2. Algorytmy ML 3. Domena wiedzy. Ka�dy z nas mo�e by� silny w jednej lub dw�ch i musimy wybra� inn�h, aby zosta� naukowcem danych. Wyobra� sobie, �e je�li jeste� absolwentem informatyki, z przyjemno�ci� poradzisz sobie z algorytmami, stosuj�c algorytmy do zestaw�w danych dostarczonych przez klienta, ale kiedy przychodzisz do prawdziwego �wiata, zajmowanie si� danymi jest ogromnym problemem. Spr�bujmy zrozumie� s�owo Data Mining, Mining to proces poszukiwania diament�w w ogromnej masie kamieni. W rzeczywisto�ci dane s� sk�pe, na wiele sposob�w nawet nie mo�esz sobie wyobrazi�. Musimy zrozumie�, �e dane nie s� proste, jak zak�adamy. To jest jak tw�j 2-letni dzieciak. Lubisz go, ale robi wiele rzeczy, z kt�rych nie jeste� zadowolony. Nie zachowuje si� tak, jak chcesz. Za��my, �e jeste�my silni zar�wno w zakresie algorytm�w danych, jak i uczenia maszynowego, kt�re wci�� musimy wiedzie� jak zastosowa� je wszystkie w rzeczywistych sytuacjach, poniewa� dane w r�nych domenach zachowuj� si� inaczej. Domena wiedzy odgrywa bardzo wa�n� rol� w Data Science. Tylko wtedy, gdy masz siln� domen�, zrozumiesz, kt�rego parametru szuka� , jakiego rodzaju funkcji szuka�. Zrozumia�em, �e wszystkie te trzy elementy odgrywaj� istotn� rol� w Data Science. Ludzie, kt�rzy s� silni we wszystkich tych trzech, b�d� nazywani naukowcami danych. Mam nadziej�, �e po przeczytaniu tego tekstu staniesz si� silny we wszystkich trzech rzeczach.

RODZAJE NAUCZANIA MASZYNOWEGO

Uczenie si� bez nadzoru: Otrzyma�e� mn�stwo danych, nie powiedziano ci, czego szuka�? Teraz mo�esz by� bardziej kreatywny. Wyobra� sobie, �e dostarczy�e� swojemu dziecku papier, szkicowniki i wszystkie inne rzeczy i poprosi�e� go, aby co� narysowa�. Potrafi by� bardzo kreatywny i rysowa�, co mu si� podoba, i wyja�nia, co to za rysunek. To jest nauka bez nadzoru. W tym przypadku staramy si� znale�� struktur� i gramatyk� w danych, aby�my mogli je wyczu�. W uczeniu si� bez nadzoru, to nad czym pracujemy, to dane nieoznakowane. Wyobra� sobie, �e da�em Ci wszystkie filmy z YouTube, kt�ry film jest ogl�dany ile razy, i kto ogl�da�, kt�ry film, ale nie powiedzia�em, co z tym zrobi�, staje si� to problemem bez nadzoru.

Nadzorowane uczenie si�: wyobra� sobie, �e twoje dziecko po prostu do ciebie wraca i pyta, co narysowa�? Je�li podasz kolejne dane wej�ciowe, takie jak narysuj Drzewo lub narysuj Dom, w�wczas b�dzie to nadzorowane uczenie si�. Oznacza to, �e nauka nadzorowana ma miejsce wtedy, gdy wiesz, czego szuka�. W uczeniu nadzorowanym oznaczyli�my dane danymi i staramy si� znale�� zar�wno struktur�, jak i zmienn�, kt�ra powoduje drug� zmienn� (struktura i przyczynowo��) poprzez budowanie modeli. Kiedy budujesz model, kt�ry m�wi przewidywanie oszustwa, przewidywanie odej�cia klienta, przewidywanie nast�pnego filmu na youtube, kt�ry klient obejrzy, przewidywanie rekomendacji LinkedIn, przewidywanie raka, kiedy podasz bardzo konkretny problem, w�wczas stanie si� on nadzorowanym nauczaniem. Pomy�lmy o uczeniu si� bez nadzoru, wyobra� sobie, �e zaczynasz now� dzia�alno��, przejrza�e� r�ne studia przypadk�w i odkry�e� 20 problem�w z CRM (zarz�dzanie relacjami z klientami), teraz mo�emy pracowa� nad tymi 20 problemami z CRM i mo�emy si� cieszy�, �e znalaz�e� odpowiedzi na wszystkie problemy. Ale czy mo�esz si� z nimi dobrze czu�? Czy mamy gwarancj�, �e nie b�dzie �adnych innych problem�w? Jaki jest problem z tym podej�ciem? Wyobra�my sobie, �e wszystkie studia przypadk�w znajduj� si� w krajach zachodnich i chcesz je zastosowa� w Indiach. Problemy w Indiach by�yby bardzo trudne i mog� by� bardzo r�ne. Wyobra� sobie, dlaczego Amazon nie m�g� pracowa� w Indiach takimi, jakimi s�? Poniewa� w Indiach Fabmart (wiele os�b uwa�a, �e Flipkart) wprowadzi� now� koncepcj� zwan� pobraniem (COD), bez tej opcji, w Indiach Amazon nie odni�s�by sukcesu. Musimy wi�c by� pokorni w zakresie wiedzy o Twojej dziedzinie. musimy sprawdzi�, czy dane co� do Ciebie m�wi�, tam si� otwieramy i powiedzie�, �e pozwol� sobie na nauk� bez nadzoru. Pozw�l mi zobaczy�, co m�wi� dane poza tym, co my�la�e�.

Uczenie cz�ciowo nadzorowane: w tego rodzaju uczeniu otrzymujesz dane oznaczone i nieznakowane, ilo�� oznaczonych danych jest mniejsza w por�wnaniu z ca�kowit� ilo�ci� danych. Uczenie cz�ciowo nadzorowane polega na tym, jak wykorzysta� uczenie si� bez nadzoru w po��czeniu z oznaczonymi danymi, aby zbudowa� jeszcze lepszy model.

Aktywne uczenie si� : powiedzmy, �e mamy 2000 przyk�ad�w oznakowanych danych, proces etykietowania jest bardzo kosztowny, musz� wybra� nast�pnego faceta z 10 milion�w przyk�ad�w, kt�re wci�� nie s� oznaczone, musz� wybra� kolejne 20 zdj��, poniewa� mam po prostu ograniczenia, takie jak finansowanie i czas, kt�re przyk�ady powinienem oznaczy� jako pierwszy? Poniewa� to okre�li nast�pny model, kt�ry zbudujesz. Nazywa si� to aktywnym uczeniem si�.

Uczenie si� ze wzmocnieniem: W tego rodzaju uczeniu si� nie budujemy modelu, kt�ry odwzorowuje od A do B, ale budujemy model, kt�ry odwzorowuje ca�� sekwencj� dzia�a� na wynik. Podobnie jak w szachach, ka�da pozycja figury okre�la, czy wygrasz, czy przegrasz. Nie mo�esz oceni� pojedynczego kroku, ale mo�esz oceni� ca�� gr� jako jednostk�. Wyobra� sobie scenariusz bankowy, w kt�rym ocenia swoich klient�w na podstawie sekwencji dzia�a� od otwarcia konta do zamkni�cia konta. Seria dzia�a� staje si� prowadzi� do lojalno�ci klienta lub rezygnacji. W ko�cu, gdy si� odejdzie, zrozumiesz, �e jedno lub wi�cej dzia�a� w tej sekwencji by�o niew�a�ciwych. Oznacza to, �e pracujesz nad seri� decyzji, a nie jedn�. Pozw�l mi wzi�� przyk�ad s��w reklamowych Google, wchodzisz, otwierasz firm�, otwierasz konto s��w reklamowych i okre�lasz te s�owa kluczowe, kt�rych chcemy u�ywa� w mojej firmie. Teraz dzieje si� wiele oszustw, co si� dzieje, ludzie u�ywaj s��w takich jak Mahatma Gandhi w sklepie z zabawkami, dlaczego? klient zastosowa� t� sztuczk�? wiesz, �e to dobre zapytanie, gdy jest dobre, pojawi si� moja reklama, ale nie ma to znaczenia. Teraz istniej� dobre algorytmy uczenia maszynowego, kt�re okre�laj�, czy s�owo kluczowe jest odpowiednie dla firmy, czy nie. Ale czasami decyzje by�y bardzo niejasne. Teraz algorytm uczenia maszynowego nie mo�e da� ci rozwi�zania, musisz podj�� ostateczne wezwanie, poniewa� model uczenia maszynowego nie jest w stanie podj�� decyzji. Wtedy dzieje si� du�o aktywnego uczenia si�. Musimy wi�c zrozumie�, �e nie ma systemu opartego wy��cznie na uczeniu maszynowym, zawsze ��czymy uczenie maszynowe z ludzkim my�leniem. Automatyzujemy, ale kiedy maszyna nie jest pewna, co robi�, u�ywamy ludzkiego my�lenia.

KROK 7

Redukcja Wymiar�w

WPROWADZENIE

Je�li mam setki zmiennych, tworzenie wykres�w rozrzutu i znajdowanie relacji mi�dzy zmiennymi nie jest takie �atwe. Aby zrozumie� dane, co mo�emy zrobi� poza wykresami rozrzutu? Robimy redukcj� wymiar�w, w zasadniczy spos�b i jeden z najcz�ciej u�ywanych algorytm�w zwany analiz� g��wnych sk�adnik�w. Przy du�ej liczbie zmiennych macierz dyspersji mo�e by� zbyt du�a, aby w�a�ciwie bada� i interpretowa�. Par by�oby zbyt wiele aby korelacje mi�dzy zmiennymi do rozwa�enia. Graficzne wy�wietlanie danych mo�e r�wnie� nie by� szczeg�lnie pomocne w przypadku, gdy zestaw danych jest bardzo du�y. Aby interpretowa� dane w bardziej sensownej formie, konieczne jest zatem zmniejszenie liczby zmiennych do kilku, mo�liwych do interpretacji, liniowych kombinacji danych. Ka�da kombinacja liniowa b�dzie odpowiada� elementowi g��wnemu. Kiedy mamy do czynienia z sytuacj�, w kt�rej mamy ogromny zestaw funkcji z mniejsz� liczb� punkt�w danych, w tej sytuacji dopasowanie modelu mo�e skutkowa� ni�sz� moc� prognozowania. Nazywa si� to Kl�tw� Wymiar�w. Tutaj rozwi�zaniem mo�e by� dodanie wi�kszej liczby punkt�w danych lub zmniejszenie przestrzeni funkcji. Nazywa si� to redukcj� wymiarowo�ci.

TECHNIKI REDUKCJI RӯNEJ WYMIAROWO�CI

Kiedy mamy do czynienia z ogromnymi danymi, nie jeste�my pewni przydatno�ci zebranych informacji. Mamy wi�c tendencj� do usuwania niekt�rych zmiennych, zak�adaj�c, �e nie s� one tak naprawd� przydatne. To mo�e nie by� poprawnym podej�ciem, poniewa� dost�pnych jest niewiele technik do ��czenia tych zmiennych razem i tworzenia nowego czynnika lub g��wnego sk�adnika. Istnieje wiele technik, kt�rych mo�emy u�y� do redukcji wymiar�w

1. Analiza czynnikowa,
2. Analiza g��wnych sk�adnik�w,
3. Analiza dyskryminacyjna. itp.

B�dziemy teraz bada� ten algorytm. Pozw�l nam zrozumie�, dlaczego przeprowadzamy analiz� g��wnych sk�adnik�w. Analiza g��wnego sk�adnika jest jedn� z metod stosowanych do zrozumienia struktury danych, kszta�tu danych, kowariancji danych, co nie jest mo�liwe w przypadku prostych wykres�w rozrzutu. Analiza czynnikowa jest pomocna w nast�puj�cych przypadkach:

• Kiedy mamy du�� liczb� zmiennych w naszym zbiorze danych i musimy zmniejszy� t� liczb�.
• Przed wykonaniem analizy regresji lub analizy skupie� na zbiorze danych ze skorelowanymi zmiennymi.
• Podczas analizy wynik�w ankiety, w kt�rych odpowiedzi na wiele pyta� wydaj� si� by� wysoce skorelowane.
Przed wykonaniem redukcji wymiar�w musimy sprawdzi�, czy wymagana jest redukcja wymiar�w, sprawdzaj�c wsp�liniowo��. Redukcj� wymiar�w wykonujemy w przypadku naruszenia za�o�e� OLS z powodu wsp�liniowo�ci. W redukcji wymiarowo�ci mo�emy zastosowa� 1. podej�cie do ekstrakcji cech lub 2. podej�cie do wyboru cech

WSPӣLINIOWO��

Wsp�liniowo�� oznacza, �e zmienne niezale�ne s� ze sob� wysoce skorelowane. W analizie regresji wa�ne jest za�o�enie, �e model regresji nie powinien mie� do czynienia z problemem wsp�liniowo�ci.

Dlaczego wsp�lliniowo�� jest problemem? : Je�li celem badania jest sprawdzenie, w jaki spos�b zmienne niezale�ne wp�ywaj� na zmienn� zale�n� i je�li te zmienne wyja�niaj�ce s� silnie skorelowane, trudno jest stwierdzi�, kt�ra konkretna zmienna ma wp�yw na zmienn� zale�n�. Innym sposobem spojrzenia na problem wsp�liniowo�ci jest: indywidualne warto�ci P testu t mog� wprowadza� w b��d. Oznacza to, �e warto�� P mo�e by� wysoka, co oznacza, �e zmienna nie jest wa�na, nawet je�li zmienna jest wa�na.
Jak wykry� wsp�liniowo�� ?: Variance Inflation Factor (VIF) - Zapewnia wska�nik, kt�ry mierzy, o ile wariancja (kwadrat szacowanego odchylenia standardowego) szacowanego wsp�czynnika regresji jest zwi�kszona z powodu kolinearno�ci.
Interpretacja VIF: Je�eli wsp�czynnik inflacji wariancji zmiennej predykcyjnej wynosi 5, oznacza to, �e wariancja wsp�czynnika tej zmiennej predykcyjnej jest 5 razy wi�ksza ni� w przypadku, gdyby zmienna predyktorowa nie by�a skorelowana z innymi zmiennymi predykcyjnymi.
Studium przypadku: Za��my, �e analizujesz produkt (pralk�), zebra�e� informacje od r�nych u�ytkownik�w w ca�ym kraju, zadaj�c nast�puj�ce pytania:

Oce� to w skali 1-5 (1: bardzo niska, 5: - bardzo wysoka)
• Jak dobrze wygl�da produkt?
• Jak wygodnie korzystasz z produktu?
• Jak cz�sto napotykasz trudno�ci w korzystaniu z produktu?
• Jak cz�sto dzwoni�e� do dzia�u obs�ugi klienta?
• Jaka jest odpowied� z Call Center?
• Jak bardzo jeste� zadowolony z naszego produktu?

Chcesz si� dowiedzie�, czy te zmienne maj� problem z wsp�liniowo�ci�, czy nie. Mo�emy to zrobi�, uruchamiaj�c model lm i obliczaj�c VIF (Variance Inflation Factor).

# Krok 1: Odczytaj dane
setwd('D:/R data')
Cus.drt <- read.csv("Cus_satis.csv", header=T)
# Krok 2: Sprawd� problem wsp�liniowo�ci
Model = lm(Overall ~ ., data=Cus.drt)
Rsq = summary(Model)$r.squared
vif = 1/(1 - Rsq)
vif

Poniewa� uzyskana warto�� vif jest mniejsza ni� 5, mo�emy powiedzie�, �e problem wsp�liniowo�ci nie istnieje.

G��WNA ANALIZA KOMPONENT�W

PCA: Je�li mamy mniejsz� liczb� funkcji, mo�emy u�y� wykres�w rozrzutu do ich oceny. Ale wyobra� sobie, jak odkryjesz dane 100-wymiarowe. Czy nawet w tym celu mo�emy wykona� parowanie wykres�w punktowych? Tutaj nadal chcemy wiedzie�, jaka jest struktura danych. Co jest innego ni� wykresy rozrzutu? Tak nazywamy Projekcje, g��wn� analiz� komponent�w. Om�wmy, czym jest PCA i dlaczego jest bardzo przydatne? Zrozumiesz, je�li nie PCA, jakie inne techniki mo�na zastosowa� ? PCA jest technik� stosowan� do zrozumienia struktury danych, kszta�tu opartego na kowariancji danych. Co to jest projekcja? U�ywamy terminu projekcja do�� cz�sto, wi�c zrozummy, co to jest. Pozw�l mi poda� kilka przyk�ad�w, aby wyja�ni� ten termin. Wyobra� sobie, �e jeste�my na boisku do krykieta, patrz�c na trzy pniaki, kt�rych u�ywamy w krykieta. To jest tr�jwymiarowa struktura. Wyobra�my sobie, �e wzi�li�my �wiat�o pochodni, skupiamy �wiat�o na pniakach i obserwujemy cie� po drugiej stronie. Nazywa si� to projekcj�. Je�li zmienimy �r�d�o �wiat�a pod r�nymi k�tami, otrzymamy inn� projekcj�. Dane s� nadal takie same. Projektujemy je w innym kierunku, aby uzyska� r�ne wymiary. Za��my, �e je�li rzutujemy je poziomo pod k�tem 180 stopni otrzymujemy lini� prost� jako rzut. Teraz rozumiem wymiar linii prostej. Jest 1-wymiarowy. Ale musimy pomy�le�, jaka jest utrata informacji, gdy wy�wietlamy dane pod k�tem 180 stopni? Je�li oryginalne dane zosta�y usuni�te po projekcji, czy mo�emy je zrekonstruowa�? Ile informacji stracili�my? Oto pytania, kt�re musimy sobie zada� przed wy�wietleniem danych. PCA to liniowa transformacja ortogonalna, kt�ra przekszta�ca dane w nowy uk�ad wsp�rz�dnych, tak �e najwi�ksza wariancja przy dowolnym rzucie danych le�y na pierwszej wsp�rz�dnej, druga najwi�ksza wariancja na drugiej wsp�rz�dnej i tak dalej. PCA wykorzystuje ortogonalne odwzorowanie silnie skorelowanych zmiennych do zestawu warto�ci liniowo nieskorelowanych zmiennych zwanych sk�adowymi g��wnymi. Liczba g��wnych sk�adnik�w jest mniejsza lub r�wna liczbie oryginalnych zmiennych. Ta transformacja liniowa jest zdefiniowana w taki spos�b, �e pierwszy g��wny sk�adnik ma najwi�ksz� mo�liw� wariancj�. To odpowiada jak najwi�kszej zmienno�ci danych, bior�c pod uwag� cechy wysoce skorelowane. Teraz zrozummy terminologi�:

1. Kierunek projekcji: �r�d�o �wiat�a i k�t �wiat�a
2. Surowe dane w przestrzeni 3D: rzeczywiste pniaki, kt�re s� zamocowane w przestrzeni tr�jwymiarowej.
3. Dane rzutowane w przestrzeni 2D: cie� na drugim ko�cu.

W zale�no�ci od kierunku projekcji cie� si� zmieni, ale nie dane. Je�li zmieni� �wiat�o dalej, otrzymam inn� projekcj�. Tak wi�c projekcja, kt�r� otrzymujemy, jest funkcj� tego sk�d pochodzi �wiat�o i zawsze cie� znajduje si� po drugiej stronie. Wyobra�my sobie, �e rzutowali�my trzy pnie pod czterema r�nymi k�tami i otrzymujemy projekcje A, B, C, D. Teraz, jak mo�emy zdecydowa�, kt�ra z tych projekcji w A, B, C, D jest najlepsz� projekcj�? Mierzymy trafno�� projekcji na podstawie ilo�ci informacji, kt�re mo�e zachowa�. Projekcja, kt�ra zachowuje maksymaln� ilo�� informacji, nazywana jest najlepsz� projekcj�. Za��my, �e uwa�amy "A" za najlepsz� projekcj�, co projekcja A robi inaczej ni� inne? Co si� dzieje, gdy wykonujemy inne prognozy, tracimy informacje. W�a�ciwie surowe dane s� w 3 wymiarach, potem zrobili�my projekcj�, projekcja jest przybli�eniem surowych danych. Po projekcji otrzymujemy dwuwymiarow� przestrze�, co oznacza, �e tracimy troch� informacji, poniewa� przechodzimy z 3D na 2D. Celem redukcji wymiarowo�ci, projekcji jest utrata minimalnej ilo�ci informacji. Tak wi�c prawid�owa odpowied� zale�y od kryteri�w, kt�rych u�ywamy. Tutaj naszym kryterium jest zminimalizowanie utraty informacji lub prognoza, kt�ra zachowuje maksymaln� ilo�� informacji w surowych danych, jest najlepsz� prognoz�. W tej definicji najlepsza jest projekcja A, poniewa� zachowuje ona maksymaln� struktur� surowych danych. Oczywi�cie stracimy troch� struktury, ale strat� utrzymamy na minimalnym poziomie. W przypadku D, je�li pokazuj� nam tylko rzut, ale nie surowe dane, nie mo�emy zrekonstruowa� surowych danych. Oznacza to, �e nie mo�emy mie� poj�cia, jakie s� surowe dane. My�leli�my, �e w rzeczywisto�ci nieprzetworzone dane s� lini� prost�. Stracili�my wi�c ogromn� ilo�� informacji w D, a bardzo niewiele informacji zachowano w D. Wi�c pami�tajcie o tym, ilekro� projektujemy dane, powinni�my utraci� informacje, ale projekcja, w kt�rej mamy minimaln� ilo�� utraty informacji, jest uwa�ana za najlepsza projekcja. Mo�emy wi�c zdefiniowa� poj�cie najlepszej projekcji jako projekcj�, w kt�rej tracimy minimaln� ilo�� informacji. We�my jeszcze jeden przyk�ad, wyobra�my sobie sferyczne dane, kiedy projektujemy dane 2D, otrzymamy dane rzutowane w przestrzeni 1D. Tutaj stracili�my troch� informacji, poniewa� punkty na tej samej linii poziomej pojawi� si� jako jeden punkt na ekranie. Wi�c stracili�my to rozr�nienie. poniewa� nie mo�emy odr�ni� r�nicy mi�dzy dwoma r�nymi punktami danych na tej samej linii poziomej. Ale mogliby�my zmniejszy� wymiarowo�� z 2D do 1 D. Wyobra�my sobie, �e je�li skierujemy �wiat�o w r�nych innych kierunkach, otrzymamy r�ne rzuty, za��my, �e je�li mamy trzy rzuty A, B, C, powiedz mi, kt�ra jest najlepsz� projekcj�? Nie, nie mo�emy powiedzie�, poniewa� wszystkie s� takie same. Ilekro� dane s� sferyczne, oznacza to, �e s� r�wno rozdzielone, a obie funkcje s� ca�kowicie nieskorelowane, co oznacza, �e cechy s� ca�kowicie niezale�ne od siebie, w takim przypadku, bez wzgl�du na to, co robisz w zakresie projekcji, stracisz tak� sam� ilo�� informacji. Dlatego badamy kowariancj�, poniewa� chcemy osi�gn�� stan, w kt�rym dane staj� si� tak sferyczne, �e wszystkie prognozy s� r�wnie dobre lub r�wnie z�e. Koncepcyjnie mog� istnie� niesko�czone sposoby wy�wietlania danych, ale kiedy projektujemy dane ortogonalnie, przechwytujemy informacje o r�nych rodzajach punkt�w danych i r�nych rodzajach struktur, w pierwszym przypadku przechwytuj� rozk�ad pionowy, a w drugim przechwytuj� rozk�ad poziomy, to, co przechwytuj� z jednej strony, jest ca�kowicie r�ne od tego, co przechwytuj� z drugiej strony, i te dwie projekcje ��cznie przechwytuj� pe�ne informacje na temat surowych danych. Pomys� polega na tym, �e kiedy dostaj� pierwsz� projekcj�, w kt�rej przechwyci�em wi�kszo�� danych, nast�pna najlepsza projekcja, kt�ra da mi inne informacje, kt�re utraci�em w pierwszej projekcji. To powinno by� prostopad�e do pierwszej projekcji. Poniewa� dane s� w 2D, potrzebuj� tylko 2 rzut�w, aby uchwyci� pe�n� informacj� w danych. Sp�jrz na pozosta�e dwa rzuty, ilo�� informacji zarejestrowanych w obu rzutach jest dok�adnie taka sama. Pozw�lcie, �e podam kolejny przyk�ad rzut�w ortogonalnych, gdy u�ywamy r�nych rzut�w ortogonalnych, kt�re s� pod k�tem 90 stopni wzgl�dem siebie, te dwa rzuty s� ortogonalne, co oznacza, �e informacje przechwycone przez jedn� projekcj� s� ca�kowicie r�ne od informacji przechwyconych przez inn� projekcj�, oba w po��czeniu otrzymam pe�n� informacj�. Mo�na powiedzie�, �e rzutowanie jest dobre, gdy rzut uwzgl�dnia kszta�t i zachowuje wariancj�. Projekcj�, kt�ra zachowuje maksymaln� wariancj�, nazywamy ich sk�adnikiem Pierwszej Podstawowej, w kt�rym zachowana jest maksymalna wariancja. Tutaj wariancja oznacza, �e ilo�� informacji jest zachowana. Wyobra� sobie, �e funkcja nie ma wariancji, to nie ma w niej zawarto�ci informacyjnej. Tak wi�c zachowanie wariancji jest jednym z kryteri�w najlepszej projekcji. Pierwszy g��wny sk�adnik przechwytuje maksymaln� wariancj� i cokolwiek pozosta�a wariancja zostanie przechwycona przez drugi g��wny sk�adnik i tak dalej i tak dalej. Teraz wyobra� sobie, �e je�li masz dane 100-wymiarowe, pierwszy g��wny sk�adnik przechwytuje maksymaln� wariancj�, a drugi g��wny sk�adnik, kt�ry jest prostopad�y do pierwszego, przechwytuje drug� najlepsz� wariancj�. Wtedy wszystko, co pozostanie, zostanie przechwycone przez trzeci, kt�ry b�dzie prostopad�y do pierwszych dw�ch g��wnych element�w i tak dalej. W PCA staramy si� znale�� w kolejno�ci sekwencyjnej zestaw rzut�w, tak aby pierwszy g��wny sk�adnik przechwytywa� maksymaln� wariancj� i trwa� do ko�ca. Je�li moje dane maj� N wymiar�w, mog� mie� co najwy�ej N g��wnych sk�adnik�w, Wyobra�my sobie dwuwymiarowe punkty danych, w regionie jest X punkt�w danych, Mu jest �redni� z tych punkt�w danych. (Mu (X)) . X(n) jest n-tym punktem danych w X punktach danych, a je�li rzutujemy je razem, nasz� koncepcj� jest zachowanie maksymalnej wariancji. Za��my, �e rzutowali�my �wiat�o z dw�ch �r�de�, a Mu(Y) jest rzutowan� wersj� Mean, a Y(n) jest rzutowan� wersj� N-tego punktu danych. Wyobra�my sobie, �e spojrzeli�my na projekty na dwa sposoby, mo�emy zrozumie�, �e pierwsza projekcja zachowa�a maksymaln� wariancj� w por�wnaniu do drugiej. Teraz powinni�my obliczy�, jaka jest przewidywana �rednia Mu(Y), czyli N dla ca�ego Y(n). Celem by�o zmaksymalizowanie zachowania wariancji. Patrz� na rzutowan� przestrze� i dowiaduj� si�, kt�ra z nich jest lepsz� projekcj�. Projekcja to nic innego jak tylko nieprzetworzone dane, pomno�enie ich przez wektor, i daje jedn� liczb�, kt�ra daje jedn� projekcj�. Y(n) jest pojedyncz� liczb�, kt�ra m�wi mi, jak daleko jest od tego punktu i tak dalej. Teraz, je�li chc� obliczy� �redni�, to, co m�wi�, to 1 powy�ej N, �rednia dla wszystkich warto�ci Y. To tylko przyk�ad jednego punktu, ale w rzeczywisto�ci projektujemy wszystkie punkty przestrzeni i bierzemy �rednie warto�ci tych punkt�w i je�li rozwin� r�wnanie W transponuje Xn (W to wektor liniowy, kt�ry m�wi mi o kierunku projekcji) .Wyci�gam podsumowanie, a pozosta�a cz�� to nic innego jak �rednia. �redni� mo�na wykona� na dwa sposoby, np. najpierw rzutujesz wszystkie punkty danych i bierzesz �redni�, albo bierzesz �redni� i rzutujesz wszystkie punkty p�niej. W obu sytuacjach otrzymasz ten sam wynik. Jaka jest wariancja w przestrzeni Y? Rozbie�no�� jest niczym innym, jak tylko wzi�� ka�dy punkt danych. Jak daleko jest od �redniej, je�li masz dane wraz z kierunkiem chmury, starasz si� zachowa� lub zmaksymalizowa� wariancj�, poniewa� otrzymany kszta�t jest d�u�szy, to jest to, co pr�bujemy to zrobi�, je�li podstawi� warto�� Y, Y jest niczym innym jak W transponuje tutaj X, je�li zrobi� tu troch� matematyki, to co si� stanie, W transponuje kowariancj� razy W, staje si� to przestrzeni� kowariancji. Idea polega na tym, �e staje si� to kowariancj�, w zasadzie to, co robimy, bierzemy W razy transpozycja razy kowariancj� razy W i to staje si�, w postaci pojedynczej liczby, liczba ta b�dzie tutaj znacznie ni�sza, ta sama liczba b�dzie znacznie wy�sza w innym przypadku. Tak wi�c, je�li chcesz zmaksymalizowa� wariancj�, znajd� W, kt�ra maksymalizuje wariancj�. Teraz staje si� to problemem optymalizacji, tak to uj�li�my, bierzesz macierz kowariancji danych, masz surowe dane, takie jak dane czterowymiarowe, bierzesz �redni� ze wszystkich kolumn, otrzymujemy cztery liczby, bierz kowariancj� macierzy, ta macierz nazywa si� W, chcesz znale�� t� W, kt�ra jest kierunkiem, tak �e wariancja jest zmaksymalizowana w rzutowanej przestrzeni. Kiedy robisz to zasadniczo, rozwi�zujesz problem wektora w�asnego, kowariancji. By� mo�e zrozumia�e� koncepcyjnie, co pr�bujemy zrobi�. Staramy si� znale�� ten kierunek, kt�ry maksymalizuje zachowanie wariancji. Stwierdzamy, �e W, kt�re maksymalizuje i jest ca�kowicie zwi�zane z macierz� kowariancji danych. Sp�jrzmy na to w przypadku zestawu danych, kt�ry ma 8 zmiennych numerycznych i 500 obserwacji. tutaj mo�esz uzyska� macierz 8 * 8, a kiedy spojrzymy na kowariancj�, przek�tna jest wariancj� ka�dej cechy, co jest rozk�adem samej cechy, jest to macierz 8 * 8. Wzi�li�my sumowanie ponad 500 punkt�w, z kt�rych ka�dy jest sum� wielko�ci 8 * 8, mi x i mi x to 8-wymiarowy punkt, �rodek wszystkich punkt�w, Xn jest n-tym punktem danych, w zasadzie bior�c �rednio 500 macierzy 8 * 8, to daje macierz kowariancji. Kiedy we�miesz wektor w�asny, staje si� on pierwszym g��wnym sk�adnikiem. gdy obliczasz warto�ci w�asne zasadniczo, daje to 8 wektor�w w�asnych. Pami�taj, �e nieprzetworzone dane maj� 8 wymiar�w, wi�c prognozy r�wnie� b�d� wynosi� 8, wi�c otrzymali�my 8 g��wnych sk�adnik�w ��cznie, i dla ka�dego g��wnego sk�adnika daje r�wnie� . W warto�ciach w�asnych, kt�re m�wi�, w jakim kierunku wyst�puje wariancja ka�dego g��wnego sk�adnika, mo�emy zobaczy� pierwszy g��wny sk�adnik, kt�ry zachowuje bardzo du�� wariancj�. W PCA staramy si� wzi�� ca�� wariancj� danych, staramy si� wycisn�� ca�� wariancj� w pierwszym g��wnym sk�adniku danych, oczywi�cie nie mo�emy uzyska� ca�ej wariancji pierwszego g��wnego sk�adnika, ale mo�emy spr�bowa� to zmaksymalizowa�. Tak m�wimy po przeanalizowaniu wyniku, staramy si� uzyska� maksymaln� mo�liw� wariancj� w pierwszym g��wnym sk�adniku, a nast�pnie w drugim i tak dalej. Pomys� jest taki, �e 8-wymiarowe dane daj� 8 g��wnych sk�adnik�w, ale pierwszy g��wny sk�adnik b�dzie mia� maksymaln� kowariancj�. Je�li we�miesz wszystkie 8 wymiar�w, w�wczas pokrywamy ca�� wariancj�, ale dane maj� troch� szumu, dobrze jest straci� troch� informacji, wa�ne jest, aby zachowa� odpowiedni� ilo�� informacji i odpowiedni rodzaj informacji, dlatego rzutujemy dane na 2 lub 3 g��wne elementy.

Zobaczmy kilka przyk�ad�w bez nadzoru:

W PCA projekcja jest jednym rodzajem struktury, gdzie mo�e si� wydawa�, �e dane maj� 200 wymiar�w lub 1000 wymiar�w, te kolumny nie nadesz�y, poniewa� dane maj� te kolumny, te kolumny nadesz�y, poniewa� kto� uzna�, �e to wa�na kolumna. Zawsze dobrze jest by� konserwatywnym i na pocz�tku mie� wi�cej kolumn, poniewa� nie wiesz, ile b�dziesz chcia� p�niej u�y�. Firma taks�wkowa mo�e gromadzi� Twoje dane, na przyk�ad ile czasu mo�esz poczeka�, do jakiej cz�ci miasta nale�ysz, o kt�rej godzinie zaczynasz prac� w biurze itp. nie wiedz�, jak z nich korzysta� teraz, ale by� mo�e wykorzystaj� je p�niej . Zasadniczo zbieramy wi�cej kolumn, aby zachowa� ostro�no��, poniewa� p�niej nie powinni�my m�wi� och! Powinienem by� nawet zebra� to pole danych, dlatego nazywamy zbieranie danych sztuk�, sztuk� my�lenia koncepcyjnego. Ale kiedy zbierzesz wi�cej kolumn, tw�j zestaw danych b�dzie grubszy, teraz musimy dowiedzie� si�, jaka jest prawdziwa struktura danych. Przydaje si� wi�c PCA.
Studium przypadku: Organizacja zajmuj�ca si� oprogramowaniem ma problem z wyczerpaniem i chce znale�� powody odej�cia pracownik�w z organizacji. Zebrali r�ne wymiary i chc� skompresowa� je do kilku funkcji, aby mogli skoncentrowa� si� na tych problemach. Teraz naszym zadaniem jest dowiedzie� si�, czy mo�emy zmniejszy� wymiary, czy nie. Chcemy dowiedzie� si�, ile wymiar�w wystarcza do przeniesienia co najmniej 80% wariancji danych. Eksploracyjna analiza czynnikowa (EFA) jest powszechn� w naukach spo�ecznych technik� wyja�niania wariancji mi�dzy kilkoma zmiennymi mierzonymi jako mniejszym zestawem zmiennych ukrytych. EFA jest cz�sto u�ywana do konsolidacji danych ankietowych poprzez ujawnienie grup (czynnik�w) le��cych u podstaw poszczeg�lnych pyta�.

WYKONYWANIE ANALIZY CZYNNIKA

# Krok 1: Odczytaj dane
setwd('D:/R data')
Emp.fa <- read.csv("Emp_satis.csv", header=T)
# Krok 2: Zainstaluj i za�aduj pakiet
install.packages ("psych")
library(psych)
#Krok 3: Przegl�daj dane
head(Emp.fa) #show sample data
dim(Emp.fa) #check dimensions
str(Emp.fa) #show structure of the data
fix(Emp.fa)
# Krok 4: Przygotowanie danych
fa.req <- subset(Emp.fa, select=-c(Empid,Overall))
#Krok 5: Oblicz i wy�wietl matryc� korelacji
corMat <- cor(fa.req)
corMat
#Krok 6: Wykonaj analiz� czynnikow�

U�yj fa(), aby przeprowadzi� sko�n� analiz� eksploracyjn� czynnika w osi g��wnej i zapisa� rozwi�zanie dla zmiennej R. Aby uzyska� rozwi�zanie czynnikowe, u�yjemy funkcji fa() z pakietu psych, kt�ry otrzymuje nast�puj�ce podstawowe argumenty.

Mod.fa <- fa (r = corMat, nfactors = 3, rotate = "varimax", fm = "ml")
Gdzie,
#r: macierz korelacji
#nfactors: liczba czynnik�w do wyodr�bnienia (domy�lnie = 1)
#rotate: jedna z kilku metod rotacji macierzy, takich jak "varimax" lub "oblimin"
#fm: jedna z kilku metod faktorowania, takich jak "pa" (o� g��wna) lub "ml" (maksymalne prawdopodobie�stwo)

Nale�y pami�ta�, �e podczas przeprowadzania EFA dost�pnych jest kilka metod rotacji i faktorowania. Metody rotacji mo�na opisa� jako ortogonalne, kt�re nie pozwalaj� na korelacj� uzyskanych czynnik�w, i sko�ne, co pozwala na korelacj� uzyskanych czynnik�w. Metody faktorowania mo�na opisa� jako powszechne, kt�re s� stosowane, gdy celem jest lepsze opisanie danych, oraz komponent, kt�re s� stosowane, gdy celem jest zmniejszenie ilo�ci danych.

#Krok 7: Wy�wietl wyniki rozwi�zania

Mod.fa

WYKONANIE G��WNEJ ANALIZY KOMPONENT�W

# Krok 1: Odczytaj dane

setwd('D:/R data')
Emp.drt <- read.csv("Emp_satis.csv", header=T)

#Krok 2: Przegl�daj dane
head(Emp.drt) #show sample data
dim(Emp.drt) #check dimensions
str(Emp.drt) #show structure of the data
fix(Emp.drt)
colnames(Emp.drt)

# Krok 3: Przygotowanie danych
Emp.req <- subset(Emp.drt, select=-c(Empid))

# Krok 4: Sprawd� problem wielokoliniowo�ci
Model = lm(Overall ~ ., data=Emp.req)
Rsq = summary(Model)$r.squared
vif = 1/(1 - Rsq)
vif

Poniewa� uzyskana warto�� vif jest wi�ksza ni� 5, mo�emy powiedzie�, �e wyst�puje wielokoliniowo��. Zdecydowali�my si� wi�c na redukcj� wymiar�w.

# Krok 5: Przygotowanie danych

Emp.pro <- subset(Emp.drt, select=-c(Empid,Overall))

#Krok 6: Utw�rz g��wne sk�adniki
Emp.pca <- prcomp(Emp.pro,center=TRUE,scale=TRUE)
print(Emp.pca)

#Krok 7: Utw�rz wykres piargowy
plot(Emp.pca, type="lines")

Metoda #summary opisuje znaczenie komputer�w osobistych. Pierwszy wiersz opisuje ponownie odchylenie standardowe zwi�zane z ka�dym komputerem. Drugi rz�d pokazuje odsetek wariancji w danych wyja�nionych przez ka�dy sk�adnik, podczas gdy trzeci rz�d opisuje skumulowany odsetek wyja�nionej wariancji.

#Krok 8: Wykonaj podsumowanie

KROK 8

Grupowanie

WPROWADZENIE

Grupowanie jest procesem organizowania obiekt�w w grupy, kt�rych cz�onkowie s� w pewien spos�b podobni, kt�re zajmuje si� znajdowaniem Struktury w zbiorze Nieoznaczonych Danych. Gromada jest zatem zbiorem obiekt�w, kt�re s� mi�dzy nimi "podobne" i s� "niepodobne" do obiekt�w nale��cych do innych klastr�w. We�my przyk�ad firmy z laptopem, kt�ra promuje swoj� najnowsz� mark� laptop�w. Chc� dostosowa� modele reklam, ludzie mieszkaj�cy w jednej cz�ci miasta r�ni� si� od ludzi, kt�rzy mieszkaj� w innej cz�ci miasta. Musimy wys�a� inn� reklam� do r�nych os�b. Co my tu zrobili�my? Klastrowanie wykonujemy intuicyjnie. Mo�emy zacz�� od jednej lub dw�ch wiadomo�ci i mo�emy to zrobi� a� do indywidualnej, tj. spersonalizowanej reklamy. Grupowanie jest wi�c tym, co robimy, gdy chcemy tworzy� grupy, poniewa� nie mo�na utworzy� jednej wiadomo�ci dla ka�dej osoby, jest to zbyt kosztowne na jednym ko�cu spektr�m i nie mo�na wys�a� tej samej wiadomo�ci do wszystkich, poniewa� jest ona zbyt du�a. Co teraz zrobisz? Robisz co� w �rodku, co nazywa si� klastrowaniem? Teraz Pomy�l o centrum obs�ugi klienta firmy taks�wkowej. Chc� wiedzie�, jakie s� problemy CRM, zaczynaj� od niekt�rych problem�w i rozwi�za�, a nast�pnie udoskonalaj� zestaw problem�w w oparciu o problemy CRM. Pomy�l o tym, sk�d znaj� te problemy jeszcze przed za�o�eniem firmy ? By� mo�e wzi�li pod uwag� problem�w zg�oszonych przez poprzednie firmy taks�wkowe, a potem sta� si� problemem klasyfikacyjnym. W jaki spos�b odkrywasz nowe rzeczy, kt�re si� pojawiaj� na twoim rynku, my zajmujemy si� grupowaniem. R�ne rodzaje technik klastrowania:

1. Wy��czne klastrowanie (klastrowanie cz�ciowe): Klastrowanie K-Means
2. Nak�adaj�ce si� klastry: Klastrowanie Fuzzy C-Means
3. Hierarchiczne grupowanie: g�ra-d� (dzielenie), d�-g�ra (gromadzenie)
4. Grupowanie probabilistyczne: Mieszanka Gaussa
5. Grupowanie widmowe

CZʦCIOWA KLASTROWANIE

Klastrowanie cz�ciowe mo�e by� twarde lub mi�kkie, w klastrowaniu twardym to tak, jakby� grupowa� punkt danych do jednej okre�lonej funkcji klastra. Skoro nale�y do tego klastra, nie mo�e nale�e� do �adnego innego klastra. W mi�kkim klastrowaniu uwa�amy, �e punkt danych wygl�da jak nale��cy do tego klastra, ale ma nawet cechy drugiego klastra, wi�c cz�ciowo nale�y do tego, a cz�ciowo do innego. Pozw�lcie, �e zastosuj� obie strategie do tego punktu danych, kt�ry nazywa si� mi�kkim klastrowaniem. Pocz�tkowo, kiedy tworzysz klastry, nie wiesz, jak dok�adne s� centra klastr�w, wi�c nie chcesz robi� twardego klastrowania. Je�li twoje dane zawieraj� zbyt du�o ha�asu, nie chcesz robi� twardego klastrowania, poniewa� nie masz pewno�ci.

Hierarchizm: To nie jest technika grupowania, jest to w rzeczywisto�ci filozofia patrzenia na dane, zawsze twoje dane maj� hierarchi�. Bez wzgl�du na domen�, w kt�rej si� znajdujesz, mo�e to by� sekwencja gen�w, finanse, ubezpieczenie, zawsze istnieje hierarchia. �wiat sk�ada si� z hierarchii. Hierarchia jest integraln� cz�ci� natury, m�zg rozumie hierarchie. Ilekro� kto� przekazuje ci dane, pierwsze pytanie, jakie nale�y zada�, to jaka jest w tym hierarchia? Tw�j model mentalny jest zawsze tutaj jest hierarchi�. Jak uwa�asz, �e hierarchia zale�y od ciebie. Jaki poziom hierarchii zastosujesz, zale�y od ciebie. Ile zale�y Ci na poziomie w hierarchii. Pomy�l tylko o systemie menu w call center telekomu, je�li masz ten problem, naci�nij 1, a je�li to problem, naci�nij 2 itd., Nawet po naci�ni�ciu 1 otrzymasz wi�cej opcji menu i tak dalej. Hierarchia to wbudowany proces w systemie biznesowym, organizacji, a nawet w danych. Uczenie si� bez nadzoru polega na uczeniu si� struktury danych, kiedy m�wimy, �e struktura, to naprawd� oznacza hierarchi�. Mo�esz zada� mi pytanie, je�li wszystko jest w hierarchii, dlaczego wi�c potrzebujemy klastrowania cz�ciowego? Je�li chcemy zastosowa� podej�cie oddolne do tworzenia klastr�w, powinni�my zna� odleg�o�� par mi�dzy wszystkimi parami, punktami danych od siebie. Czy jest to mo�liwe dla du�ej liczby punkt�w danych? Nie, wi�c je�li zastosujemy podej�cie odg�rne, musimy wykona� klastrowanie cz�ciowe na ka�dym etapie klastrowania. Chodzi o to, �e najpierw musz� zbudowa� 5 klastr�w, poniewa� nie mog� mie� systemu menu, kt�ry dzia�a do 100. Tak wi�c najpierw zbuduj� 5 klastr�w, a nast�pnie zbuduj� podgrupy, poniewa� wiem, �e dane s� zgodne z hierarchi�. Oznacza to, �e u�ywam w tym przypadku obu metod grupowania, ale moim modelem koncepcyjnym jest hierarchia. Oznacza to, �e u�ywamy klastrowania cz�ciowego jako cz�ci klastrowania z g�ry na d�. Tego oczekuje przemys� od naukowca danych.

Klastrowanie K-Means zale�y od:

• Musisz zna� liczb� klastr�w
• W zale�no�ci od inicjalizacji, kt�r� spotka�e�, uzyskasz inny klaster
• W zale�no�ci od funkcji odleg�o�ci mo�esz uzyska� inny klaster.

Kiedy m�wi�, funkcja odleg�o�ci, nie ma czego� takiego jak funkcja odleg�o�ci, musisz stworzy� w�asn� funkcj� odleg�o�ci, to jest tak, jakby i�� na piknik, musisz zabra� ze sob� st� piknikowy, poniewa� nie idziemy do restauracji . Podobnie, musisz wprowadzi� w�asn� funkcj� odleg�o�ci do cz�ci uczenia maszynowego. To bardzo wa�na cz��. Im lepsze funkcje odleg�o�ci, tym lepiej zdefiniowane algorytmy uczenia maszynowego. K-Means, oznacza ,�e w klastrze nie ma znaczenia, jak zdefiniujesz funkcj� odleg�o�ci. Jje�li wszystko jest narz�dziem, nie musimy robi� tego kursu z tak du�ym stresem. Jaka jest Twoja rola jako naukowca danych? Tam w�a�nie przyb�d� nasze umiej�tno�ci. Pomy�l teraz o tym, jak zdefiniujesz, �e funkcja odleg�o�ci mi�dzy dwoma wznawia si�? Starsze�stwo to jedno, zestaw umiej�tno�ci to drugie , firmy, dla kt�rych pracowa�, uniwersytet, do kt�rego ucz�szcza�, jest inny i tak dalej. Pomy�l o funkcji odleg�o�ci mi�dzy profilem jednej osoby a profilem drugiej osoby, jaka jest odleg�o�� mi�dzy dwoma filmami? Aktorzy, re�yser, muzyka ,mo�na zdefiniowa� bardzo skomplikowane funkcje odleg�o�ci. Tak wi�c jedn� z najwa�niejszych r�l badaczy danych jest zdefiniowanie funkcji odleg�o�ci. Ca�a kreatywno�� tkwi w tych rzeczach, nikt nie zdefiniuje tych rzeczy dla ciebie, poniewa� lepiej znasz domen�, znasz dane i lepiej znasz dystrybucj�, Twoim zadaniem jest zdefiniowanie tych rzeczy. Teraz trzeci rodzaj grupowania nazywany jest klastrowaniem spektralnym. Wiele razy dane przychodz� do nas w tej formie, podobnie jak tabela, w kt�rej ka�dy wiersz jest punktem danych, a my mamy okre�lone cechy jako kolumny lub wymiary. Mo�esz u�y� grupowania K-Means lub grupowania gromadzenia tylko wtedy, gdy zdefiniujesz odleg�o�� mi�dzy dwoma punktami danych. Dlatego funkcj� odleg�o�ci jest wa�na, ale cz�sto otrzymujesz dane r�nego rodzaju, kt�re s� podobne do siebie. Nie dowiemy si�, jak wygl�daj� dane, powiedz� nam tylko, �e jest to podobne. W takim przypadku dane wygl�daj� jak wykres, na kt�rym ka�dy w�ze� jest punktem danych, nie ma swoich funkcji, wszystko co wiemy, to odleg�o�ci mi�dzy punktami danych. Celem w grupowaniu jest intuicyjne minimalizowanie odleg�o�ci mi�dzy punktami a ich przedstawicielami. Wyobra�cie sobie system demokratyczny, poniewa� wszyscy nie mog� zasiada� w parlamencie, wysy�amy naszych przedstawicieli tak, aby przedstawiciel by� najbli�ej wszystkich punkt�w danych. U�yj tej analogii, aby pomy�le� o grupowaniu k-�rednich, �e wektor �redni jest reprezentatywny dla grupy ludzi lub grupy punkt�w danych, a dobry wektor �redni musi znajdowa� si� blisko wszystkich tych punkt�w, kt�re reprezentuje.

• Jak wykorzystujemy t� analogi� do zdefiniowania funkcji celu?
• Jakie s� parametry?

Istniej� dwa rodzaje parametr�w: 1. Parametr asocjacji, kt�ry m�wi, jak si� masz przypisz klaster do punktu danych i 2.Jak zaktualizowa� �redni wektor? Sp�jrzmy na Formu�� Grupowania:

W formule mo�na zobaczy� dwa symbole sumowania, jeden dla punkt�w danych, a drugi dla klastr�w, nie ma to nic wsp�lnego z liczb� wymiar�w. Korzystam z funkcji odleg�o�ci euklidesowej. Podczas wykonywania grupowania K-Means. Musimy zrozumie�, �e wybrali�my przedstawiciela grupy, kiedy on przenosi si� z naszej grupy do innej grupy, staje si� przedstawicielem nowej grupy, a jaki� inny facet zostanie przedstawicielem grupy, kt�ra zosta�a pomini�ta. Chodzi o to, �e mo�emy mie� dowoln� liczb� przedstawicieli, ale chc� to zrobi� w optymalny spos�b. Pomy�l o tym jak o problemie z kurczakiem i jajami, je�li zdecydujemy o powi�zaniu, mo�emy obliczy� �redni� lub zdecydowa� o �redniej i obliczy� powi�zanie. S� to dwa powi�zane problemy i nie wiemy od czego zacz��. Mo�emy albo zacz�� od losowego przypisania centr�w skupie�, albo mo�emy zacz�� od przypisania losowych lokalizacji w danych, poniewa� oznacza to, �e jedno z dw�ch jest prawid�owym punktem pocz�tkowym. To jest tak: Bior�c pod uwag� delt� - znajd� �redni� lub bior�c pod uwag� �redni� znajd� delt�. Kiedy te problemy zostan� rozwi�zane, nadejdzie etap, w kt�rym �rednia i delta si� nie zmieni�, co nazywamy to konwergencj�. Grupowanie jest algorytmem iteracyjnym, zaczynamy od jakiego� wektora �redniego, a losowe inicjalizacje, p�niej om�wimy wi�cej inicjalizacji, a potem co si� stanie? jakie s� punkty, kt�re niekt�rzy id� na m1, a jakie s� punkty na m2? Nast�pnie drugie pytanie, bior�c pod uwag� �redni� w iteracji p, chcemy znale�� przypisanie do klastra. Kiedy m�wi� Iteracja, zaczyna si� od �redniej, znajduj�c w�a�ciw� delt�, a nast�pnie u�ywaj�c delty do znalezienia nast�pnej �redniej. To jest jedno r�wnanie. Pocz�tkowo t wynosi 0, co oznacza, �e jest to iteracja 0, i powoli zwi�kszamy t. Kiedy mamy punkty danych, bierzemy punkty jako wektory i obliczamy odleg�o��, przypisujemy punkty danych do wektora na podstawie odleg�o�ci. Nast�pnie zaktualizuj warto�� redni� i przejd� do nast�pnej iteracji. Chodzi o to, aby zacz�� od pewnych �rodk�w, u�yli�my �redniej do przypisania klastra, a nast�pnie bierzemy przypisanie klastra do obliczenia �redniej. Nast�pnie iterujemy jeszcze raz i jeszcze raz, a� si� zbiegnie. Nazywa si� to krokiem oczekiwania. W kroku maksymalizacji m�wi si�, �e bior�c pod uwag�, �e s� to zadania, nale�y zmaksymalizowa� funkcj� celu.

Krok E: Centra klastr�w -> Przypisania klastr�w
Krok M: Przydzia�y klastr�w -> Centra klastr�w.

Pomy�l tylko o chodzeniu: je�li we�miemy jedn� nog�, jest ona stroma w kszta�cie litery E, a nast�pnie stawiamy nog� i bierzemy drug� nog�, kt�r� jest M-Step. W �adnym punkcie chodzenia nie mo�na podnie�� obu n�g ani postawi� obu n�g. Odpowiedzmy na dwa kolejne pytania:

• Jak wybieramy K?
• Jak inicjujemy?

Jak optymalnie przypisujemy przedstawicieli do punkt�w danych? podczas rozwi�zywania tego problemu optymalizacji nie ma gwarancji, �e istnieje jedno dobre rozwi�zanie. Teraz wyobra� sobie, �e Twoim celem jest wspi�cie si� na najbli�sze wzg�rze lub celem jest upadek najbli�szej doliny. Albo spadasz, by znale�� najni�szy punkt, albo wspinasz si�, by znale�� najbli�sze wzg�rze. Je�li chc� si� wspi��, p�jd� w kierunku, kt�ry daje mi maksymaln� zgod� na pochylenie, i osi�gn� jeden szczyt , ale je�li zaczn� od innego punktu, dojd� do innego szczytu, a wi�kszo�� algorytm�w uczenia maszynowego ma tego rodzaju problem. W wielu przypadkach funkcja optymalizacji jest taka, ma wiele lokalnych optim�w, z kt�rych jeden jest globalnym optimum. Jaki klaster K-Means gwarantuje, gdziekolwiek zaczniesz, gwarantuj� lokalne optymalne parametry, �e nie mo�e zagwarantowa�, �e osi�gniesz globalne optymalne warto�ci. Dlatego inicjalizacja odgrywa bardzo wa�n� rol� w klastrowaniu K-Means. Nawet je�li milion razy korzystasz z klastrowania K-Means, nikt nie mo�e zagwarantowa� Ci globalnego optymalnego rozwi�zania. To, co mo�emy zrobi� w klastrowaniu K-Means, to spr�bowa� z r�nymi punktami inicjalizacji i znale�� optymima, a w�r�d tych lokalnych optym�w mo�esz wybra� najlepszy. Dlatego za ka�dym razem, gdy przeprowadzamy klastrowanie, musimy spr�bowa� uzyska� roz�o�enie pocz�tkowych punkt�w na wszystkie punkty danych.

Najdalszy pierwszy punkt Inicjalizacji: Jest to technika u�ywana do rozwi�zania problemu inicjalizacji. W tej metodzie najpierw wybieramy �redni� i wybieramy najdalszy punkt od �redniej i u�ywamy jej jako pierwszego centrum skupie�. Teraz traktuj to jako ziarno i oblicz najdalszy punkt z tego nowego zarodka i rozwa� ten punkt jako drugie centrum klastr�w, teraz mam dwa centra klastr�w, kt�re zagwarantowa�y mi maksymalne rozproszenie danych. Teraz potrzebuj� trzeciego ziarna, kt�re powinno by� najdalej od obu nasion, musimy powiedzie�, �e odleg�o�� od obu nasion powinna by� maksymalna, obliczamy wynik wszystkich punkt�w, tak aby nowe ziarno by�o w maksymalnej odleg�o�ci od obu punkt�w, a nast�pnie wybieramy czwarte nasienie, kt�re powinno by� maksymaln� odleg�o�ci� od wszystkich trzech punkt�w danych. Nie przeszkadza nam, gdy mamy do czynienia z 4 lub 5 klastrami, ale w czasie rzeczywistym mo�e by� konieczne radzenie sobie z nimi setki wymiar�w i miliony obserwacji, to jak zdecydujesz o liczbie klastr�w? Mog� mie� wszystkie moje punkty danych w jednym klastrze lub utworzy� klaster dla ka�dego punktu danych. Tutaj oba podej�cia nie s� przydatne. Celem jest znalezienie odpowiedniej liczby klastr�w. S� dwa sposoby my�lenia. Opiera si� na naszym problemie biznesowym. Je�li podam trzy opcje, czy chcesz utworzy� 2, 5 lub 200 klastr�w? Decyzje te opieraj� si� na naszych potrzebach biznesowych. Je�li powiemy, �e mo�emy obs�u�y� 5 rodzaj�w skarg, poniewa� mamy ograniczone zasoby, nie mo�emy zrobi� 200 klastr�w i osobno zajmowa� si� wszystkimi skargami, poniewa� jest to bardzo kosztowne, pozw�l mi zgrupowa� te 200 koncepcji w 5 klastr�w wi�c 5 to rozs�dna liczba. Mo�emy u�y� og�lnej regu�y, kt�ra stanowi u�amek pierwiastka kwadratowego danych. Pierwiastek kwadratowy z liczby punkt�w danych. Mo�emy nawet wybra� odpowiedni� liczb� klastr�w na podstawie decyzji opartych na uczeniu maszynowym. Istnieje poprawna liczba klastr�w dla ka�dego zestawu danych, ale pytanie brzmi, czy mo�emy j� znale��, czy nie. W�a�ciwa liczba klastr�w jest wa�nym zagadnieniem, poniewa� poza kt�rym staje si� ha�asem, poni�ej kt�rego nie przechwytuje si� �adnej struktury (Sygna�). Podczas klastrowania PCA lub K-Means musimy zastanowi� si�, ile szumu i ile sygna�u jest w danych. Mo�emy u�y� statystyk Gap, aby znale�� odpowiedni� liczb� klastr�w, pr�bujemy z szeregiem klastr�w, powiedzmy od 3 do 20 dla ka�dego klastra, kt�rego u�ywasz albo najdalszy algorytm pr�bkowania pierwszego punktu lub wiele losowych inicjalizacji, cokolwiek zrobisz, otrzymasz troch� statystyk. Wykre�l te statystyki i oblicz luk�, a ona powie ci odpowiedni� liczb� klastr�w. Ca�y czas �ledzimy ten proces, przerwa nie mo�e by� ujemna, poniewa� oczekiwany zak�ada ca�kowicie losowy ha�as lub ca�kowicie jednolity rozk�ad. Zak�adaj�c, �e liczba punkt�w danych, kt�re s� r�wnomiernie rozmieszczone, jest najgorsz� mo�liw� struktur�, jak� mo�emy mie�, to jest to, co s�u�y do obliczenia oczekiwanego, kt�ry zawsze b�dzie ni�szy ni� obserwowany. Mamy wi�c nadziej�, �e dane b�d� mia�y struktur�, kt�ra wykracza poza losowy rozk�ad danych.

HIERARCHICZNE KLASTROWANIE

W tym typie mamy dwa podej�cia, takie jak: 1. Z g�ry na d� (dziel�ca) 2. Z do�u na g�r� (skupiaj�ca). W podej�ciu z g�ry na d� bierzemy ca�y zestaw jako pojedynczy klaster i dzielimy je na dwa klastry, a z obu klastr�w dzielimy kolejne klastry i tak dalej. Robi�c klastrowanie na ka�dym etapie, przyjmujemy podej�cie klastrowania K-�rednich w przypadku danych wielowymiarowych i klastrowania sferycznego w przypadku danych tekstowych. Je�li tworzymy bezpo�rednio 4-5 klastr�w za jednym razem, co nazywa si� klastrowaniem partycjonowanym, podczas gdy to podej�cie dzielenia ich krok po kroku nazywa si� klastrowaniem dziel�cym, podobnie jak najpierw tworzymy dwa klastry z klastra g��wnego, a nast�pnie dzielimy oba klastry na dwa. . Takie podej�cie nazywa si� hierarchicznym klastrowaniem z g�ry na d�, a my ci�gle idziemy w d� i w d� i tak dalej. Teraz mo�esz zapyta�, czy je�li zastosujemy podej�cie K-�rednie i podej�cie odg�rne, czy gwarantujemy, �e na ko�cu otrzymamy tak� sam� liczb� klastr�w z tymi samymi podmiotami? Odpowied� brzmi: nie. Hierarchia jest naturalnym sposobem, w jaki dane si� pojawiaj�, w miar� mo�liwo�ci powinni�my my�le� hierarchicznie, zawsze mo�emy u�ywa� klastrowania cz�ciowego na ka�dym poziomie, ale ostatecznie robimy klastrowanie hierarchiczne. Sp�jrzmy na inny rodzaj klastrowania, tj. skupiaj�ce hierarchiczne klastrowanie, kt�re jest bardzo cz�sto wykorzystywane w nast�puj�cym scenariuszu. Wyobra� sobie, �e punkty danych nie s� bardzo du�e, co oznacza, �e nie mamy zbyt wielu punkt�w danych, ale chcemy naprawd� dobrego klastra, w takim przypadku ludzie wol� stosowa� klastrowanie skupiaj�ce. We�my przyk�ad niekt�rych sekwencji gen�w, grupujemy geny razem, a one tworz� klaster. Wyobra� sobie, �e istniej� pewne punkty danych, chc� m�c je grupowa� i organizowa�, u�y�em grupowania aglomeracyjnego. M�g�bym to uzyska�, metod� odg�rn� lub metod� oddoln�. Wi�c nie m�wi�, kt�rej metody u�ywam. Chodzi o to, �e mo�emy zorganizowa� dane w w�le li�cia w hierarchi�. We�my przyk�ady liczb 0-9 i chcemy znale��, kt�re s� bardziej podobnymi punktami danych, najpierw bierzemy dwie liczby, kt�re wygl�daj� bardzo podobnie, istnieje bardzo jasne poj�cie, �e 1 i 7 wygl�daj� podobnie, wi�c je scalam, wi�c, kiedy je scalam, otrzymuj� klaster o rozmiarze drugim i mam n-2 klastr�w o rozmiarze 1, mog� traktowa� ka�dy punkt danych jako klaster, pocz�tkowo gdy nic nie zrobi�em, ka�dy punkt danych jest grupa. Ilekro� my�limy o klastrowaniu, mo�emy my�le� o tym, jaka jest najmniejsza liczba klastr�w, jak� mo�emy mie� i jaka jest najwi�ksza liczba klastr�w, jak� mo�emy mie�? wi�c najmniejsz� liczb� mo�e by� 1, a najwi�ksz� liczb� mo�e by� liczba punkt�w danych. Klaster skupiaj�cy pomaga nam budowa� klastry od n do jednego, ��cz�c klastry oddolnie. Otrzymasz spektrum wszystkich mo�liwych klastr�w od 1 do N.

OCENA TENDENCJI KLASTRA

Przed zastosowaniem jakiejkolwiek metody klastrowania w zbiorze danych naturalne pytanie brzmi: czy zestaw danych zawiera jakie� nieod��czne klastry ? Du�ym problemem w uczeniu maszynowym bez nadzoru jest to, �e metody klastrowania zwracaj� klastry, nawet je�li dane nie zawieraj� �adnych klastr�w. Innymi s�owy, je�li �lepo zastosujesz analiz� skupie� w zbiorze danych, podzieli dane na klastry. Dlatego przed wyborem podej�cia klastrowego musimy zdecydowa�, czy zestaw danych zawiera znacz�ce klastry, czy nie. Je�li tak, to ile jest tam klastr�w. Proces ten jest definiowany jako ocena tendencji do tworzenia klastr�w lub wykonalno�ci analizy klastr�w. Mo�emy zastosowa� metody statystyczne i wizualne do oceny tendencji do tworzenia klastr�w. Mo�na zauwa�y�, �e algorytm k-�rednich i klastrowanie hierarchiczne narzucaj� klasyfikacj� losowo r�wnomiernie rozmieszczonego zestawu danych, nawet je�li nie ma w nim znacz�cych klastr�w. Aby unikn�� tego problemu, stosuje si� metody oceny tendencji do tworzenia klastr�w. Metody oceny tendencji do tworzenia klastr�w: Ocena tendencji do tworzenia klastr�w okre�la, czy dany zestaw danych zawiera znacz�ce klastry. Istniej� dwie metody okre�lania tendencji do tworzenia klastr�w: 1) statystyczna (statystyka Hopkinsa) i 2) metody wizualne (wizualna ocena algorytmu tendencji klastra (VAT)).
Statystyka Hopkinsa: Statystyka Hopkinsa s�u�y do oceny tendencji klastrowania zbioru danych poprzez pomiar prawdopodobie�stwa, �e dany zestaw danych zostanie wygenerowany przez jednolity rozk�ad danych. Innymi s�owy, testuje losowo�� przestrzenn� danych. Warto�� H oko�o 0,5 oznacza, �e s� blisko siebie, a zatem dane D s� r�wnomiernie rozmieszczone. Hipotez� zerow� i alternatywn� definiuje si� nast�puj�co. Hipoteza zerowa polega na tym, �e zestaw danych D jest r�wnomiernie roz�o�ony (tj. Bez znacz�cych klastr�w), a alternatywna hipoteza to zestaw danych D nie jest jednolicie rozproszone (tj. zawiera znacz�ce klastry). Je�li warto�� statystyki Hopkinsa jest bliska zeru, mo�emy odrzuci� hipotez� zerow� i wyci�gn�� wniosek, �e zestaw danych D jest w znacznym stopniu klastrem danych. Funkcja R do obliczania statystyki Hopkinsa: Funkcja hopkins() mo�e by� u�ywana do statystycznej oceny tendencji do tworzenia klastr�w w R.

#1.Odczytaj plik csv, aby za�adowa� dane
setwd("D:/R data")
Clus_ds <- read.csv("Clus_sample.csv", header=TRUE)
head(Clus_ds)
str(Clus_ds)
fix(Clus_ds)
#2. Sprawd� klastrowanie za pomoc� metody wizualnej Metoda: Utw�rz wykres rozproszenia
plot(CAD~Neuro,Clus_ds)
# Oblicz statystyki Hopkinsa dla zestawu danych
set.seed(123)
hopkins(Clus_stan, n = nrow(Clus_stan)-1)
#Je�li warto�� H jest znacznie poni�ej progu 0,5, jest wysoce zdolna do skupiania.

Okre�l liczb� Klastr�w

setwd("D:/R data")
Clus_ds <- read.csv("Cluster.csv", header=TRUE)
Clus_req <- Clus_ds[-c(1,8)]
Clus_stan <- scale(Clus_req)
wssplot <- function(Clus_stan, nc=5, seed=1234){
wss <- (nrow(Clus_stan)-1)*sum(apply(Clus_stan,2,var))
for (i in 2:nc){
set.seed(seed)
wss[i] <- sum(kmeans(Clus_stan, centers=i)$withinss)}
plot(1:nc, wss, type="b", xlab="Number of Clusters",
ylab="Within groups sum of squares")}

# Parametr danych to numeryczny zestaw danych do analizy, nc to maksymalna liczba klastr�w do rozwa�enia, a seed to seed o losowej liczbie.

wssplot(Clus_stan)
library(NbClust)
set.seed(1234)
nc <- NbClust(Clus_stan, min.nc=2, max.nc=5, method="kmeans")
table(nc$Best.n[1,])
barplot(table(nc$Best.n[1,]),
xlab="Numer of Clusters", ylab="Criteria",
main="Choose Number of Clusters by 26 Criteria")

STUDIUM PRZYPADKU

Wielospecjalistyczna sie� szpitali zajmuj�ca si� kardiologi�, endokrynologi�, psychiatri� i specjali�ci od urologii chc� stworzy� okre�lone strategie maj�ce na celu popraw� ich dzia�alno�ci i optymalnie wykorzystuj� swoje zasoby. Teraz Twoim zadaniem jest tworzenie klastr�w i sugerowanie, kt�re powinny by� strategi�, kt�r� nale�y stosowa� w ka�dym klastrze.

# Krok 1: Zainstaluj i za�aduj wymagane pakiety
if(!require(clustertend)) install.packages("clustertend")
library(clustertend)
# Krok 2: Za�aduj dane
setwd("D:/R data")
Clus_ds <- read.csv("Cluster.csv", header=TRUE)
#Krok 3: Przegl�daj dane
fix(Clus_ds)
head(Clus_ds)
str(Clus_ds)
#Krok 4: Usu� zmienne jako�ciowe, takie jak identyfikator i stan
Clus_req <- Clus_ds [-c (1,8)]
# Krok 5: Usuni�cie brakuj�ce po li�cie
Clus_req <- na.omit (Clus_req)
summary (Clus_req)
str (Clus_req)
#Krok 6: Wykonaj normalizacj�
Clus_stan <- scale(Clus_req) # standardize variables
head(Clus_stan)
summary(Clus_stan)
# Krok 7: Okre�l liczb� klastr�w
library(NbClust)
set.seed(1234)
nc <- NbClust(Clus_stan, min.nc=2, max.nc=5, method="kmeans")
table(nc$Best.n[1,])
barplot(table(nc$Best.n[1,]),
xlab="Numer of Clusters", ylab="Criteria",
main="Choose Number of Clusters by 26 Criteria")
# Krok 8: Oblicz odleg�o��: Hierarchiczne grupowanie totem�w
dt <- dist(Clus_stan, method = "euclidean") # distance matrix
fit.hc <- hclust(dt, method="ward.D2")
# Krok 9: Utw�rz dendrogram klastra za pomoc� pe�nej metody ��czenia
plot (fit.hc) # display dendrogram
#Krok 10: Wytnij drzewo na 4 grupy
groups<- cutree (fit.hc, k = 4)
#Krok 11: Utw�rz dendrogram klastra z czerwonymi ramkami wok� 4 klastr�w
rect.hclust (fit.hc, k = 4, border = "red")
#Krok 12: Wykonaj analiz� skupie� K-�rednich
set.seed (1234)
fit.km <- kmeans (Clus_stan, 4, nstart = 25)
#Krok 13: Okre�l liczb� punkt�w danych w ka�dym klastrze
fit.km $size
#Krok 14: Poka� centra
fit.km$centers
#Krok 15: Poka� klastry
fit.km $cluster
#Krok 16: Uzyskaj �rodki klastra
aggregate(Clus_stan,by=list(fit.km$cluster),FUN=mean)
# Krok 17: Do��cz przypisanie klastra do oryginalnego zestawu danych
Clus_Fin <- data.frame(Clus_ds,fit.km$cluster)
fix(Clus_Fin)
#Krok 18: Utw�rz wykres klastra
library(cluster)
clusplot(Clus_Fin, fit.km$cluster, color=TRUE, shade=TRUE, labels=4, lines=0)

KROK 9

Analiza Koszyka Rynku

WPROWADZENIE

Analiza koszyka rynkowego ma kilka nazw, takich jak Wykrywanie wzorc�w / Wyszukiwanie wzorc�w / Regu�y stowarzyszenia / Analiza koszyka rynkowego / Wyszukiwanie zestaw�w przedmiot�w. Zapewnia wgl�d w to, kt�re produkty s� zazwyczaj kupowane razem i kt�re najbardziej odpowiadaj� promocji. Uczenie si� regu� asocjacyjnych jest popularn� technik� Data Mining do odkrywania interesuj�cych relacji mi�dzy zmiennymi w du�ych bazach danych.

Co to jest wykrywanie wzorc�w?

Wzorce: zestaw element�w, podsekwencji lub podstruktur, kt�re cz�sto wyst�puj� razem w zestawie danych. Wzory reprezentuj� nieod��czne i wa�ne w�a�ciwo�ci zestaw�w danych. Wykrywanie wzorc�w to odkrywanie wzorc�w z ogromnych zestaw�w danych. Wykrywanie wzorc�w s�u�y do znajdowania nieod��cznych prawid�owo�ci w zbiorze danych i mo�e dzia�a� jako podstawa dla wielu podstawowych zada� eksploracji danych, takich jak asocjacja, korelacja, analiza szereg�w czasowych, analiza przyczynowo�ci, analiza skupie�, wzorce sekwencyjne i strukturalne.
Co to s� wzorce: wzorce to zestaw element�w, kt�re cz�sto wyst�puj� razem w zbiorze danych, kt�ry reprezentuje wa�ne w�a�ciwo�ci zestaw�w danych. Mo�emy u�y� regu� asocjacyjnych, aby odpowiedzie� na tego rodzaju pytania:

• Jakie produkty cz�sto kupowano razem?
• Jakie s� kolejne zakupy po zakupie okre�lonego produktu?
• Jakie sekwencje s��w prawdopodobnie tworz� frazy w tym korpusie?
• Jakie s� cz�ste przedmioty, kt�re kupuje ten klient?
• Jaka jest �rednia liczba produkt�w na zam�wienie?
• Jaki jest najcz�stszy przedmiot znaleziony w jednym zam�wieniu?
• Kiedy kupi� laptopa, kiedy kupi drukark�?
• Skoro kupi� iPhone6, czy b�dzie zainteresowany iPhone7?
• Do kt�rej strony wszed�, gdzie si� przeni�s�, ile czasu tam sp�dzi�?
• Kt�re choroby wyst�puj� cz�ciej u os�b z t� specyficzn� sekwencj� genow�?
• Klienci, kt�rzy kupili ten produkt, jakie inne produkty kupuj�?
• Jaka jest �rednia liczba zam�wie� na klienta?
• Jaka jest �rednia liczba unikalnych przedmiot�w na zam�wienie?
• Nietypowe kombinacje roszcze� ubezpieczeniowych mog� by� oznak� oszustwa,
• Jak je znale��?
• Historie pacjent�w medycznych mog� wskazywa� na prawdopodobne powik�ania w oparciu o okre�lone kombinacje leczenia. Jak cz�sto wyst�puj� te zdarzenia niepo��dane?

Celem zasad asocjacji jest rozpoznanie ekscytuj�cych relacji mi�dzy przedmiotami. Ka�da z ods�oni�tych regu� ma posta� X → Y, co oznacza, �e gdy obserwowany jest punkt X, obserwowany jest r�wnie� punkt Y. W tym przypadku lewa strona (LHS) regu�y to X, a prawa strona (RHS) tej regu�y to Y. We�my list� kilku transakcji podanych w pliku Transact.txt ze sklepu spo�ywczego s�siaduj�cego z centrum fitness.

Mo�emy chcie� odpowiedzie� na nast�puj�ce pytania:

• Jakie dwa przedmioty b�d� cz�ciej kupowane razem ni� jakiekolwiek inne przedmioty?
• Kt�ry produkt nigdy nie jest kupowany z Jam?

Na te pytania mo�na odpowiedzie�, obserwuj�c dane r�cznie. Teraz prawdziwym problemem jest to, w jaki spos�b generujemy te regu�y automatycznie na du�ych danych?

TERMINOLOGIA ODKRYCIA WZOR�W

Zestaw przedmiot�w: Ka�da transakcja, kt�ra zawiera jedn� lub wi�cej pozycji. Jest r�wnie� znana jako zestaw przedmiot�w. Termin itemset odnosi si� do zbioru przedmiot�w lub pojedynczych byt�w, kt�re zawieraj� pewien rodzaj relacji. Mo�e to by� zestaw przedmiot�w zakupionych razem w jednej transakcji, zestaw profili wyszukiwanych na LinkedIn w jednej sesji lub zestaw hiper��czy klikanych przez jednego u�ytkownika w danej sesji.
Zestaw element�w K: Zestaw element�w zawieraj�cy k element�w nazywa si� zestawem element�w K. U�ywamy nawias�w klamrowych, takich jak {pozycja 1, pozycja 2, ... pozycja k}, aby oznaczy� zestaw k-pozycji.
Wsparcie: Jednym z kluczowych element�w regu� stowarzyszenia jest wsparcie. Bior�c pod uwag� zestaw przedmiot�w X, obs�uga X jest procentem transakcji zawieraj�cych X.
Bezwzgl�dne wsparcie (liczba) X: Cz�stotliwo�� lub liczba wyst�pie� zestawu przedmiot�w X.
Obs�uga wzgl�dna: Cz�� transakcji zawieraj�ca X (tj. Prawdopodobie�stwo, �e transakcja zawiera X)
Dla 1 zestawu przedmiot�w: Wsparcie = cz�stotliwo�� (X) / N
Dla 2 zestaw�w przedmiot�w: Wsparcie = cz�stotliwo�� (X, Y) / N

W podanym przyk�adzie, je�li chleb pojawi� si� 4 razy w 5 transakcjach, to znaczy, �e 4/5 (80%) wszystkich transakcji zawiera itemset {chleb}, w�wczas wsparcie {chleb} wynosi 0,8. Podobnie, je�li 60% wszystkich transakcji zawiera itemset {Chleb, Mleko}, w�wczas wsparcie {Chleb, Mleko} wynosi 0,6. Zestaw przedmiot�w X jest cz�sty, je�li wsparcie X jest nie mniejsze ni� pr�g minsup (oznaczony jako ?). Cz�sty zestaw przedmiot�w zawiera elementy, kt�re pojawiaj� si� razem ponad kryterium minimalnego wsparcia. Je�li minimalne wsparcie jest ustawione na 0,5, dowolny zestaw przedmiot�w mo�e by� uwa�any za cz�sty zestaw przedmiot�w, je�li wsparcie dla cz�stego zestawu przedmiot�w powinno by� wi�ksze lub r�wne minimalnemu wsparciu. W naszym przyk�adzie zar�wno {Chleb}, jak i {Chleb, mleko} s� uwa�ane za cz�ste zestawy przedmiot�w przy minimalnym wsparciu 0,5.
Zaufanie: Zaufanie definiuje si� jako miar� pewno�ci lub wierno�ci zwi�zan� z ka�d� odkryt� regu��. Matematycznie zaufanie jest procentem transakcji zawieraj�cych zar�wno X, jak i Y spo�r�d wszystkich transakcji zawieraj�cych X.
Pewno��, c: warunkowe prawdopodobie�stwo, �e transakcja zawieraj�ca X r�wnie� zawiera Y. Pewno�� = Cz�stotliwo�� (X, Y) / Cz�stotliwo�� (X)
Na przyk�ad je�li {Chleb, Banan, Mleko} ma wsparcie 0,20, a {Chleb, Banan} ma r�wnie� wsparcie 0,20, pewno�� regu�y {Chleb, Banan} ? {Mleko} wynosi 1, co oznacza 100% czasu, w kt�rym klient kupuje chleb i banan, kupuje si� r�wnie� mleko. Zasada jest zatem poprawna dla 100% transakcji zawieraj�cych chleb i banan. Relacja jest ekscytuj�ca, gdy algorytm identyfikuje relacj� za pomoc� miary zaufania wi�kszej lub r�wnej minimalnej ufno�ci. istnieje ograniczenie pewno�ci, poniewa� mo�e zidentyfikowa� interesuj�ce regu�y ze wszystkich regu� kandyduj�cych, bierze pod uwag� tylko poprzednik (X) i wsp�wyst�powanie X i Y; to robi aby nie bra� pod uwag� konsekwencji regu�y (Y). Tak wi�c zaufanie nie jest w stanie stwierdzi�, czy regu�a zawiera prawdziwe implikacje relacji, czy te� regu�a jest czysto przypadkowa. Czasami X i Y mog� by� statystycznie niezale�ne, ale nadal uzyskuj� wysoki wynik ufno�ci. Winda poradzi sobie z tym problemem.
Podnoszenie: Podnoszenie mierzy, ile razy X i Y wyst�puj� razem, ni� si� spodziewano, je�li s� statystycznie niezale�ne od siebie. Wzrost jest miar� tego, w jaki spos�b X i Y s� naprawd� powi�zane, a nie przypadkiem dzieje si� razem.

Wzrost wynosi 1, je�li X i Y s� statystycznie niezale�ne od siebie. Natomiast wzrost X ? Y wi�kszy ni� 1 wskazuje, �e regu�a jest warta zachodu. Wi�ksza warto�� wzrostu sugeruje wi�ksz� skuteczno�� powi�zania mi�dzy X i Y. Zak�adaj�c 10 transakcji, z {Chlebem, Mas�em} wyst�puj�cym w 4 transakcjach, {Chleb} wyst�puj�cy w 4, a {Mas�o} wyst�puj�cy w 5, nast�pnie Lift (Chleb ? Mas�o) = 0,4 / (0,4 * 0,5) = 2,0 Je�li {Mas�o, Zbo�e} wyst�puj�ce w 3 transakcjach z nich, {Zbo�e} wyst�puj�ce w 4, a {Mas�o} pojawiaj�ce si� w 5, nast�pnie Lift (Mas�o ? Zbo�e) = 0,3 / (0,5 * 0,4) = 1,5. Obserwuj�c je, mo�emy powiedzie�, �e chleb i mas�o maj� silniejszy zwi�zek ni� p�atki zbo�owe i mas�o.

ALGORYTM APRIORI

Algorytm Apriori stosuje iteracyjne podej�cie do ujawnienia cz�stego zestawu przedmiot�w, najpierw okre�laj�c wszystkie mo�liwe zestawy 1-przedmiot�w, na przyk�ad {Bread}, {Cereal}, {Butter} i identyfikuje, kt�re z nich s� cz�ste. Przyjmijmy, �e kryterium minimalnego wsparcia wynosi 0,5, algorytm identyfikuje i zachowuje zestaw przedmiot�w, kt�ry pojawia si� w co najmniej 50% wszystkich transakcji i odrzuca zestaw przedmiot�w, kt�ry ma wsparcie mniejsze ni� 0,5, proces ten nazywa si� przycinaniem.
Zasada przycinania Apriori: je�li jaki� zestaw przedmiot�w jest rzadki, jego nadzbi�r nie powinien nawet zosta� wygenerowany. W nast�pnej iteracji zidentyfikowane cz�ste zestawy 1-elementowe s� sparowane w zestawy 2-elementowe ({Chleb, P�atki}, {Chleb, Mas�o}, ...) i ponownie oceniane pod k�tem znalezienia w�r�d nich cz�stych zestaw�w 2-elementowych. Jest to proces iteracyjny, przy ka�dej iteracji algorytm sprawdza, czy mo�na spe�ni� kryterium wsparcia. Je�li spe�nia kryterium, algorytm powi�ksza zestaw element�w, powtarzaj�c proces, a� sko�czy si� obs�uga lub dop�ki zestaw element�w nie osi�gnie ustalonej d�ugo�ci.
Za�o�enia Apriori: Za��my, �e {chleb, mas�o} jest cz�ste. Poniewa� ka�de wyst�pienie chleba, mas�o obejmuje zar�wno chleb, jak i mas�o, to zar�wno chleb, jak i mas�o musz� by� r�wnie� cz�ste. Tak wi�c, je�li zestaw element�w K jest cz�sty, wszystkie jego podzestawy (zestawy element�w K-1, k-2) s� r�wnie� cz�ste

Kroki w wykonaniu algorytmu Apriori:

• Zarys Apriori (poziom, generowanie i testowanie kandydat�w)
• Pocz�tkowo zeskanuj DB raz, aby uzyska� cz�sty zestaw 1 element�w
• Powt�rz
• Wygeneruj kandyduj�ce zestawy przedmiot�w o d�ugo�ci (k + 1) z zestaw�w przedmiot�w o d�ugo�ci-k
• Przetestuj kandydat�w na DB, aby znale�� cz�ste zestawy (k + 1)
• Ustaw k: = k +1
• Do momentu wygenerowania zestawu cz�stych lub kandyduj�cych
• Zwraca wszystkie wyprowadzone cz�ste zestawy przedmiot�w

Zalety algorytmu Apriori:

• U�ywa du�ej w�a�ciwo�ci itemset.
• �atwo zr�wnoleglony.
• �atwy do wdro�enia.

Wady algorytmu Apriori:

• Zak�ada, �e baza danych transakcji jest rezydentem pami�ci. Wymaga do m skanowania baz danych. Algorytm Apriori mo�e by� bardzo wolny, a w�skim gard�em jest generowanie kandydat�w. Na przyk�ad, je�li DB transakcji ma 104 cz�ste zestawy 1 element�w, wygeneruj� 107 zestaw�w 2 element�w, nawet po zastosowaniu zamkni�cia w d�. Aby obliczy� te z sup wi�cej ni� minsup, baza danych musi by� skanowana na ka�dym poziomie. Potrzebuje (n +1) skan�w, gdzie n jest d�ugo�ci� najd�u�szego wzoru.

Metody poprawy wydajno�ci Apriori:

1. Liczenie zestaw�w przedmiot�w na podstawie skr�tu: zestaw przedmiot�w k, kt�rego odpowiadaj�ca liczba koszyk�w mieszaj�cych jest poni�ej progu, nie mo�e by� cz�sta
2. Redukcja transakcji: Transakcja, kt�ra nie zawiera cz�stych zestaw�w przedmiot�w K, jest bezu�yteczna w kolejnych skanach
3. Partycjonowanie: Ka�dy zestaw element�w, kt�ry jest potencjalnie cz�sty w DB, musi by� cz�sty w co najmniej jednej partycji DB
4. Pr�bkowanie: eksploracja podzbioru danych, dolny pr�g wsparcia + metoda okre�lania kompletno�ci
5. Dynamiczne zliczanie zestaw�w przedmiot�w: dodawaj nowy zestaw przedmiot�w tylko wtedy, gdy szacuje si�, �e wszystkie ich podzbiory s� cz�ste

Istnieje wiele zastosowa� Regu� Stowarzyszenia, kt�re obejmuj�:

• Analiza koszyka rynkowego
• Fizyczne lub logiczne umieszczenie produktu w pokrewnych kategoriach produkt�w,
• Cross-marketing, (Cross Selling, Up selling)
• Projektowanie katalogu,
• Analiza kampanii sprzeda�owych,
• Programy promocyjne,
• Analiza strumienia klikni�� lub analiza dziennika internetowego,
• Analiza sekwencji biologicznych, systemy rekomenduj�ce programy kart lojalno�ciowych, takie jak Amazon, Facebook, LinkedIn i Netflix

STUDIUM PRZYPADKU

Wczesnym rankiem we�my zestaw danych transakcji w pobli�u centrum fitness. Pozw�l nam zrozumie�, jakie s� cz�ste zakupy biegaczy lub spacerowicz�w, i znajd� powi�zanie mi�dzy nimi, aby sklepikarz chcia� przygotowa� wymagane rzeczy dla swoich klient�w.

Krok 1: Za�aduj zestaw danych
setwd("D:/R data")
basket <-read.table("Transact.txt", header=TRUE, sep="\t")
Krok 2: Zobacz pierwsze 10 obserwacji
head(basket, n=10)
Krok 3: Zrozumienie struktury i cz�ci deskryptora danych
str (basket)
Krok 4: W razie potrzeby przekonwertuj zmienne numeryczne na czynniki
fac <- c (1,2,4)
basket [, fac] <- lapply (basket [, fac], factor)
str (basket)
Krok 5: Podziel dane
dt <- split(basket$Products, basket$ID)
Krok 6: Za�aduj wymagane pakiety i biblioteki
if(!require(arules)) install.packages("arules")

Jeste�my teraz gotowi wydoby� kilka zasad. Zawsze b�dziesz musia� przej�� wymagane minimum wsparcia i pewno�� siebie. Za��my, �e chcieliby�my ustawi� minimalne wsparcie na 0.3 i minimalne zaufanie 0,8. Chcemy pokaza� 5 najwa�niejszych zasad

Krok 7: Uzyskaj zasady
rules <- apriori(basket, parameter = list(supp = 0.3, conf = 0.8)))
Krok 8: Konwertuj dane na poziom transakcji
dt2 = as(dt,"transactions")
summary(dt2)
inspect(dt2)
Krok 9: Znajd� najcz�stsze przedmioty
itemFrequency (dt2, type = "relative")
itemFrequencyPlot (dt2, topN = 5)
Krok 10: Zgromad� i zwi�le zasady:
Je�li regu�y s� zbyt d�ugie. Mo�emy zwi�zi� regu�y, dodaj�c parametr "maxlen" do twojej funkcji Apriori:

rules = apriori(dt2, parameter=list(support=0.3, confidence=0.8))
rules = apriori(dt2, parameter=list(support=0.3, confidence=0.8, minlen = 3))
rules = apriori(dt2, parameter=list(support=0.3, confidence=0.8, maxlen = 4)))
Krok 11: Konwertuj regu�y na ramk� danych
rules3 = as (rules, "data.frame")
write (rules, "D: \\ rules.csv", sep = ",")
Krok 12: Poka� tylko okre�lone regu�y dotycz�ce produkt�w
inspect( subset( rules, subset = rhs %pin% "Bread" ))
Krok 13: Poka� 10 najwa�niejszych zasad
options(digits=2)
inspect(rules[1:10]))
Krok 14: Uzyskaj informacje podsumowuj�ce
summary(rules)
Krok 15: Sortuj regu�y, poniewa� chcemy najpierw napisa� najbardziej odpowiednie regu�y wed�ug poufno�ci lub podnoszenia
rules<-sort(rules, by="confidence", decreasing=TRUE)
rules<-sort(rules, by="lift", decreasing=TRUE)
Krok 16: Usu� niepotrzebne regu�y
Czasami regu�y si� powtarzaj�. Jako analityk mo�esz usun�� element z zestawu danych. Alternatywnie mo�esz usun�� wygenerowane zb�dne regu�y.

subset.matrix <- is.subset(rules, rules)
subset.matrix[lower.tri(subset.matrix, diag=T)] <- NA
redundant <- colSums(subset.matrix, na.rm=T) >= 1
which(redundant)
rules.pruned <- rules[!redundant]
rules<-rules.pruned
Krok 17: Wyczy�� zasady
rules3$rules=gsub("\\{", "", rules3$rules)
rules3$rules=gsub("\\}", "", rules3$rules)
rules3$rules=gsub("\"", "", rules3$rules)
Krok 18: Podziel regu��
library(splitstackshape)
Rules4=cSplit(rules3, "rules","=>")
names(Rules4)[names(Rules4) == 'rules_1'] <- 'LHS'
Rules5=cSplit(Rules4, "LHS",",")
Rules6=subset(Rules5, select= -c(rules_2))
names(Rules6)[names(Rules6) == 'rules_3'] <- 'RHS'"
Krok 19: Celowanie w przedmioty:
Teraz, gdy wiemy, jak generowa� regu�y, ogranicz wydajno��, powiedzmy, �e chcieli�my kierowa� elementy i generowa� regu�y. Zilustrowano dwa typy cel�w, kt�rymi mo�emy by� zainteresowani na przyk�adzie "Chleba":
# Co klienci prawdopodobnie kupi� przed zakupem "Chleba"
rules<-apriori(data=dt, parameter=list(supp=0.5,conf = 0.8),
appearance = list(default="lhs",rhs="Bread"), control = list(verbose=F))
rules<-sort(rules, decreasing=TRUE,by="confidence")
inspect(rules[1:4])
# Co klienci prawdopodobnie kupi�, je�li kupi� "Chleb"
rules<-apriori(data=dt, parameter=list(supp=0.5,conf = 0.7),
appearance = list(default="rhs",lhs="Bread"), control = list(verbose=F))
rules<-sort(rules, decreasing=TRUE,by="confidence")
inspect(rules[1:3])
Krok 20: Wizualizacja:
Wreszcie chcemy zmapowa� regu�y na wykresie. Do tego potrzebujemy pakietu "arulesViz".
# Zainstaluj pakiet arulesViz
library(arulesViz)
plot(rules,method="graph",interactive=TRUE,shading=NA)

KROK 10

Szacowanie G�sto�ci J�dra

WPROWADZENIE

Kiedy patrzymy na dane, pierwsz� rzecz�, kt�r� chcemy dowiedzie� si�, czy to struktura danych, w tym celu tworzymy histogramy danych w oparciu o jedn� lub wi�cej funkcji. Funkcje s� r�wnie� znane jako wymiary, zmienne, kolumny, dlatego u�ywamy tych termin�w zamiennie. Histogram pokazuje wiele rzeczy, na przyk�ad miejsca, w kt�rych punkty danych s� bardziej widoczne, a gdzie mniej. Mo�emy to nazwa� Funkcjami g�sto�ci prawdopodobie�stwa, poniewa� po prostu patrz�c na histogram mo�emy powiedzie�, jakie jest prawdopodobie�stwo wyst�pienia okre�lonego punktu danych. Jest to jednowymiarowe oszacowanie g�sto�ci. Ale jednowymiarowy histogram to za ma�o, tak naprawd� to, czego naprawd� chcemy, to oszacowanie g�sto�ci po��czenia. Czy s�yszysz histori� pi�ciu niewidomych, kt�rzy dotykaj� S�onia i opisuj� go? Co oni tam robili? Ka�dy niewidomy m�czyzna w opowie�ci wyja�niaj�cy jeden wymiar s�onia i wreszcie mo�emy doj�� do wniosku, poniewa� �aden z nich nie opisuje s�onia w ca�o�ci. Kiedy patrzymy na pojedynczy wymiar, mo�emy odnie�� wra�enie, �e dane mog� by� niepoprawne. Je�li spojrzymy na te same dane z innego wymiaru, mog� uzyska� zupe�nie inne wra�enie. Teraz rzeczywistym rozk�adem mo�e by� kombinacja tych dw�ch w wsp�lnej przestrzeni. Celem oszacowania g�sto�ci jest ustalenie wsp�lnej dystrybucji. Pozw�l, �e dam ci jeszcze jeden przyk�ad, aby zrozumie� oszacowanie g�sto�ci. We�my nasz� kart� kredytow� za przyk�ad i u�ywamy jej normalnie przez wiele lat. Je�li kto� ukrad� twoj� kart� kredytow�, mo�e u�y� karty nieco inaczej, poniewa� nie wie, w jaki spos�b korzystamy z naszej karty i gdzie u�ywamy jej cz�ciej. Teraz wyobra� sobie, w jaki spos�b firma wydaj�ca karty kredytowe wykrywa to nieco nietypowe lub nieco nienormalne zachowanie? Jak to uchwyci�? Co robi model? Pozw�lcie, �e podam jeszcze jeden przyk�ad: otrzymali�my reklam� w Google dotycz�c� okre�lonego s�owa kluczowego. Zwykle ludzie mog� klika� t� reklam� w pewnym tempie na podstawie danego dnia i liczby zapyta� oraz liczby wy�wietle� itp. Na podstawie tych s��w kluczowych. uzyska� w przybli�eniu pewn� liczb� klikni��. Wyobra�my sobie, �e mam konkurenta. M�j konkurent chce, aby moje pieni�dze zosta�y zmarnowane. Co mo�e zrobi�, mo�e stworzy� robota, pisz�c program, kt�ry wielokrotnie klika reklam�, za ka�dym razem, gdy pojawia si� pytanie dotycz�ce tego konkretnego punktu . Teraz czego oczekujesz od Google? Oczekujesz, �e Google wykryje to nienormalne zachowanie i miejsce, z kt�rego dochodzi do klikni��. W tym miejscu przydatne jest w�a�nie oszacowanie g�sto�ci j�dra. Pozw�l, �e powiem ci bardzo wa�n� zasad� danych. Pierwsz� rzecz� jest to, �e dane maj� hierarchi�. Drug� rzecz� jest to, �e dane maj� struktur� i ha�as. Dane zawsze b�d� mia�y struktur� i ha�as. Naszym celem w nauczaniu bez nadzoru (szacowanie g�sto�ci j�dra) jest ustalenie, kt�ra cz��, je�li dane maj� struktur�, a kt�ra cz�� danych ma ha�as. Kiedy zrobili�my PCA, zachowali�my troch�. G��wne sk�adniki i odrzucili�my niekt�re inne elementy, poniewa� uwa�ali�my, �e niekt�re elementy maj� w sobie struktur�, a inne maj� ha�as. Jak decydujemy, ile g��wnych element�w musimy zachowa�? Jak decydujemy, ile klastr�w musimy utworzy�? To jest nasze wezwanie i to jest pi�kno, je�li nauka danych. Tutaj naszym celem jest dowiedzie� si�, jak skompletowa� po��dany model, aby wychwytywa� on maksymalny sygna�, a nie szum. Je�li uznamy, �e istnieje tylko jedno zachowanie u�ytkownika karty kredytowej, nie udaje nam si� uchwyci� struktury zachowania karty kredytowej, poniewa� istniej� r�ne rodzaje ludzi z r�nymi rodzajami zachowa� karty kredytowej, takimi jak spos�b korzystania z karty przez nastolatk�w i spos�b korzystania z karty przez producenta domu oraz w jaki spos�b student korzysta z karty itp. W oparciu o domen�, kt�r� masz do czynienia, musisz zdecydowa� o strukturze i wsp�czynniku szum�w oraz ile danych lub szum�w mo�emy si� tutaj spodziewa�? Pozwol� sobie na prosty przyk�ad, je�li mamy do czynienia z danymi tekstowymi, je�li popatrzymy na naukow� grup� dokumenty, mo�emy si� spodziewa� wi�cej danych i mniej ha�asu, poniewa� s� one dobrze napisane i nie by�oby b��d�w ortograficznych i gramatycznych. Ale je�li mamy do czynienia z danymi na Twitterze, mo�emy pope�ni� wiele b��d�w ortograficznych. Na tej podstawie musimy sprawdzi�, ile danych potrzebujemy przechwyci� i jak skomplikowany by�by m�j model. Ha�as mo�e by� naturalny, a ha�as mo�e by� zamierzony. W scenariuszu dotycz�cym karty kredytowej oszustwo jest umy�lnym ha�asem, a na Twitterze jest to niezamierzony ha�as.

CO TO JEST KERNEL?

J�dro jest specjalnym rodzajem funkcji g�sto�ci prawdopodobie�stwa (PDF) z dodan� w�a�ciwo�ci�, �e musi by� nieujemne, r�wne i rzeczywiste. Co to jest estymacja g�sto�ci j�dra? : Estymacja g�sto�ci j�dra jest nieparametryczn� metod� szacowania funkcji g�sto�ci prawdopodobie�stwa (PDF) ci�g�ej zmiennej losowej. Jest nieparametryczny, poniewa� nie zak�ada �adnego podstawowego rozk�adu dla zmiennej. Metoda szacowania g�sto�ci j�dra przezwyci�a dyskrecj� podej�cia histogramu poprzez centrowanie g�adkiej funkcji j�dra w ka�dym punkcie danych, a nast�pnie sumowanie w celu uzyskania oceny g�sto�ci. Zasadniczo w ka�dym punkcie danych tworzona jest funkcja j�dra z punktem danych w �rodku, co zapewnia symetryczno�� j�dra wzgl�dem danych. Plik PDF jest nast�pnie szacowany jako �rednia z zaobserwowanych punkt�w danych w celu utworzenia p�ynnego przybli�enia danych, aby zapewni�, �e spe�nia nast�puj�ce w�a�ciwo�ci pliku PDF. Ka�da mo�liwa warto�� pliku PDF, tj. Funkcja nie jest ujemna. Zdefiniowana ca�ka pliku PDF ponad jego zestawem pomocniczym wynosi 1. Szacunkowa g�sto�� j�dra jest sum� wypuk�o�ci, kt�ra jest przypisana do ka�dego punktu danych, a wielko�� wypuk�o�ci reprezentuje prawdopodobie�stwo przypisane s�siedztwu warto�ci wok� tego punktu danych . Ka�da nier�wno�� jest wy�rodkowana w punkcie danych i rozk�ada si� symetrycznie, aby pokry� s�siednie warto�ci punktu danych. Ka�de j�dro ma przepustowo�� i okre�la szeroko�� guza. Wi�ksza przepustowo�� skutkuje kr�tszym i szerszym wybrzuszeniem, kt�re rozci�ga si� dalej od �rodka i przypisuje wi�ksze prawdopodobie�stwo s�siednim warto�ciom.

KROKI W BUDOWIE SZACUNKU G�STO�CI ZIARNA

1. Wybierz j�dro, typowe s� jak normalne (gaussowskie), jednolite (prostok�tne).
2. W ka�dym punkcie danych zbuduj skalowan� funkcj� j�dra, gdzie K() jest wybran� funkcj� j�dra. Parametr h nazywa si� przepustowo�ci�, szeroko�ci� okna lub parametrem wyg�adzania.
3. Dodaj wszystkie indywidualne skalowane funkcje j�dra i podziel przez n, co daje prawdopodobie�stwo 1 / n dla ka�dego Xi. Zapewnia r�wnie�, �e oszacowanie g�sto�ci j�dra integruje si� z 1 w stosunku do jego zestawu wsparcia.

Wyb�r przepustowo�ci

Wyb�r przepustowo�ci jest najtrudniejszym krokiem w tworzeniu dobrego oszacowania g�sto�ci j�dra, kt�ry uwzgl�dnia podstawowy rozk�ad zmiennej. Mo�emy przestrzega� prostych zasad, takich jak:

1. Ma�e h powoduje ma�e odchylenie standardowe, a j�dro umieszcza wi�kszo�� prawdopodobie�stwa na punktach danych. U�ywamy tego, gdy wielko�� pr�bki jest du�a, a dane s� ciasno upakowane.
2. Du�e h powoduje du�e odchylenie standardowe, a j�dro rozk�ada wi�ksze prawdopodobie�stwo z punktu danych na s�siednie warto�ci. U�ywamy tego, gdy pr�bka jest ma�a, a dane s� rzadkie. Funkcja density() w R oblicza warto�ci oszacowania g�sto�ci j�dra. Zastosowanie funkcji plot() do obiektu utworzonego przez density() wykre�li oszacowanie. Zastosowanie funkcji summary() do obiektu ujawni przydatne statystyki dotycz�ce oszacowania. U�ywamy tej metody, aby pozna� struktur� i gramatyk� danych. Je�li s�uchamy utworu muzycznego, mo�emy powiedzie�, �e pochodzi on od Rahmana lub Ilayi rad�y.
Jak mo�emy to zrobi�? Nasz m�zg przechowa� muzyk� i znajduje struktur� w okre�lonej kolejno�ci. Nawiasem m�wi�c, wykonujemy wiele oszacowa� g�sto�ci w naszym m�zgu. Za��my, �e wszystkie samochody na �wiecie maj� ten sam kolor i kszta�t, widzieli�my wiele danych, spr�buj skompresowa� je do modelu. Nie pami�tamy wszystkich samochod�w, ale wci�� mo�emy rozpozna� nowy samoch�d, poniewa� widzieli�my wiele danych, rozpoznajemy, jakie s� samochody, a nast�pnie kiedy widz� inne dane lub nowy obiekt, mog� powiedzie�, �e to samoch�d. Co si� dzieje? Co robi tw�j m�zg? Widzisz du�o danych, tw�j m�zg stworzy� model, a gdy zobaczy�e� nowy punkt danych, mo�esz zrozumie�, �e to samoch�d. W tym celu wystarczy Tw�j model za ka�dym razem, gdy nie potrzebujesz danych. U�ywamy techniki KDE nawet w celu znalezienia warto�ci odstaj�cych. Opr�cz tego, aby dowiedzie� si�, ile jest sygna�u i szumu, mo�emy zdefiniowa�, w jaki spos�b z�o�ono�� modelu. Im bardziej z�o�ony model, zaczynamy rejestrowa� ha�as, je�li model jest zbyt prosty, nie mo�emy uchwyci� struktury. Tak wi�c musimy mie� odpowiedni� z�o�ono�� modelu. Oszacowanie g�sto�ci ma wiele rzeczy psychologicznych, kt�re robimy. Wyobra�my sobie sytuacj�, w kt�rej chcesz podarowa� �onie wyj�tkowy prezent. Jak mo�e si� czu� / mierzy� wyj�tkowo��? Bierze wszystkie mo�liwe prezenty i oblicza prawdopodobie�stwo, je�li prawdopodobie�stwo jest wi�ksze, nazywamy to normalnym. Je�li prawdopodobie�stwo jest bardzo rzadkie, nazywamy to Unikatowym / Powie�ci�. Oszacowanie g�sto�ci j�dra jest u�ywane w

• Oszustwo z wykorzystaniem karty kredytowej
• Wykrywanie w�ama�
• Oszustwo sprzedawcy
• Zachowanie terrorystyczne

Oszacowanie g�sto�ci s�u�y nawet do rozwi�zywania problem�w klasyfikacyjnych. Wyobra� sobie, �e wzi�li�my sekwencj� gen�w i dowiadujemy si�, czy on jest cukrzyc�, czy nie, wyobra� sobie z�o�ono�� modelu. Mo�emy mie� 1 milion danych o sekwencji gen�w pacjent�w z cukrzyc� i 1 milion sekwencji gen�w os�b bez cukrzycy. Wyobra� sobie tutaj z�o�ono��. Zebrali�my sekwencje gen�w 1 miliona pacjent�w z cukrzyc� i 1 miliona os�b bez cukrzycy i staramy si� ustali� cz�� sekwencj� gen�w, na kt�r� powinienem spojrze� i kt�r� cz�� sekwencji gen�w musz� zmodyfikowa� przy narodzinach dziecka, aby nie m�g� rozwin�� cukrzycy przez ca�e �ycie. Je�li wiemy, jak zbudowa� estymacj� g�sto�ci j�dra, mo�emy zrobi� tak skomplikowan� rzecz. Pr�bujemy znale�� te sekwencje, kt�re s� bardziej powszechne u diabetyk�w, i jak mog� zmodyfikowa� te sekwencje po urodzeniu, aby nigdy nie mia�y cukrzycy przez reszt� �ycia. Aby to zrobi�, staramy si� zrozumie� oszacowanie g�sto�ci, wi�c mo�emy zbudowa� tak skomplikowany klasyfikator.
Szkolenie: Mogli�my zobaczy� wiele danych, zrozumie� r�ne typy i sekwencje gen�w kompresuj�cych je do kszta�tu. Na tej podstawie staramy si� stworzy� model.
Punktacja: Po utworzeniu modelu zastosuj model do nowego punktu danych, tak jak gdy zobaczysz nowy punkt danych, mo�emy powiedzie�, �e jest to sekwencja genowa cukrzycy, czy nie. Mo�emy nawet powiedzie�, �e jakie jest prawdopodobie�stwo, �e b�dzie on mia� cukrzyc�. Podczas gdy histogram jest funkcjonalnie odpowiedni do wy�wietlania szerokiej gamy danych czesnych, tak mo�e by� frustruj�ce wizualnie, aby zbada� rozk�ad, poniewa� widz jest zmuszony do mentalnego po��czenia kropek mi�dzy pojemnikami. Ponadto wybrane rozmiary pojemnik�w i punkty �rodkowe wydaj� si� ukrywa� trzy podgrupy w rozk�adzie. Wykres mo�na ulepszy�, dodaj�c szacunkow� g�sto�� j�dra (KDE), poniewa� histogram mo�e by� frustruj�cy i wprowadza� w b��d, szczeg�lnie gdy przedzia�y lub punkty �rodkowe nie maj� odpowiedniego rozmiaru lub po�o�enia. Szacunki g�sto�ci j�dra zapewniaj� p�ynn� lini�, podobn� do "rozmiaru bin ", kt�ry mo�e zniekszta�ci� rozk�ad danych na histogramie. Wyb�r przepustowo�ci jest wa�n� cz�ci� oszacowania g�sto�ci j�dra. W wi�kszo�ci technik szacowania g�sto�ci j�dra j�dra maj� ten sam kszta�t i szeroko�� pasma. Chocia� istnieje kilka opcji wyboru metody przepustowo�ci , kt�re automatycznie wybieraj� odpowiedni rozmiar j�dra, najbardziej popularna jest metoda Sheather-Jones Plug-In (SJPI), kt�ra jest u�ywana domy�lnie w procedurze KDE. Inne metody wyboru przepustowo�ci:

• Simple Normal Reference (SNR),
• SNR z zakresem mi�dzykwartylowym (SNRQ),
• Zasada kciuka Silvermana (SROT) i
• Ponad wyg�adzony (OS).

Zrozumienie oceny g�sto�ci j�dra z analiz� przypadku: Sp�jrzmy na dane Jewel, poszli�my do sklepu jubilerskiego, gdzie obserwowali�my ozdoby z r�nych metali i modeli. wymiar / cecha / zmienna / kolumna. Sp�jrzmy na zestaw danych Jewel, w powy�szych danych chcemy pracowa� nad dwiema cechami / zmiennymi / wymiarami / kolumnami, tj. metalem i modelem. Metal mo�e przyjmowa� trzy dyskretne (Nominalne) warto�ci, tj. Srebro, Z�oto i Platyn�, Model mo�e nawet przyjmowa� trzy warto�ci Normalny, Fantazyjny, Antyczny. nazywamy to problemem klasyfikacyjnym. Chcemy tutaj znale�� P (fantazyjne, z�ote) i tak dalej. gdybym m�g� to zrobi� dla wszystkich kombinacje, mo�emy powiedzie�, �e zbudowali�my model. i wyrzucamy dane, poniewa� stworzyli�my model, prawdopodobie�stwo wszystkich kombinacji.

Zr�bmy to:

P (fantazyjne, platynowe) = liczba (fantazyjne, platynowe) / ca�kowita liczba klient�w = (15/150) = 0,10, wi�c mo�emy powiedzie�, �e szacowanie g�sto�ci naprawd� dotyczy liczenia i normalizacji. Je�li mamy rzeczywiste warto�ci, dzielimy je na bin i wykonujemy histogramy, a nast�pnie normalizujemy. Zastan�wmy si� nad stworzeniem modelu:

Co to jest P (zwyk�y, srebrny) i co to jest P (antyczny, z�oty)? Je�li oblicz� wszystkie parametry, to sko�cz�. Czy ma znaczenie, jak du�y jest sklep z bi�uteri� i ilu klient�w jest tam? je�li zbudujemy model, mo�emy go u�y� w ma�ym sklepie lub bardzo du�ym sklepie. Je�li dane s� ogromne, m�j model b�dzie znacznie bardziej wytrzyma�y. W danych nie ma czego� takiego jak z�o�ono��, mo�emy mie� z�o�ono�� w modelu, ale nie w danych. Ilekro� my�limy o stworzeniu modelu dla KDE, musimy zada� sobie kilka pyta�:

• Ile tu jest parametr�w?
• Ile jest wolnych parametr�w?
• Czy mamy jakie� ograniczenia?

W tym przyk�adzie mamy 9 (3 * 3) parametr�w, a ograniczenie polega na tym, �e powinny si� sumowa� do jednego. Zatem wolne parametry to 8 (liczba parametr�w - liczba ogranicze�) (9-1).
Wolny parametr: Aby zrozumie� wolny parametr, pozw�l mi wzi�� przyk�ad rzucania monet�. Je�li chc� oszacowa� Prawdopodobie�stwa, wystarczy zna� prawdopodobie�stwo G�owy. Nie musz� zna� prawdopodobie�stwa ogon�w, poniewa� wiemy, �e P (ogon) + P (g�owa) r�wna 1. Wi�c gdy mamy ograniczenie, liczba wolnych parametr�w zmniejsza si�. Wi�c mog� obliczy�

P (tail) = 1- P (head).

Ograniczenie: Je�li rzucisz sze�ciostronn� kostk�: Prawdopodobie�stwo uzyskania 1: 1/6, Prawdopodobie�stwo uzyskania 2: 1/6, ..., Prawdopodobie�stwo uzyskania 6: 1/6. Oznacza to, �e wszystkie sze�� prawdopodobie�stw powinno sumowa� si� do 1. jest to ograniczenie. Zrozum prawdopodobie�stwo oblicze�: je�li jeste� osob�, kt�ra martwi si� wszystkimi rzeczami, kt�re dziej� si� wok� ciebie, u�ywasz wsp�lnego prawdopodobie�stwa. (Niepok�j) Je�li jeste� osob�, kt�ra wcale nie martwi si� o nic wok� ciebie, u�ywasz prawdopodobie�stwa. (Depresja). Wsp�lne prawdopodobie�stwo (zak�ada, �e wszystko jest skorelowane): M = M1M2 ... Mn Przybli�one prawdopodobie�stwo (zak�ada, �e wszystko jest niezale�ne): M = M1 + M2 + ... Mn. W pierwszym przypadku jest zbyt skomplikowany, a w drugim jest tak prosty, �e nie mo�na tego nawet u�y� w uczeniu maszynowym. Sztuk� uczenia maszynowego jest znalezienie odpowiedniego modelu z�o�ono�ci. Wyobra� sobie, �e kto� zosta� poproszony o sprawdzenie, kt�re miasto jest preferowane dla os�b starszych w Indiach, i zebra�e� nast�puj�ce informacje, takie jak wiek, doch�d, wykszta�cenie , poziom, ruch, zanieczyszczenie, temperatura itp. w r�nych miastach. Teraz musimy odpowiedzie� na pytania : Jak Bangalore, je�li chodzi o zanieczyszczenie, wypada w por�wnaniu z Delhi? A co z ruchem drogowym? Czy preferencje miasta zale�� od wieku lub dochod�w? Oszacowanie g�sto�ci j�dra w takich sytuacjach jest przydatne. We�my kolejny przyk�ad: w wywiadzie mened�er chce wybra� tych, kt�rzy s� bardzo dobrzy w kodowaniu, da� zadanie ludziom i wyja�ni� metodologi�, kt�r� nale�y zastosowa�. Zebra� czas po�wi�cony na wykonanie tego zadania w minutach. Po utworzeniu histogramu i obserwacji wykresu mo�emy zrozumie�, jak wielu programist�w zajmuje 15-20 minut wykonanie zadanie. Oznacza to, �e je�li komu� zajmuje wi�cej ni� 40 minut (warto�� odstaj�ca), mo�emy powiedzie�, �e nie nadaj� si� do pracy programisty.

STUDIUM PRZYPADKU

Zrozummy przypadek cukrzycy, w kt�rym niewielu kobietom w ci��y podano glukoz� doustnie, a warto�� glukozy w osoczu zebrano po godzinie, aby sprawdzi�, czy kobieta ma problem z cukrzyc� wywo�an� ci��, czy nie? Zebrano �redni� i odchylenie standardowe "OGTT" i musimy utworzy� wykresy g�sto�ci. Z tego wynika, �e w tym zestawie danych przypadki cukrzycy s� zwi�zane z wy�szym poziomem "OGTT". Zostanie to wyja�nione na podstawie wykres�w funkcji szacowanej g�sto�ci. Pokazuje szacunkowe g�sto�ci p (OGTT | cukrzyca = 1), p(OGTT | cukrzyca = 0) i p (OGTT). Szacunki g�sto�ci s� szacunkami g�sto�ci j�dra z wykorzystaniem j�dra Gaussa. Oznacza to, �e umieszczona jest funkcja g�sto�ci Gaussa w ka�dym punkcie danych, a suma funkcji g�sto�ci jest obliczana w ca�ym zakresie danych. Funkcja j�dra okre�la kszta�t wypuk�o�ci, a szeroko�� okna h okre�la ich szeroko��.

# Krok 1: Ustaw katalog roboczy i odczytaj dane
setwd('D:/R data')
Diabdata <- read.csv("Diab.csv", header=T)
# Krok 2: Utw�rz wymagane obiekty z danych Diab
OGTT <- Diabdata[, 'OGTT']
d0 <- Diabdata[, 'Diabetic'] == 'No'
d1 <- Diabdata[, 'Diabetic'] == 'Yes'
# Krok 3: Utw�rz wykres g�sto�ci
plot(density(OGTT[d0]),bty="n",lwd=2, col='blue', xlim=c(10,250),
xlab="Oral Glucose Tolerance Test(OGTT)", ylab='estimate p(OGTT)',
main="Distribution of people by OGTT")
lines(density(OGTT[d1]),col="#FFCCCC")
#Krok 4: Upi�kszanie fabu�y:
# Wybierz i dodaj kod koloru HTML, kt�ry wygl�da na przezroczysty na wydruku
polygon(density(OGTT),col="#FFCCCC")
#Dodaj lini� dla �redniej
abline (v = mean(OGTT))
#Dodaj szersz� i ciemnoszar� przerywan� lini� dla �rodkowej
abline (v = median(OGTT), lwd = 2, lty = 3, col = "# 999999")

KROK 11

Regresja

WPROWADZENIE

Analiza regresji jest technik� statystyczn� stosowan� do wnioskowania o wielko�ci i kierunku mo�liwej zale�no�ci przyczynowo-skutkowej mi�dzy obserwowanym wzorem a zmiennymi, kt�re maj� wp�yw na obserwowany wz�r. Regresja powie ci, czy zwi�zek istnieje? To analityk decyduje, czy istnieje zwi�zek przyczynowy, czy nie. Statystyka - jest to wnioskowanie statystyczne. To (regresja) jest podej�ciem matematycznym, a wszystkie zmienne wp�ywaj�ce na wz�r s� losowymi pr�bkami z populacji bazowej. Wielko�� - Wielko�� wp�ywu, Kierunek - Przyczyny dodatnie lub ujemne - Zwi�zek przyczynowo-skutkowy - np. wielko�� opad�w musi wp�ywa� na uprawy , ale plon nie wp�ywa na opady deszczu.
Studium przypadku: Zacznijmy od problemu, pracujesz dla firmy ubezpieczeniowej i chcesz zrozumie�, co powoduje ofiary �miertelne na autostradach, aby pom�c w odpowiednim ustalaniu premii. Zaczynamy od zastanowienia si� nad mo�liwymi czynnikami wp�ywaj�cymi na ofiary �miertelne. Alkohol, miesi�c, kierowcy, zatory, co jeszcze?. Mo�e by� wiele innych przyczyn ofiar �miertelnych na drogach. Bardzo trudno jest przeanalizowa� wszystkie mo�liwe ofiary �miertelne w ka�dym kraju w populacji �wiatowej. Za��my, �e postanowili�my gromadzi� dane, kt�re s� �atwo dost�pne. Uda�o nam si� uzyska� zestaw danych, kt�ry zawiera:

• Liczba ofiar �miertelnych miesi�cznie
• Czy dzie� by� weekendem czy dniem tygodnia?
• Liczba licencjonowanych kierowc�w
• Liczba wypadk�w pod wzgl�dem miesi�ca
• Liczba mil przejechanych pojazd�w na mil� drogi (zat�oczenie)
• Kierowcy pod wp�ywem alkoholu lub nie

Teraz, korzystaj�c z tych danych, chcemy przeanalizowa� zwi�zek mi�dzy dost�pnymi zmiennymi a ofiarami �miertelnymi, aby zaproponowa� sposoby ustalania premii uwzgl�dniaj�ce czynniki, kt�re potencjalnie wp�ywaj� na ofiary �miertelne. Jakie s� mo�liwe sposoby oceny relacji? Mo�emy u�y� wizualizacji graficznych lub korelacji.

DLACZEGO REGRESJA?

Do tego problemu mo�na zastosowa� techniki regresji, aby zrozumie� wp�yw dost�pnych zmiennych na zgony. Zalet� stosowania techniki regresji jest to, �e dzi�ki technice regresji mo�emy oceni� wp�yw ka�dego czynnika, bior�c pod uwag� wp�yw innych czynnik�w, r�wnie� wzi�tych jednocze�nie. Po pierwsze, je�li uwa�amy, �e na �mier� ma wp�yw kilka czynnik�w, to zasadniczo postulujemy, �e ofiary �miertelne s� funkcj� zidentyfikowanych czynnik�w:

Matematycznie jest reprezentowany w nast�puj�cy spos�b: - Zgony = f (kierowcy, zatory)

Gdy dowiemy si�, �e wiele czynnik�w ma wp�yw na liczb� ofiar �miertelnych, musimy wiedzie�, w jaki spos�b liczba kierowc�w i zatory maj� wp�yw na liczb� ofiar �miertelnych. Rozwi�zaniem naszego problemu jest regresja. Na razie ograniczmy si� do przypadku, w kt�rym jeste�my martwi�c si� tylko o jedn� zmienn�, kt�ra wp�ywa na ofiary �miertelne w spos�b liniowy. Mamy wi�c hipotez�, �e liczba zgon�w ro�nie wraz ze wzrostem liczby licencjonowanych kierowc�w.

Zgony = f (kierowcy), gdzie f jest dodatnie

Prosta regresja liniowa: Prosty model regresji liniowej jest zwykle oznaczany przez:

Y = β0 + β1X + e Gdzieβ0 = punkt przeci�cia, β1 = nachylenie, e = b��d. Musimy oszacowa� bety, aby�my mogli zrozumie� zwi�zek mi�dzy Y i X.

Zmienna zale�na: Y: Zmienne prognozowane: Zmienna, kt�rej zachowanie hipotetycznie mo�emy wyja�ni� lub na kt�re wp�yw maj� inne czynniki.
Niezale�ne zmienne: X: przewidywane predyktory wp�ywaj� na zmienn� zale�n�.
Wsp�czynnik (wsp�czynniki) beta: oszacowanie wielko�ci wp�ywu zmian predyktora (�w) na przewidywan� zmienn�.
B��d: (e): Wp�yw nieobserwowanych zmiennych na zmienn� zale�n� zwykle obliczany jako r�nica mi�dzy przewidywan� warto�ci� Y przy szacowanej funkcji regresji a rzeczywist� warto�ci� Y.

• Je�li B = 0, w�wczas Y jest sta��, wi�c nie ma zwi�zku mi�dzy Y i X, poniewa� niezale�nie od zmiany w X, Y si� nie zmienia.
• Co si� stanie, gdy punkt przeci�cia = 0 ?. Linia regresji przechodzi przez Pocz�tek. (X α Y)
• Co si� stanie, gdy Nachylenie = 0 . Linia regresji b�dzie r�wnoleg�a do osi X (brak zale�no�ci mi�dzy zmienn� zale�n� i zmienn� niezale�n�).

Wracaj�c do przyk�adu ofiar �miertelnych, je�li za�o�ymy na chwil�, �e mamy tylko dane dotycz�ce liczby kierowc�w, a w�wczas naszym modelem regresji by�oby, Zgony = β0 + β1 * Liczba kierowc�w + e Je�li oszacujemy warto�� β, b�dziemy mogli zrozumie�, jak silny wp�yw ma liczba kierowc�w na liczb� ofiar �miertelnych, i przyjrze� si�, co mo�na zrobi�, aby zmniejszy� liczb� ofiar �miertelnych. Istnieje wiele sposob�w szacowania wsp�czynnik�w beta. Na razie skupimy si� na jednym z najbardziej intuicyjnych: zwyk�ej metdoa najmniejszych kwadrat�w.

REGRESJA ZWYK�EJ METODY NAJMNIEJSZYCH KWADRAT�W (OLS)

Technika regresji metod� najmniejszych kwadrat�w zwyk�ych szacuje wsp�czynniki zmiennych, kt�re maj� wp�yw na zmienn� b�d�c� przedmiotem zainteresowania, identyfikuj�c lini�, kt�ra minimalizuje sum� kwadrat�w r�nic mi�dzy punktami na linii szacowanej i rzeczywistymi warto�ciami zmiennej niezale�nej
• Wsp�czynniki: Bety (β1 i β0)
• Minimalizuje: najmniej (warto��)
• Suma r�nic kwadratowych: Kwadrat reszt
• Szacowana linia: Linia regresji
• Rzeczywiste warto�ci: warto�ci w zestawie danych

Oczywi�cie mo�emy dopasowa� wiele linii prostych, z kt�rych ka�da pokryje niekt�re punkty. Poniewa� linia prosta nie mo�e trafi� we wszystkie punkty, jednym ze sposob�w wyboru linii jest zidentyfikowanie linii, kt�ra wyja�ni�aby wi�kszo�� zmian w Y, lub innymi s�owy, ma najmniejszy b��d. Zwyk�a regresja najmniejszych kwadrat�w znajduje t� lini�, patrz�c na reszty (lub r�nic� mi�dzy punktami na ka�dej linii a rzeczywistym Y) i minimalizuj�c sum� ich kwadrat�w. Resztki wychwytuj� wychwytuj� b��d w szacowanej linii (r�nica mi�dzy szacowan� lini� a rzeczywistymi warto�ciami). Po oszacowaniu linii ?0 jest przeci�ciem tej linii, podobnie ?1 jest nachyleniem tej linii. Jak w rzeczywisto�ci oceniamy "najlepsz�" lini�? Mo�emy by� pewni, �e bior�c pod uwag� dane, linia szacowania zwyk�ego najmniejszego kwadratu minimalizuje b��dy bardziej ni� jakakolwiek inna linia, kt�r� wybieramy. Czy jest jaka� linia prosta, kt�ra mo�e trafi� we wszystkie punkty?
Oszacowania OLS: regresja zwyk�ych najmniejszych kwadrat�w znajduje t� lini�, patrz�c na resztki (lub r�nic� mi�dzy punktami na ka�dej linii a rzeczywistym Y) minimalizuj�c sum� ich kwadrat�w. Dlaczego suma kwadrat�w?: Aby przezwyci�y�, dodatnie i ujemne r�nice matematyczne, minimalizujemy

za pomoc� rachunku r�niczkowego otrzymamy

Oszacowania te nazywane s� zwyk�ymi oszacowaniami najmniejszych kwadrat�w. A linia prosta reprezentowana przez Y = ?0 + ?1X b�dzie tutaj lini� najmniej kwadratow�. Szacunki te nazywane s� lini� szacunkow� zwyk�ych najmniejszych kwadrat�w, kt�ra minimalizuje b��dy bardziej ni� jakakolwiek inna linia, kt�r� wybieramy. Po oszacowaniu wsp�czynnik�w otrzymujemy takie r�wnanie: �mier� = Szacunek przechwytywania + Wsp�czynnik Beta * Liczba kierowc�w. Pami�taj, �e jest to najlepiej dopasowana linia, ale ta linia nie obejmie ka�dego punktu na wykresie punktowym. Je�li obliczamy warto�ci ofiar �miertelnych na podstawie rzeczywistych warto�ci liczby kierowc�w, kt�re widzimy w danych, obliczamy liczb� "przewidywanych" zgon�w. R�nica mi�dzy przewidywan� warto�ci� ofiar �miertelnych a rzeczywist� warto�ci� ofiar �miertelnych w danych dla ka�dej warto�ci liczby kierowc�w to reszty. Korzystaj�c z zestawu danych o ofiarach �miertelnych, uruchom prost� regresj� i znajd� punkt przeci�cia (A) i nachylenie (B). Dlatego teraz szacowana linia regresji b�dzie, Zgony = A + B * Liczba wsp�czynnik�w beta kierowc�w: Dla ka�dego wzrostu liczby kierowc�w w jednostce spodziewamy si� wzrostu liczby ofiar �miertelnych o podan� liczb�. Oznacza to, �e dla wzrostu liczby kierowc�w o 100 nie spodziewamy si� wzrostu liczby ofiar �miertelnych o t� liczb�. Znak dodatni na wsp�czynniku wielu kierowc�w oznacza pozytywny zwi�zek mi�dzy liczb� kierowc�w a ofiarami �miertelnymi. P-Warto��: H0 - Brak wp�ywu nie. kierowc�w (o� X) w przypadkach �miertelnych (o� Y) Warto�� P-Warto��: Je�li warto�� p wynosi < 0,05, w�wczas wsp�czynnik jest znacz�cy na poziomie 5%. Ni�sza warto�� p oznacza wi�ksze prawdopodobie�stwo odrzucenia hipotezy H0. Je�li warto�� P jest znacznie mniejsza ni� 0,05, odrzucamy H0. Wreszcie mo�emy stwierdzi�, �e �aden ze sterownik�w nie ma znaczenia statystycznego wp�yw na ofiary �miertelne. Chocia� r�wnanie regresji jest najlepszym mo�liwym r�wnaniem linii prostej, jak oceniamy skuteczno�� ca�ego modelu? Jednym ze sposob�w jest spojrzenie na miar� "Wyja�nialno�ci", czyli na ile zmiennej zale�nej Y wyja�nia X? Lub, lepiej to uj��, ile wariancji w Y wyja�nione przez X? Matematycznym sposobem na obliczenie tego jest:

Gdzie

Oblicz na przyk�ad warto�� R-Square, je�li R2 = 0,9399, oznacza to, �e 93,99% zmiany zmiennej �miertelno�ci jest wyja�nione zmian� liczby zmiennych kierowcy. Im wy�sza warto�� R2, tym wi�ksza zmienno�� zmiennej zale�nej (Y) t�umaczy si� zmienno�ci� zmiennej niezale�nej (X). Zbuduj model z najlepsz� mo�liw� R2 z danymi, kt�re masz, wypr�bowuj�c r�ne kombinacje zmiennych, kt�re masz. R2 jest jedynym sposobem sprawdzania poprawno�ci modelu, ale nie jedynym sposobem sprawdzania poprawno�ci modelu. R2 r�wnie� ro�nie wraz z dodawaniem zmiennych, istotnych lub nie, wi�c lepiej u�y� skorygowanego pomiaru R2. Skorygowany R2: Skorygowano R2 patrz�c na wp�yw znacz�cych zmiennych w modelu. Nawet je�li masz nieistotne zmienne w modelu, R2 wzro�nie, ale skorygowany R2 p�jdzie w g�r� tylko model zawiera znacz�ce zmienne.

REJESTRACJA WIELU REGRESJI

Przejd�my teraz do przypadku, w kt�rym spodziewamy si�, �e wiele zmiennych b�dzie mia�o wp�yw na okre�lon� zmienn� zale�n�. Tak jest wyra�nie w prawdziwym �yciu. Dop�ki oczekujemy liniowej zale�no�ci mi�dzy ka�d� zmienn� niezale�n� a zmienn� zale�n�, mo�emy u�ywa� technik najmniejszych kwadrat�w, kt�ra pozwala uzyska� estymatory wsp�czynnik�w beta. Ponownie oszacowaliby�my lini� w wielu wymiarach, kt�ra zminimalizowa�aby sum� kwadrat�w reszt. Zastan�wmy si� nad trzema zmiennymi, kt�re b�d� mia�y wp�yw na zgony: zat�oczenie, kierowca i alkohol. Zatory: jak zat�oczone s� drogi miejskie? Kierowcy: Liczba licencjonowanych kierowc�w w mie�cie. Alkohol: 0 oznacza, �e kierowca nie pi� alkoholu, a 1 oznacza, �e kierowca spo�ywa� alkohol. R�wnanie oszacowania OLS by�oby nast�puj�ce:

Zgony = β0 + β1 * Zatory + β2 * Kierowcy + β3 * Alkohol + e

Teraz musimy oszacowa� 4 wsp�czynniki Beta: ?0, ?1, ?2 i ?3. Zastosowaliby�my to samo podej�cie OLS, aby zminimalizowa� sum� kwadrat�w reszt w wielu wymiarach. Wsp�czynnik kierowcy zmieni si� ze wzgl�du na to, �e teraz kontrolujemy r�wnie� wp�yw zator�w i alkoholu. Je�li celem jest przewidzenie wp�ywu sterownik�w, nie uwzgl�dniamy zmiennej modelu przeci��enia w modelu. W takim przypadku mo�emy upu�ci� zmienn� przeci��aj�c� i ponownie uruchomi� model z tylko istotnymi zmiennymi.

ZBUDUJ MODEL I WALIDUJ GO NA PODANYM PLIKU WYPADK�W

Krok 1: Zainstaluj i za�aduj wymagane pakiety:
library(ggplot2)
library(caret)
library(lattice)
Krok 2: Za�aduj dane
Fataldata =read.csv(file="D:\\R data\\Fatalities.csv", header=TRUE, sep=",")
Krok 3: Przegl�daj dane
str (Fataldata)
fix (Fataldata)
Krok 4: Przygotuj dane
4.1 Konwersja zmiennych kategorialnych na czynniki
Fataldata $ Weekend = as.factor (Fataldata $ Weekend)
Fataldata $ Alcohol = as.factor (Fataldata $ Alcohol)
Fataldata $ Month = wsp�czynnik as (Fataldata $ Month)
4.2 Usu� zmienn� zale�n�
Fataldata_a = subset(Fataldata, select = -c(Deaths))
4.3 Zidentyfikuj zmienne numeryczne
numericdata <- Fataldata_a [sapply (Fataldata_a, is.numeric)]
4.4 Obliczanie korelacji
descrCor <- cor (numericdata)
highlyCorrelated <- findCorrelation(descrCor, cutoff=0.4)
4.5 Zidentyfikuj nazwy zmiennych wysoce skorelowanych zmiennych
highlyCorCol <- colnames(numericdata)[highlyCorrelated]
4.6 Wydrukuj wysoce skorelowane atrybuty
highlyCorCol
4.7 Usu� wysoce skorelowane zmienne i utw�rz nowy zestaw danych
dat3 <- Fataldata[, -which(colnames(Fataldata) %in% highlyCorCol)]
dim(dat3)
str(dat3
Krok 5: Zbuduj model regresji liniowej
fit0 = lm(Deaths ~ Drivers, data=Fataldata)
fit2 = lm(Deaths ~ Weekend, data=Fataldata)
fit3 =lm(Deaths ~ Weekend+Drivers, data=Fataldata)
fit =lm(Deaths ~ ., data=Fataldata)
Krok 6: Sprawd� wydajno�� modelu
summary(fit)
summary(fit0)
6.1 Wydzielanie wsp�czynnik�w
summary(fit)$coeff
6.2 Wyodr�bnianie warto�ci Rsquared
summary(fit)$r.squared
6.3 Wyodr�bnianie Adj. Warto�� Rsquared
summary(fit)$adj.r.squared
6.4 Krokowy wyb�r na podstawie AIC
library(MASS)
step <- stepAIC(fit, direction="both")
summary(step)
6.5 Selekcja wsteczna na podstawie AIC
step <- stepAIC(fit, direction="backward")
summary(step)
6.6 Wyb�r do przodu na podstawie AIC
step <- stepAIC(fit, direction="forward")
summary(step)
6.7 Krokowy wyb�r za pomoc� BIC
n = dim(dat3)
stepBIC = stepAIC(fit,k=log(n))
summary(stepBIC)
Krok 7: Diagnostyka modelu

Musimy sprawdzi� poprawno�� g��wnych za�o�e� modelu regresji liniowej. Odnosi si� to do rozk�adu termin�w b��d�w modelu, tj. Jednorodnej wariancji, normalno�ci i niezale�no�ci. Analiza zaobserwowanych pozosta�o�ci mo�e pom�c w ocenie prawdopodobie�stwa tego za�o�enia. Sprawdzanie nietypowych i wp�ywowych obserwacji to kolejna cz�� diagnostyki regresji.
Sprawdzanie warto�ci odstaj�cych: Pakiet samochodowy zawiera test warto�ci odstaj�cych Bonferroni, kt�ry po prostu oblicza i ocenia warto�ci odstaj�ce.

library(car)
outlierTest(stepBIC) # Outliers - Bonferonni test

Sprawdzanie normalno�ci: Histogramy i wykresy ramkowe s� r�wnie� odpowiednie do sprawdzania normalno�ci, wraz ze statystykami opisowymi, takimi jak na przyk�ad sko�no�� i kurtoza.

hist(residuals(fit))
boxplot(residuals(fit))
# Normalno�� reszt: # wykres qq dla reszt studenckich
qqPlot (fit, main = "QQ Plot")

Test normalno�ci Shapiro-Wilksa: #Normalno�� reszt (powinna wynosi�> 0,05). Hipotez� zerow� jest to, �e reszty maj� rozk�ad normalny. Warto�� p statystyki testowej jest w tym przyk�adzie du�a. Wynika z tego, �e hipoteza zerowa nie zosta�a odrzucona.

res=residuals(stepBIC,type="pearson")
shapiro.test(res)
Autokorelacja: statystyka Durbina - Watsona jest statystyk� testow� stosowan� do wykrywania obecno�ci autokorelacji (relacji mi�dzy warto�ciami oddzielonymi od siebie okre�lonym op�nieniem czasowym) w resztach (b��dach prognozowania) z analizy regresji. Warto�� p wskazuje �e nie ma dowod�w na skorelowane b��dy, ale wyniki nale�y postrzega� sceptycznie ze wzgl�du na pomini�cie brakuj�cych warto�ci.

# Test na b��dy autokorelacji
durbinWatsonTest (stepBIC)

Wielokoliniowo��: Sprawdzamy VIF wszystkich zmiennych w celu przetestowania wielokoliniowo�ci. Wsp�czynniki inflacji wariancji (VIF) mierz�, o ile zawy�ona jest wariancja szacowanych wsp�czynnik�w regresji w por�wnaniu do tego, kiedy zmienne predykcyjne nie s� liniowo powi�zane. VIF jest u�yteczny do opisania, jak wiele wielokoliniowo�ci (korelacja mi�dzy predyktorami) istnieje w analizie regresji. Wielokoliniowo�� jest problematyczna, poniewa� mo�e zwi�ksza� wariancj� wsp�czynnik�w regresji, czyni�c je niestabilnymi i trudnymi do interpretacji. Mo�emy u�y� nast�puj�cych wytycznych do interpretacji VIF: Je�li VIF jest mniejsza lub r�wna 1, mo�emy powiedzie�, �e predyktory nie s� skorelowane, Je�li VIF wynosi od 1 do 5 predyktor�w s� umiarkowanie skorelowane, a je�li VIF jest wi�kszy ni� 5, mo�emy wyci�gn�� wniosek, �e predyktory s� wysoce skorelowane.

# Oce� wielokoliniowo��
vif (stepBIC) # zmienno�� czynnik�w inflacyjnych

Homoscedastyczno�� (sta�a wariancja): Wa�nym za�o�eniem regresji liniowej jest brak heteroscedastyczno�ci reszt. Oznacza to, �e wariancja reszt nie powinna rosn�� wraz z dopasowanymi warto�ciami zmiennej odpowiedzi. utynowo sprawdza si� heteroscedastyczno�� reszt po zbudowaniu modelu regresji liniowej. Poniewa� chcemy sprawdzi�, czy w ten spos�b zbudowany model nie jest w stanie wyja�ni� jakiego� wzorca w zmiennej odpowiedzi (Y), kt�ra ostatecznie pojawia si� w resztkach. Spowodowa�oby to nieefektywny model regresji, kt�ry m�g�by dawa� dziwne prognozy p�niej, kiedy faktycznie u�ywamy tego modelu. Istnieje kilka test�w, kt�re mo�emy wykorzysta� do sprawdzenia obecno�ci lub braku heteroscedastyczno�ci 1. Test Breusha-Pagana i 2. Test NCV.

Breush Pagan Test
HS_test1 <- bptest (fit) # Breusch-Pagan test
Test NCV
HS_test2 <- ncvTest (fit) # Niesta�y test wyniku wariancji

Zar�wno HS_test1, jak i HS_test2 maj� warto�� p mniejsz� ni� poziom istotno�ci 0,05, dlatego mo�emy odrzuci� hipotez� zerow�, �e wariancja reszt jest sta�a i wnioskowa�, �e heteroscedastyczno�� jest rzeczywi�cie obecna. Mo�emy rozwi�za� ten problem za pomoc� dw�ch metod:

1. Przebuduj model za pomoc� nowych predyktor�w. 2. Wykonaj transformacj� zmienn�, tak� jak transformacja Box-Cox.
Transformacja Box-Cox: Transformacja Box-Cox jest matematyczn� transformacj� zmiennej, kt�ra przybli�a j� do rozk�adu normalnego. Przeprowadzenie przekszta�cenia skrzynkowego zmiennej Y cz�sto rozwi�zuje problem heteroscedastyczno�ci.

Death_Boxcox <- caret :: BoxCoxTrans (Fataldata $ Deaths)
print (Death_Boxcox)

Model tworzenia transformowanej zmiennej box-Cox jest gotowy. Zastosujmy go teraz na Fatalata $ Deaths i do��czmy do nowej ramki danych. Do��cz przekszta�con� zmienn� do Fataldata.

Fataldata <- cbind(Fataldata, Deaths_new=predict(Death_Boxcox, Fataldata$ Deaths))

Przekszta�cone dane dla naszego nowego modelu regresji s� gotowe. Zbudujmy model i sprawd�my heteroscedastyczno��.

Fatal_bc <- lm (Deaths_new ~., Data = Fataldata)

Ponownie wykonaj test Breuscha-Pagana, aby sprawdzi�, czy rozwi�zano problem heteroscedastyczno�ci.

bptest (Fatal_bc)

Poniewa� uzyskana warto�� P jest wi�ksza ni� 0,05, mo�emy powiedzie�, �e reszty s� teraz homoscedastyczne.

Obserwacje wp�ywowe: Obserwacja wp�ywowa to obserwacja do oblicze� statystycznych, kt�rych usuni�cie z zestawu danych znacz�co zmieni�oby wynik oblicze�. Wp�ywow� obserwacj� definiuje si� jako obserwacj� zmieniaj�c� nachylenie z linii. Punkty wp�ywaj�ce maj� zatem du�y wp�yw na dopasowanie modelu. Musimy wi�c sprawdzi� wp�ywowe obserwacje w naszym zestawie danych. Miara odleg�o�ci Cooka to po��czenie efektu resztkowego i d�wigni. celem pomiaru odleg�o�ci Cooka jest wykrycie wp�ywowych obserwacji i wykrycie ��cznego wp�ywu warto�ci odstaj�cych, zar�wno w zmiennej odpowiedzi Y, jak i zmiennych wyja�niaj�cych X.

# Wykres D Cooka: zidentyfikuj warto�ci D> 5 / (n-k-1)
cutoff <- 5/((nrow(Fataldata)-length(fit$coefficients)-2))
plot(fit, which=5, cook.levels=cutoff)
# Wzgl�dne znaczenie
library(relaimpo)
calc.relimp(stepBIC)
# Patrz przewidywana warto��
pred = predict(stepBIC,Fataldata)
# Patrz Rzeczywista vs. Przewidywana warto��
finaldata = cbind (Fataldata, pred)
print(head(subset(finaldata, select = c(Deaths,pred)))
Krok 8: Obliczanie RMSE
rmse <- sqrt (mean ((Fataldata $ Deaths - pred) ^ 2))
print (rmse)
# Obliczanie Rsquared r�cznie
y = Fataldata[,c("Deaths")]
R.squared = 1 - sum((y-pred)^2)/sum((y-mean(y))^2)
print(R.squared)
#Calculating Adj. Rsquared r�cznie
n = dim(Fataldata)[1]
p = dim(summary(stepBIC)$coeff)[1] - 1
adj.r.squared = 1 - (1 - R.squared) * ((n - 1)/(n-p-1))
print(adj.r.squared)

KROK 12

Regresja logistyczna

WPROWADZENIE

Wiele problem�w badawczych ma dychotomiczny wynik, niezale�nie od tego, czy klient odejdzie, czy nie, czy po�yczka zostanie sp�acona czy niesp�acona, czy pacjent ma raka czy nie, i tak dalej. zwykle pytania te by�y rozwi�zywane za pomoc� zwyk�ej regresji metod� najmniejszych kwadrat�w (OLS) lub liniowej analizy funkcji dyskryminacyjnej. Jednak okazuje si�, �e nie s� one idealne do radzenia sobie z dychotomicznymi wynikami ze wzgl�du na ich �cis�e za�o�enia statystyczne, takie jak liniowo��, normalno�� i ci�g�o�� regresji OLS i normalno�� wielowymiarow� z jednakowymi wariancjami i kowariancj� dla analizy dyskryminacyjnej. Regresja logistyczna rozszerza idee regresji liniowej na sytuacj�, w kt�rej zmienna zale�na Y jest kategoryczna. Mo�emy pomy�le� o zmiennej kategorycznej jako podzia� obserwacji na klasy. Na przyk�ad, je�li Y oznacza, czy dany klient prawdopodobnie kupi produkt (1), czy nie kupi (0), mamy zmienn� kategoryczn� z 2 kategoriami lub klasami (0 i 1). Hipoteza regresji liniowej mo�e by� znacznie wi�ksza ni� 1 lub znacznie mniejsza ni� zero, a zatem pocz�tki staj� si� trudne. W regresji logistycznej wykonujemy dwa kroki: 1. Znajd� szacunki prawdopodobie�stwa przynale�no�ci do ka�dej klasy. Przypadek, gdy Y = 0 lub 1, prawdopodobie�stwo przynale�no�ci do klasy 1, P (Y = 1) i 2. U�yj warto�ci odci�cia dla tych prawdopodobie�stw, aby sklasyfikowa� ka�dy przypadek w jednej z klas. Na przyk�ad w przypadku binarnym warto�� graniczna wynosz�ca 0,5 oznacza, �e przypadki o szacowanym prawdopodobie�stwie P (Y = 1)> 0,5 s� klasyfikowane jako nale��ce do klasy 1, natomiast przypadki o P (Y = 0) <0,5 s� klasyfikowane jako nale��ce do klasy 0. Warto�� graniczn� nie trzeba ustawia� na 0,5. Kiedy wydarzenie w pytaniu jest zdarzeniem o niskim prawdopodobie�stwie, wy�sza ni� �rednia warto�� odci�cia, chocia� poni�ej 0,5 mo�e wystarczy� do klasyfikacji. Decyzja o warto�ci granicznej to raczej "sztuka" ni� nauka. Analiza regresji logistycznej stosowana do przewidywania zmiennych jako�ciowych (dwumianowa, porz�dkowa) przy u�yciu kombinacji predyktor�w ci�g�ych i dyskretnych. Regresja logistyczna jest stosowana, gdy zmienna zale�na: zmienna kategoryczna i zmienna niezale�na maj� charakter ci�g�y lub kategoryczny. Regresj� logistyczn� stosuje si�, gdy cel badawczy koncentruje si� na tym, czy zdarzenie mia�o miejsce, czy nie, a nie wtedy, gdy wyst�pi�o, tj. Nie wykorzystano informacji o przebiegu czasu. Tutaj zamiast budowa� model predykcyjny dla "Y (Response)", podej�cie modeluje Log Odds (Y); st�d nazwa Logistic lub Logit.

Przyk�ady:

• Domy�lnie - karta kredytowa
• Odpowied� - Direct Mailer
• Przej�cie - klient
• Polecam - zakup

Wiele rodzaj�w regresji logistycznej

Log binarny:
• U�ywany, gdy zmienna odpowiedzi jest binarna lub dychotomiczna
• Ma tylko 2 wyniki, np. Dobry v/s Z�y, Tak v/s Nie

Logizm wielomianowy:

• U�ywane, gdy zmienna odpowiedzi ma wi�cej ni� 2 wyniki, oraz
• Rezultat�w nie mo�na zam�wi� w �aden spos�b, np. wyb�r napoju, wyb�r miejsca turystycznego.

Logit zam�wiony:

• U�ywane, gdy zmienna odpowiedzi ma wi�cej ni� 2 wyniki, oraz
• Wyniki mo�na uporz�dkowa� w znacz�cy spos�b, np. Wysoka / �rednia / niska, mocno Zgadzam si� / Zgadzam si� / Nie zgadzam si� / Zdecydowanie si� nie zgadzam

Studium przypadku: Rozwa�my pr�bk� klient�w, kt�rzy zostali nagrodzeni przez bank kredytem mieszkaniowym. Chcemy stworzy� model, kt�ry ocenia wp�yw wielu czynnik�w na kwalifikowalno�� kredytu mieszkaniowego.

Dost�pne s� nast�puj�ce dane:

• ID
• Wiek wnioskodawcy
• P�e�
• Do�wiadczenie w latach
• Miesi�czny doch�d w tysi�cach
• Rozmiar rodziny
• Poziom edukacji
• Loan_Sanctioned lub nie

Jednym ze sposob�w oceny wp�ywu czynnik�w na kwalifikowalno�� osobistej po�yczki jest zbudowanie modelu regresji

• Kwalifikowalno�� po�yczki = f (doch�d, wiek, wykszta�cenie)
Jakie by�oby r�wnanie OLS dla takiego modelu regresji?

Kwalifikowalno�� (Y) = β0 + β1 * Doch�d + β2 * Wiek + β3 * Edukacja + e

DLACZEGO REGRESJA LOGISTYCZNA?

Prawdopodobie�stwo Loan_Sanction nie jest liniowe. Widzimy, �e prawie nikt nie jest ukarany po�yczk� na niskim poziomie, a prawie wszyscy s� sankcjonowani po�yczk� na wysokim ko�cu dochodu. Zmiana prawdopodobie�stwa sankcjonowania po�yczki na niskim i wysokim ko�cu dochodu jest minimalna, podczas gdy w po�owie przedzia�u zmiana prawdopodobie�stwa jest du�a. Jakie mog� by� warto�ci Y?. Je�li u�yjemy modelu regresji liniowej, przewidywane warto�ci s� nieograniczone (-∞ do +∞). Ale tutaj, w tym przypadku, warto�ci prawdopodobie�stwa s� ograniczone do 0 do 1. Jednym wzi�� dziennik.

• p / (l-p) - mo�e przyjmowa� warto�ci od 0 do,
• log (p / 1-p) mo�e przyjmowa� warto�ci od -? do +? • Matematyczn� koncepcj� le��c� u podstaw regresji logistycznej jest logit, logarytm naturalny ilorazu szans.
Co to jest "iloraz szans"?: Jest to standardowy termin statystyczny oznaczaj�cy prawdopodobie�stwo sukcesu do prawdopodobie�stwa niepowodzenia. Je�li prawdopodobie�stwo sukcesu wynosi 0,75, to iloraz szans = (0,75 / 0,25) = 3. Innymi s�owy, istnieje szansa na sukces 3:1. Przekszta�cenie od prawdopodobie�stwa do szansy jest transformacj� monotoniczn�, co oznacza, �e szanse rosn� wraz ze wzrostem prawdopodobie�stwa lub odwrotnie. Zakres prawdopodobie�stwa wynosi od 0 do 1. Zakres prawdopodobie�stwa wynosi od 0 do dodatniej niesko�czono�ci. Transformacja z kurs�w do dziennika szans jest transformacj� dziennika. Ponownie jest to monotoniczna transformacja. Oznacza to, �e im wi�ksze szanse, tym wi�kszy dziennik szans i vice versa. Dlaczego podejmujemy tyle trudu, by przekszta�ci� prawdopodobie�stwo z logarytmu szans? Jednym z powod�w jest to, �e zazwyczaj trudno jest modelowa� zmienn� o ograniczonym zakresie, na przyk�ad prawdopodobie�stwo. Ta transformacja jest pr�b� obej�cia problemu ograniczonego zasi�gu. Odwzorowuje prawdopodobie�stwo w zakresie od 0 do 1, aby rejestrowa� szanse od ujemnej niesko�czono�ci do dodatniej niesko�czono�ci. Innym powodem jest to, �e spo�r�d wszystkich niesko�czenie wielu mo�liwo�ci transformacji, log szans jest jednym z naj�atwiejszych do zrozumienia i interpretacji. Ta transformacja nazywa si� transformacj� logit.

Formularz modelu regresji logistycznej

Wz�r formularza jest zatem:

• Dodatek: log (p / 1-p) = Y = ?0 + ?1 * Doch�d
• Poj�cia mno��ce: (p / 1-p) = e ?0 * e ?1 * Doch�d
• Warto�ci Y nie s� ograniczone do 0 i 1.
• Transformacja logu ma liniowy zwi�zek z predyktorami (zmiana jednostki w X doprowadzi do sta�ej zmiany% w logY)
• Pod wzgl�dem Y: zmiana jednostki w X doprowadzi do multiplikatywnej zmiany e? w Y (mno�nik szans)
• % zmiany w przybli�eniu Y = 100 * (e ? -1) (dla ma�ych warto�ci wsp�czynnika)

Gdyby�my chcieli model pod wzgl�dem p:

Gdzie:

P - Prawdopodobie�stwo zdarzenia
β0 - parametr przechwytuj�cy (warto�� zmiennej zale�nej, gdy zmienna niezale�na (x) jest r�wna zero)
X - zbi�r zmiennych niezale�nych (predyktory)
βk jest parametrem nachylenia (zmienna niezale�na od zmiany dla zmiany jednostkowej zmiennych predykcyjnych).

ZESTAW DANYCH PO�YCZEK KREDYTOWYCH

Bank chcia� zrozumie� czynniki, kt�re wp�ywaj� na kwalifikowalno�� do kredytu mieszkaniowego, na podstawie danych historycznych o jego obecnych klientach.

Przygotowanie danych: Przygotowanie danych dla regresji logistycznej obejmuje:

• Kodowanie zmiennej odpowiedzi: Zmienna odpowiedzi (lub zmienna docelowa) b�dzie musia�a zosta� przekonwertowana na 1/0. Kod "Sankcjonowana po�yczka mieszkaniowa" jako "1" i "Odrzucona po�yczka mieszkaniowa" jako "0".
• Brakuj�ce traktowanie warto�ci - przy u�yciu logicznych regu�.
• Wykrywanie warto�ci odstaj�cych - aby upewni� si�, �e nie mamy mocno wypaczonych warto�ci.
• Wielokoliniowo�� - dwie niezale�ne zmienne nie dostarczaj� podobnych informacji.
• Transformacje zmienne - mamy znacz�c� transformacj� zmiennych w zale�no�ci od zakresu bada� i zakresu modelowania.
• Statystyka opisowa - nale�y przedstawi� podstawowe miary tendencji centralnej, aby sprawdzi�, czy do modelowania wykorzystywane s� prawid�owe dane
Partycjonowanie danych: Podziel pr�bk� na 2 podpr�bki, 1. Pr�bk� rozwojow� (szkolenie), 2. Pr�bk� walidacyjn�. Pr�bka programistyczna to pr�bka u�yta do zbudowania modelu regresji logistycznej. Pr�bka walidacyjna s�u�y do oszacowania uzyskanego z pr�bki programistycznej, kt�ra zostanie tutaj przetestowana w celu por�wnania i sprawdzenia odporno�ci modelu.
Zr�wnowa�one pr�bki: idealnie: proporcja 1 do 0 nie powinna by� mniejsza ni� 2%. Je�eli "odsetek rzadkich zdarze� wynosz�cy 1: <2% - nadpr�bka. Zachowaj rzadkie zdarzenia w pr�bce bez zmian. To sztuczne podej�cie nie zmienia nieod��cznej formy modelu. Ma wp�yw w sta�ym terminie lub punkcie przeci�cia i musi zosta� poprawiony po sfinalizowaniu modelu.
Wsp�czynnik korekcji zr�wnowa�onej pr�bki: W tym przypadku mamy posta� modelu regresji logistycznej jako

Log (pi / 1-pi) = a + blX1 + b2X2 + b3X3.

Oszacowanie parametru regresji logistycznej

Szacowanie dla logistyki: Wsp�czynniki dla r�wnania logistycznego s� szacowane przy u�yciu techniki znanej jako oszacowanie maksymalnego prawdopodobie�stwa (MLE). MLE jest popularn� metod� szacowania, poniewa� nie ma �adnych podstawowych za�o�e� dotycz�cych dystrybucji. Gdy podstawowy rozk�ad termin�w b��d�w jest normalny, oszacowania MLE s� podobne do oszacowa� OLS. OLS, podobnie jak wiele innych dystrybucji, jest szczeg�lnym przypadkiem ML

WYKONANIE MODELU REJESTRACJI LOGISTYCZNEJ

Aby oceni� wydajno�� modelu regresji logistycznej, musimy wzi�� pod uwag� kilka wska�nik�w.
1. Test wsp�czynnika wiarygodno�ci: model utworzony przez regresj� logistyczn� jest uwa�any za lepsze dopasowanie do danych, je�eli wykazuje dobre dopasowanie przy mniejszej liczbie predyktor�w. W te�cie wsp�czynnika wiarygodno�ci por�wnujemy prawdopodobie�stwo danych w pe�nym modelu z modelem z mniejsz� liczb� predyktor�w. Usuni�cie zmiennych predykcyjnych z modelu prawie zawsze powoduje s�absze dopasowanie modelu, ale konieczne jest sprawdzenie, czy zaobserwowana r�nica w dopasowaniu modelu jest statystycznie istotna. Uwa�amy, �e hipoteza zerowa (H0) utrzymuje, �e model zredukowany jest prawdziwy, a warto�� p dla og�lnej statystyki dopasowania modelu, kt�ra jest mniejsza ni� 0,05, odrzucamy hipotez� zerow�. Test wsp�czynnika prawdopodobie�stwa mo�na wykona� w R za pomoc� funkcji lrtest () z pakietu lmtest lub za pomoc� funkcji ANOVA () w bazie.

model <- glm (Loan_sanctioned ~ Wiek + Do�wiadczenie + Doch�d + Rodzina,
dane = tren_po�yczkowy, rodzina = dwumianowy)
model2 <- glm (Loan_sanctioned ~ Income + Family,
dane = tren_po�yczkowy, rodzina = dwumianowy)
anova (model, model2, test = "Chisq")
biblioteka (lmtest)
lrtest (model, model2)

Uzyskali�my warto�� znacznie wi�ksz� ni� 0,05, wi�c nie odrzucamy hipotezy zerowej i dochodzimy do wniosku, �e usuni�cie wieku i do�wiadczenia z modelu nie ma �adnego wp�ywu na wydajno�� modelu.

2. Zmienne znaczenie: U�ywamy funkcji varImp w pakiecie karetki, aby oceni� wzgl�dne znaczenie poszczeg�lnych predyktor�w w modelu, mo�emy r�wnie� spojrze� na warto�� bezwzgl�dn� statystyki t dla ka�dego parametru modelu.

biblioteka (karetka)
varImp (model)
varImp (model2)

Patrz�c na warto�ci, mo�emy powiedzie�, �e doch�d i wielko�� rodziny odgrywaj� wa�n� rol� w przewidywaniu, czy po�yczka b�dzie sankcjonowana, czy nie. Mo�emy wi�c usun�� Wiek i Do�wiadczenie z modelu.

3. Walidacja przewidywanych warto�ci (wska�nik klasyfikacji): Obejmuje to wykorzystanie oszacowa� modelu do przewidywania warto�ci w zestawie treningowym i por�wnywania przewidywanej zmiennej docelowej z warto�ciami obserwowanymi dla ka�dej obserwacji.

Macierz pomy�ek: Macierz pomy�ek jest tabel�, kt�ra jest cz�sto u�ywana do opisywania wydajno�ci modelu klasyfikacyjnego na zbiorze danych testowych, dla kt�rych znane s� prawdziwe warto�ci.

Dok�adno��: odsetek ca�kowitej liczby poprawnych prognoz.

Dok�adno�� = (A + D) / (A + B + C + D)

Pozytywna warto�� predykcyjna lub precyzja: odsetek pozytywnych przypadk�w, kt�re zosta�y poprawnie zidentyfikowane.

Precyzja = A / (A + B)

Negatywna warto�� predykcyjna: odsetek prawid�owo zidentyfikowanych przypadk�w negatywnych.

NPV = D / (C + D)

Czu�o�� lub Przywo�anie lub Prawdziwie pozytywny wska�nik: odsetek rzeczywistych przypadk�w pozytywnych, kt�re zosta�y poprawnie zidentyfikowane.

TPR = A / (A + C)

Swoisto�� lub prawdziwie ujemny wska�nik: odsetek rzeczywistych przypadk�w ujemnych, kt�re s� poprawnie zidentyfikowane.

TNR = D / (B + D)

4. Krzywa charakterystyki pracy odbiornika (Krzywa ROC): Charakterystyka pracy odbiornika jest miar� wydajno�ci klasyfikatora. Korzystaj�c z odsetka pozytywnych punkt�w danych, kt�re s� poprawnie uwa�ane za dodatnie, i odsetka negatywnych punkt�w danych, kt�re b��dnie s� uwa�ane za dodatnie, generujemy grafik�, kt�ra pokazuje kompromis mi�dzy szybko�ci�, z jak� mo�na poprawnie przewidzie� co� z cz�stotliwo�ci� niepoprawnie przewidywa� co�. Ostatecznie niepokoi nas obszar pod krzyw� ROC lub AUROC. Ta metryka mie�ci si� w przedziale od 0,50 do 1,00, a warto�ci powy�ej 0,80 wskazuj�, �e model dobrze sobie radzi z rozr�nianiem dw�ch kategorii, kt�re sk�adaj� si� na nasz� zmienn� docelow�.

# Oblicz AUC dla przewidywania Po�yczki z uwzgl�dnieniem zmiennej Doch�d
biblioteka (ROCR)
pred <- przewidywanie (przewidywanie, dane_ poci�gu $ Po�yczka_sankcjonowana)
perf <- wydajno�� (pred, "tpr", "fpr")
wykres (perf, koloruj = PRAWDA, text.adj = c (-0,2; 1,7)) wykres (f1, col = "czerwony")
auc <- wydajno�� (pred, Measure = "auc")
auc <- auc@y.values [[1]]
auc

Uzyskali�my warto�� auc (Area Under Curve), kt�ra jest wi�ksza ni� 90%, dzi�ki czemu mo�emy stwierdzi�, �e nasz model dzia�a bardzo dobrze, i nasz model zosta� zatwierdzony. Krzywa ROC jest praktycznie niezale�na od wska�nika odpowiedzi. Jest tak, poniewa� ma dwie osie wystaj�ce z oblicze� kolumnowych macierzy pomieszania. Licznik i mianownik zar�wno osi x, jak i y zmieni� si� na podobnej skali w przypadku przesuni�cia wska�nika odpowiedzi. Jest to zaleta stosowania krzywej ROC.

5. B��d �redniego kwadratu pierwiastkowego (RMSE): RMSE jest najpopularniejszym miernikiem oceny stosowanym w problemach z regresj�. Wynika to z za�o�enia, �e b��d jest bezstronny i ma normalny rozk�ad. Charakter "kwadratowy" tej metryki pomaga uzyska� bardziej wiarygodne wyniki, kt�re zapobiegaj� anulowaniu dodatnich i ujemnych warto�ci b��d�w. Unika stosowania bezwzgl�dnych warto�ci b��d�w, co jest wysoce niepo��dane w obliczeniach matematycznych. Na warto�ci RMSE du�y wp�yw maj� warto�ci odstaj�ce. Dlatego musimy upewni� si�, �e usuwamy warto�ci odstaj�ce z naszego zestawu danych przed u�yciem tej miary.

6. AIC (Akaike Information Criteria): AIC jest miar� dopasowania, kt�ra karze model za liczb� wsp�czynnik�w modelu. Dlatego zawsze preferujemy model o minimalnej warto�ci AIC.

7. Walidacja krzy�owa sk�adania K: W tej metodzie dzielimy dane na k jednakowych rozmiar�w segment�w (zwanych "fa�dami"). Jeden fa�d jest trzymany w celu walidacji, podczas gdy inne fa�dy k-1 s� wykorzystywane do trenowania modelu, a nast�pnie wykorzystywane do przewidywania zmiennej docelowej w naszych danych testowych. Ten proces powtarza si� k razy, przy czym wydajno�� ka�dego modelu w przewidywaniu zestawu wstrzyma� jest �ledzona przy u�yciu metryki wydajno�ci, takiej jak dok�adno��. Najcz�stsz� odmian� walidacji krzy�owej jest 10-krotna walidacja krzy�owa. Walidacja krzy�owa k-fold jest szeroko stosowana do sprawdzania, czy model jest pasuj�cy czy nie. Dla ma�ego k mamy wi�kszy b��d selekcji, ale nisk� wariancj� wyst�p�w. Dla du�ego k mamy ma�y b��d selekcji, ale du�� zmienno�� wyst�p�w.

Test Hosmera-Lemeshowa: Statystyka Homera-Lemeshowa, kt�ra jest obliczana na podstawie danych po podzieleniu obserwacji na grupy na podstawie por�wnywalnych przewidywanych prawdopodobie�stw. Sprawdza, czy zaobserwowane proporcje zdarze� s� podobne do przewidywanych prawdopodobie�stw wyst�pienia w podgrupach zbioru danych za pomoc� testu chi-kwadrat. Ma�e warto�ci z du�ymi warto�ciami p wskazuj� na dobre dopasowanie do danych, natomiast du�e warto�ci z warto�ciami p poni�ej 0,05 wskazuj� na s�abe dopasowanie.

BUDOWA REJESTRACJI LOGISTYCZNEJ

#Krok 1: �adowanie danych do R:
setwd("D:/R data")
loandata=read.csv(file="Housing_loan.csv", header=TRUE)
# Krok 2: Przygotowanie danych:
# Usu� kolumny ID i p�e� z danych
loandata2=subset(loandata, select=-c(ID, Gender))
fix(loandata2)
Krok 3: Utw�rz zmienne Dummy:

# Zmienna "Edukacja" ma wi�cej ni� dwie kategorie (1: licencjackie, 2: magisterskie, 3: zaawansowane / profesjonalne), wi�c musimy stworzy� fikcyjne zmienne dla ka�dej kategorii aby uwzgl�dni� je w analizie

#Zainstaluj i za�aduj pakiet "dummies", aby utworzy� zmienne zast�pcze
install.packages("dummies")
library(dummies)
Edu_dum=dummy(loandata2$Education)
head(Edu_dum)
loandata3=subset(loandata2,select=-c(Education))
loandata4=cbind(loandata3,Edu_dum)
head(loandata4)
#Krok 4: Standaryzacja danych:
Standaryzuj dane, stosuj�c metod� "Range"
install.packages("vegan")
library(vegan)
loandata5=decostand(loandata4,"range")
# Krok 5: Przygotuj zestawy danych Train & Test:
Pobierz losow� pr�bk� 80% rekord�w danych poci�gu.
train = sample(1:1000,800)
train_data = loandata5[train,]
nrow(train_data)
# We� losow� pr�bk� 20% rekord�w dla danych testowych
train = sample(1:1000,800)
train_data = loandata5[train,]
nrow(train_data)
#Krok 6: Podsumowanie danych dla zmiennej odpowiedzi "Loan_sanctioned":
table(loandata5$Loan_sanctioned) #Total Data
table(train_data $Loan_sanctioned) #Train Data
table(test_data$Loan_sanctioned) #Test Data
#Krok 7: Zbuduj model regresji logistycznej
model<- glm(Loan_sanctioned~ Age+Experience+
Income+Family+ Education1+Education2+ Education3,
data=train_data, family = binomial)
Krok 8: Sprawd� podsumowanie modelu i oce� model, uzyskuj�c macierz nieporozumie� summary(model)
predict <- predict(model, type = 'response')
table(train_data$Loan_sanctioned, predict > 0.5)
Krok 9: Utw�rz krzyw� ROC i sprawd� obszar pod krzyw�
pred <- prediction(predict, train_data$Loan_sanctioned)
perf <- performance(pred, 'tpr','fpr')
plot(perf, colorize = TRUE, text.adj = c(-0.2,1.2))
#Krok 10: Wypr�buj r�ne kombinacje zmiennych i oce� wydajno�� modelu
model2<- glm(Loan_sanctioned~ Age+Experience+Income+Family,
data=loan_train, family = binomial)
summary(model2)
predict <- predict(model2, type = 'response')
# macierz konfuzji
table(loan_train$Loan_sanctioned, predict > 0.5)
model3<- glm(Loan_sanctioned~ Income+Family,
data=loan_train, family = binomial)
summary(model3)
predict <- predict(model3, type = 'response')
# macierz konfuzji
table(loan_train$Loan_sanctioned, predict > 0.5)

KROK 13

Drzewa Decyzyjne

WPROWADZENIE

Drzewo decyzyjne jest pot�n� metod� klasyfikacji i prognozowania oraz u�atwiaj�c� podejmowanie decyzji w sekwencyjnych problemach decyzyjnych. Mo�emy u�y� trzech rodzaj�w drzew decyzyjnych, tj. 1. Aby zareagowa� na dzia�anie w oparciu o sekwencj� w�z��w informacyjnych 2. Drzewa klasyfikacji i regresji oraz 3. Drzewa przetrwania. Ale przez wi�kszo�� czasu u�ywamy drzewa decyzyjnego do rozwi�zywania problem�w z klasyfikacj�. Przyjrzyjmy si� niekt�rym problemom i zrozummy, czy jest to problem klastrowania, czy problem klasyfikacji.

1. Rodzaje stron w sieci?
2. Czy zatwierdzi� osobist� po�yczk�, czy nie?
3. Rodzaje klient�w centrum handlowego?
4. Czy ten klient kupi produkt, czy nie?
5. Jakie jest nast�pne miejsce, kt�re turysta chcia�by odwiedzi�?
6. Czy sygna�em radiowym jest supernowa, bia�y karze� czy czerwony gigant?
7. Rodzaje os�b na Twoim koncie Facebook / LinkedIn?
8. Rodzaje wiadomo�ci e-mail w skrzynce odbiorczej?
9. Ten artyku� dotyczy sportu, rozrywki, polityki czy nauki?
10. Rodzaje gen�w w ludzkim genomie?

Jaka jest r�nica mi�dzy grupowaniem a klasyfikacj�? Ilekro� nie podajesz celu do przewidzenia, je�li powiem, �e jest tu kilka stron internetowych, poda�em tylko te informacje, wtedy mo�emy pomy�le� o strukturze danych, na przyk�ad o tym, jakie rodzaje stron tam s�, pozw�l mi zrobi� grupowanie i rozwi�za�. Kolejne pytanie brzmi: ilu jest klient�w, nie jeste�my tego pewni. Je�li nie jeste�my pewni co do celu, je�li otrzymamy tylko dane wej�ciowe, X, a nie Y, w�wczas spr�bujemy zrobi� co� takiego jak grupowanie, PCA lub dowolna inna technika uczenia bez nadzoru. Ale ilekro� otrzymasz dane wej�ciowe i wyj�ciowe do przewidzenia, powiem tutaj, �e historia transakcji przewiduje oszustwo, a nie oszustwo. Oto wiadomo�� e-mail z informacj�, czy jest to promocja spamu, czy g��wna. Kiedy zadam ci wskazane pytanie, zaklasyfikuj je do jednej z kategorii, to jest to problem z klasyfikacj�. Jak to dzia�a w prawdziwym �wiecie? pozw�lcie, �e wezm� przyk�ad taks�wki Uber. Kiedy za�o�yli firm�, zaczynaj� otrzymywa� informacje zwrotne od klient�w, nie wiedz�, jaki rodzaj opinii otrzymuj�, wi�c zrobili grupowanie. Wyobra� sobie, �e zebrali si� w pi�ciu klastrach, a kiedy wymy�l� pi�� klastr�w, skonfiguruj� proces okre�laj�cy, co zrobi� dla ka�dego klastra. Teraz te klastry staj� si� etykietami klas. Teraz nast�pna informacja zwrotna musi zosta� przypisana do jednej z nich. Je�li nie, to musi to by� osobna klasa. Je�li nale�y do jednego z ju� utworzonych grup, a nast�pnie wiesz, co robi�, w przeciwnym razie musisz utworzy� proces wok� tego. Musimy wi�c zrozumie�, czy struktura zosta�a odkryta, czy nie. Wyobra� sobie, �e skargi klient�w trafiaj� na jeden adres e-mail, a nast�pnie musimy zacz�� je klasyfikowa�. Mo�emy przyj�� wszystkie 100 tysi�cy skarg, pogrupowa� je w 5-6 rodzaj�w skarg. Jak mapujesz surowe dane na typy, aby odkry� typy, potrzebujemy grupowania. kiedy znamy typy, dokonujemy klasyfikacji.? mo�emy uzyska� nowe skargi poza podanymi typami, a nast�pnie utworzymy now� klas�.

Opisowe vs. Dyskryminuj�ce klasyfikatory: kiedy ludzie patrz� na dane, po�owa z was robi jedn� rzecz, a druga po�owa robi drug� rzecz. Niekt�rzy z was mog� zbudowa� model dla ka�dej klasy, na przyk�ad jaka jest struktura i kszta�t klasy. model ten nazywa si� modelem opisowym, co oznacza, �e opisujesz, jak wygl�daj� dane. Druga po�owa z was m�wi: hej, jak mam rozr�ni� tych dw�ch. Nie dbam o kszta�t jednego kontra drugi, dbam o granic� jednego kontra drugiego. Dyskryminacyjne klasyfikatory nie polegaj� na kszta�cie klasy, ale na granicy. My�lcie, �e klasyfikatorzy opisowi s� ministerstwem kraju, dbaj� o kszta�t kraju w �rodku. jak w tych dw�ch krajach ka�dy jest zainteresowany swoim krajem, ale dyskryminuj�cy klasyfikatorzy s� jak ministerstwo obrony. skupiaj� si� bardziej na granicy. ci dwaj patrz� na te same dane, ale na r�ne sposoby. Pozw�l, �e wezm� m�j zestaw danych, dokona�em in�ynierii funkcji, teraz Je�li wezm� jedn� klas�, po prostu zajm� si� jedn� klas�, oblicz� �redni� i macierz kowariancji tej klasy, i to samo dla pozosta�ych dw�ch, to mam te trzy parametry Kiedy obliczam �redni� i kowariancj� jednej klasy, po prostu rozwa�am t� klas� i nie przejmuj� si� drug� klas�. Macierz kowariancji b�dzie opisywa� kszta�t, a �rednia b�dzie opisywa� lokalizacj�. Je�li u�yj� innego rodzaju klasyfikatora, regresji logistycznej, spr�buje on oddzieli� klasy. Tutaj obaj robi� to samo, ale w inny spos�b.

CO TO JEST KLASYFIKACJA?

W klasyfikacji chcemy sklasyfikowa� dane w taki spos�b, aby jedna grupa zawiera�a punkty z jednej klasy, a inna grupa zawiera�a punkty z innej klasy. chcemy podzieli� przestrze� na regiony, kt�re powinny by� czyste w odniesieniu do wszelkich etykiet mojej klasy. We�my przyk�ad Indii podzielonych na stany, co wykorzystali jako kryteria. U�ywali j�zyka, poniewa� chc� wymy�li� identyczno��, aby punkty w jednej grupie by�y do siebie podobne, a punkty w innej grupie by�y do siebie podobne. Klasyfikacja dzieli przestrze� (cech�) na czyste regiony przypisane do ka�dej klasy. Je�li mamy przestrze� podobn� do grupy punkt�w, mo�emy j� przesuwa�, ale mo�emy przenosi� partycje. Mamy przestrze� funkcji, kt�ra pochodzi z ca�ej in�ynierii funkcji, kt�r� wykona�e� ,upewnij si�, �e s� znormalizowane itp. W tym obszarze funkcji mamy kilka punkt�w danych i chcemy stworzy� granic� decyzji. ta granica podzieli przestrze� na mniejsze regiony, a teraz ile granic decyzji m�g�bym wybra�? Jakie s� mo�liwe sposoby podzia�u przestrzeni na partycje? odpowied� jest niesko�czona. M�g�bym u�y� niesko�czonej liczby sposob�w na podzielenie przestrzeni na dwa regiony. spo�r�d wszystkich niesko�czonych sposob�w wielu partycji musz� znale�� jedn� partycj�, kt�ra spe�nia kryteria, kt�ra maksymalizuje kryteria. Jakie s� te kryteria? Kryteria s� takie, �e ka�dy region powinien by� tak czysty, jak to mo�liwe, w odniesieniu do etykiety klasy. ale nigdy nie uzyskamy idealnej partycji. Przyczyny mog� by� nast�puj�ce:

• Przestrze� funkcji mo�e by� niepe�na, mogli�my przeoczy� wa�n� funkcj�.
• Mog� wyst�powa� warto�ci odstaj�ce,
• Ha�as w funkcjach,
• Model mo�e nie by� idealny,
• Ha�as na etykiecie, przy tych wszystkich regionach mo�emy nie uzyska� idealnego modelu.

Dlatego nasza praca naukowca danych jest bardzo trudna. Mamy list� powod�w, dla kt�rych nasz model nie dzia�a. Kiedy klasyfikujemy przestrze� do niekt�rych region�w, a ka�dy z nich ma sw�j w�asny zestaw czysto�ci. niekt�re klasy maj� wi�ksz� czysto�� w por�wnaniu do innych. Czy mog�em zrobi� lepiej? M�g�bym podzieli� si� na mniejsze regiony, patrz�c na wi�cej funkcji. M�g�bym stworzy� granice nieliniowe, zbudowa�bym bardziej z�o�one modele, aby zrobi� jeszcze lepiej. M�g�bym zrobi� tak wiele rzeczy, aby ulepszy� ten klasyfikator. Wyobra� sobie, �e kto� przekaza� ci ten zestaw danych do opracowania, jaki jest najprostszy model, jaki mo�esz wymy�li�? taka jest granica decyzyjna prostej prostej, ale jaki jest problem z prost� granic�, nie jest ona tak czysta, jak by� chcia�. wi�c ide� jest prostota nie oznacza czysto�ci ani dok�adno�ci. Co m�g�by� teraz zrobi�? Je�li pisz� matematycznie, jaki to model? Sigma (W0 + EWiXi) da to lini�, z lini� o tym poziomie z�o�ono�ci modelu mo�esz zrobi� tylko tyle. B�dzie tylko jeden optymalny, je�li ogranicz� ci� do modelu liniowego. Teraz m�wimy nie, Linear nie jest wystarczaj�co dobry, potrzebujemy czego� bardziej z�o�onego, co teraz robimy? Przyjmujemy regresj� logistyczn� i komplikujemy j�, dodaj�c funkcje nieliniowe. Nie tylko wi�cej funkcji, jeste�my ograniczeni funkcjami, ale czy mo�emy je po��czy� razem. Teraz mog� powiedzie� co� takiego jak Sigma (W0 + EWiXi + EWijXiXJ) teraz otrzymujemy bardziej z�o�ony model, ile parametr�w mam teraz? W0 -> 1, EWiXi -> n, EWijXiXJ -> N wybierz 2, co oznacza, �e kiedy zwi�ksz� z�o�ono�� poprzez dodanie wi�kszej liczby parametr�w, mo�emy zbudowa� bardziej z�o�on� granic� decyzji. Wyobra�my sobie sytuacj�, w kt�rej zbudowali�my model z wielomianem stopnia 2 (kwadraty drugiego rz�du). I inny model z wielomianem stopnia 9, poniewa� istnieje wiele r�nych 9 infekcji, wi�c jest to wielomian 9 stopnia, kt�ry wykonuje dobr� robot�, w por�wnaniu z wielomianem pierwszego stopnia, kt�ry jest klasyfikatorem liniowym. Czy mog� zrobi� jeszcze lepiej? Wyobra� sobie, �e je�li wezm� wielomian 100 stopnia, istnieje tutaj bardzo wa�na zasada, kt�r� musimy zrozumie�, pomy�l teraz, kt�ry z tych trzech modeli jest rozs�dnym modelem? Gdzie by� przesta� oczywi�cie nikt nie chce przej�� do wielomianu 100 stopnia, nawet je�li daje to dok�adniejsze wyniki. Pozw�l, �e porozmawiam o og�lnej zasadzie niezale�nej od problemu. Nasza zasada m�wi, czy mam pobi� dane do przes�ania? je�li zrobimy trzeci, nie mo�emy wyja�ni� modelu, dlaczego to zrobili�my? G��wny problem polega na tym, �e ko�czymy szkolenie danych treningowych, tj. zapami�tujemy dane treningowe, kt�re mogli�my straci� mo�liwo�� uog�lnienia, poniewa� zapami�tali�my. Mog� by� dobrym mistrzem quizu GK, ale mo�e nie s�dz�, �e to w�a�ciwie oznacza, �e mam dobr� pami��, ale nie uog�lni�em modelu. Zazwyczaj wybieramy modele, kt�re nie s� ani zbyt proste, ani zbyt z�o�one, gdzie� po�rodku znajduje si� prawid�owy model, a sztuk� analizy danych jest ustalenie, jaki jest odpowiedni poziom z�o�ono�ci w modelu. Mog� da� ci drzewo decyzyjne lub regresj� logistyczn�, nadal mo�esz stworzy� bardziej z�o�ony lub mniej z�o�ony model, w kt�rym przestajesz by� twoim wyborem. iedy patrzysz na modele, model powinien robi� dobrze, nie powinien by� ani zbyt prosty, ani zbyt skomplikowany. Musimy zrozumie� kompromis. To w�a�nie nazywamy sygna�em dla stosunku ha�asu. Ka�de dane ma pewn� struktur� (sygna�) i troch� ha�asu. musimy sprawi�, by model by� wystarczaj�co z�o�ony, aby uchwyci� struktur�, ale nie ha�as.

Uog�lnienie: Zdolno�� przewidywania lub przypisywania etykiety do nowej obserwacji na podstawie modelu zbudowanego na podstawie wcze�niejszych do�wiadcze�. Nazywamy to z�o�ono�ci� i dok�adno�ci� modelu. To, co robimy normalnie, pobieramy dane dotycz�ce danych szkoleniowych, je�li ci�gle zwi�kszamy model z�o�onoci, dok�adno�� wzrasta do maksimum. Ale to nie jest nasz cel. Celem jest sprawdzenie zestawu sprawdzania poprawno�ci lub zestawu test�w, kt�ry jest niewidzialnym danymi, w pewnym momencie wyniki sprawdzania poprawno�ci zaczn� male�. Jest to punkt, w kt�rym powiniene� przesta� zwi�ksza� z�o�ono��, poniewa� nie dzia�a ona zbyt dobrze na zbiorze danych sprawdzania poprawno�ci. Je�li przeszkolimy co�, model zapami�ta, ale si� nie nauczy. Tak wi�c, nadmierny trening jest czym�, o co musimy si� martwi�. Wr�cimy do tego za ka�dym razem, gdy studiujemy model. Kiedy tworzysz model, musimy zrozumie�, jakie by�y oczekiwania klienta. Jeste�my zainteresowani stworzeniem uog�lnionego modelu, kt�ry b�dzie dok�adny. Dok�adno�� to nie tylko kryteria, ale musimy przyjrze� si� interpretowalno�ci modelu. Je�li tw�j model jest zbyt skomplikowany, staje si� niemo�liwy do interpretacji, nawet wtedy jest to problem. Wtedy mo�esz mie� model bardzo dok�adny, model uog�lniony, ale nie model wysoce interpretowalny. To kolejne kryterium. Pozosta�e kryteria to punktacja w czasie rzeczywistym. Je�li masz bardzo z�o�ony model, kt�ry zajmuje jedn� sekund�, aby zdoby� jeden punkt danych, to znowu musisz przyci�� rogi. Dlatego mamy do czynienia z tymi wszystkimi ograniczeniami. Chc� dobrego uog�lnienia, chc� interpretacji i wysokiej przepustowo�ci. Teraz jaki model zbuduj�? Dlatego nie jest oczywiste, jaka jest w�a�ciwa odpowied�. To zale�y od wszystkich tych ogranicze�. Je�li we�miemy tutaj dwie sytuacje, aby to zrozumie�, wyobra� sobie, �e budujemy model wykrywania oszustw. Kryterium tego modelu jest dok�adno��. Je�li zdecyduj� si� zatrzyma� kart� lub pozwoli� jej odej��, nie musz� nikomu wyja�nia�. Tutaj interpretacja nie jest wa�na, dok�adno�� jest wa�na. Pozw�lcie, �e wezm� inn� sytuacj�, w kt�rej budujemy model oceny zdolno�ci kredytowej. Kiedy dokonuj� oceny zdolno�ci kredytowej, ilekro� odrzucamy po�yczk�, musimy poda� trzy g��wne powody, dla kt�rych odrzucamy po�yczk�, tutaj interpretacja jest wa�niejsza w modelu oceny wiarygodno�ci kredytowej. Dlatego modele stosowane w modelu ratingu kredytowego s� bardzo r�ne w por�wnaniu z modelem stosowanym w wykrywaniu oszustw zwi�zanych z kartami kredytowymi. Musimy zada� nast�puj�ce pytania za ka�dym razem, gdy tworzymy Model. Jaki jest charakter granicy decyzyjnej klasyfikatora? Jaka jest z�o�ono�� granicy decyzyjnej klasyfikatora? Jak kontrolowa� z�o�ono�� klasyfikatora? Sk�d mam wiedzie�, kiedy klasyfikator jest wystarczaj�co z�o�ony / Jak wybra� odpowiedni klasyfikator do u�ycia? Modele oparte na drzewach: Partycjonowanie rekurencyjne jest podstawowym narz�dziem w eksploracji danych. Pomaga nam bada� struktur� zestawu danych, a jednocze�nie opracowuje �atwe do wizualizacji regu�y decyzyjne przewidywania wyniku kategorycznego (drzewo klasyfikacji) lub ci�g�ego (drzewo regresji). Drzewa klasyfikacji i regresji mo�na generowa� za pomoc� pakietu rpart.

KROKI W TWORZENIU DRZEWA DECYZJI.

Wyhoduj drzewo

rpart (formu�a, dane =, metoda =, kontrola =) gdzie,
Formu�a ma format wynik ~ predyktor 1 + predyktor 2 + predyktor 3 + ect.
Dane = okre�la ramk� danych
Metoda = "klasa" dla drzewa klasyfikacji, "anova" dla drzewa regresji
Kontrola = opcjonalne parametry do kontrolowania wzrostu drzewa.

Na przyk�ad control = rpart.control (minsplit = 30, cp = 0,001) wymaga minimum liczby obserwacji w w�le , 30 przed pr�b� podzia�u, a podzia� musi si� zmniejszy� przez og�lny brak dopasowania o wsp�czynnik 0,001 (wsp�czynnik z�o�ono�ci koszt�w) przed podj�ciem pr�by.

Sprawd� wyniki

Poni�sze funkcje pomagaj� nam zbada� wyniki.

printcp (fit) #wy�wietl tablic� cp

plotcp (fit) #wykre�l wyniki krzy�owej weryfikacji

rsq.rpart (dopasowanie) # wykres przybli�ony R-kwadrat i b��d wzgl�dny dla r�nych podzia��w (2 wykresy). etykiety s� odpowiednie tylko dla metody "anova".

print (fit) #wy�wietla wyniki.

summary(fit) # szczeg�owe wyniki, w tym podzia�y zast�pcze

plot (fit) #plot drzewo decyzyjne

text(fit) # etykieta wykres drzewa decyzyjnego

post (fit, file =) # stw�rz wykres postscriptowy drzewa decyzyjnego

Przycinanie drzewa

Przycinanie wspiera drzewo, aby unikn�� przepe�nienia danych. Zazwyczaj b�dziesz chcia� wybra� rozmiar drzewa, kt�ry minimalizuje b��d sprawdzany krzy�owo, kolumn� xerror drukowan� przez printcp (). Przycinaj drzewo do po��danego rozmiaru za pomoc� przycinania (fit, cp =). W szczeg�lno�ci u�yj printcp (), aby sprawdzi� wyniki b��du z potwierdzeniem krzy�owym, wybierz parametr z�o�ono�ci zwi�zany z b��dem minimalnym i umie�� go w funkcji prune().

ZBUDUJ MODEL DRZEWA DECYZJI NA ZBI�R DANYCH PO�YCZKI MIESZKANIOWEJ

# Wykorzystajmy dane po�yczki mieszkaniowej, aby przewidzie�, czy po�yczka zostanie obj�ta sankcjami, czy nie, na podstawie wieku, do�wiadczenia, dochod�w, wielko�ci rodziny i poziomu wykszta�cenia.

Krok 1: Zainstaluj i za�aduj wymagane pakiety
install.packages("rpart")
library(rpart)
library(dummies)
?rpart
Krok 2: �adowanie danych do R:
loandata=read.csv(file="D:\\R data\\Housing_loan.csv", header=TRUE, sep=",")
fix(loandata)
Krok 3: usu� kolumny danych, kolumny P�e� z danych
loandata2=subset(loandata, select=-c(ID, Gender))
fix(loandata2
Krok 4: Utw�rz zmienne Dummy
Edu_dum =dummy(loandata2$Education)
loandata3=subset(loandata2,select=-c(Education))
fix(loandata3)
loandata4=cbind(loandata3,Edu_dum)
fix(loandata4)
Krok 5: Standaryzuj dane, stosuj�c metod� "Range"
install.packages("vegan")
library(vegan)
loandata_stan=decostand(loandata4,"range")
fix(loandata_stan)
Krok 6: Napraw ziarno, aby uzyska� te same dane za ka�dym razem
set.seed (123)
Krok 7: Pobierz losow� pr�bk� 60% rekord�w danych poci�gu
train = sample(1:1000,600)
loan_train = loandata_stan[train,]
# Pobierz losow� pr�bk� 40% rekord�w dla danych testowych
test = (1:1000) [-train]
loan_test = loandata_stan[test,]
table(loandata_stan$Loan_sanctioned)
table(loan_train$Loan_sanctioned)
table(loan_test$Loan_sanctioned)
# Usu� niepotrzebne obiekty
rm(loandata2, loandata3, loandata4,loandata_stan, Edu_dum, test, train)
Krok 8: Zbuduj drzewo decyzyjne
fit <- rpart(Loan_sanctioned~ Age +Experience+ Income +Family+
Education1+Education2+Education3, data=loan_train, method="class",
control=rpart.control(minsplit=10, cp=0.001))
#formula ma format wynik ~ predyktor 1 + predyktor 2 + predyktor 3 + itd.
# data = Okre�la ramk� danych
# method = "class" dla drzewa klasyfikacji, "anova" dla drzewa regresji
# control = Opcjonalne parametry do kontrolowania wzrostu drzewa.
# control = rpart.control (minsplit = 10, cp = 0,001) wymaga, aby minimalna liczba obserwacji w w�le wynosi�a 10 przed pr�b� # podzia�u, a podzia� musi zmniejsza� og�lny brak dopasowania o wsp�czynnik 0,001 (koszt wsp�czynnik z�o�ono�ci) przed pr�b�.
Krok 9: Wy�wietl wyniki
printcp(fit) # wy�wietl wyniki
plotcp (fit) # wizualizuj wyniki weryfikacji krzy�owej
summary(fit) # szczeg�owe podsumowanie podzia��w
Krok 10: Drzewo wydruku
plot(fit, uniform=TRUE, main="Classification Tree for Housing Loan")
text(fit, use.n=TRUE, all=TRUE, cex=.8)
Krok 11: Przycinaj drzewo
pfit<- prune(fit, cp= fit$cptable[which.min(fit$cptable[,"xerror"]),"CP"])

# Odsu� drzewo, aby unikn�� dopasowania danych. mo�esz wybra� rozmiar drzewa, kt�ry minimalizuje b��d sprawdzany krzy�owo, kolumn� xerror drukowan� przez printcp (). Drzewa wnioskowania warunkowego mo�na utworzy� za pomoc� pakietu partyjnego, kt�ry zapewnia nieparametryczne drzewa regresji dla odpowiedzi nominalnych, porz�dkowych, numerycznych, ocenzurowanych i wielowymiarowych. Mo�esz utworzy� drzewo regresji lub klasyfikacji za pomoc� funkcji ctree (formu�a, dane =). Rodzaj utworzonego drzewa b�dzie zale�e� od zmiennej wynikowej (wsp�czynnik nominalny, wsp�czynnik uporz�dkowany, numeryczny itp.). Wzrost drzewa opiera si� na statystycznych zasadach zatrzymywania, wi�c przycinanie nie powinno by� wymagane.

KROK 14

Klasa Najbli�szego S�siada

WPROWADZENIE

Zanim om�wimy KNN, zrozummy r�nic� mi�dzy pami�ci� a uczeniem si�. Pami�� to proces rejestrowania, przechowywania i wyszukiwania informacji. W pami�ci przechowujemy dane i zawsze do nich wracamy, gdy jest to konieczne. Uczenie si� to proces lub zachowanie zwi�zane z nabywaniem wiedzy. Nie chodzi tylko o pozyskiwanie i przechowywanie informacji, ale o zdolno�� do wdra�ania informacji i korzystania z nich w praktycznych okoliczno�ciach. Je�li zbudujemy model, kt�ry jest znacznie bardziej skompresowan� wersj� danych, w�wczas zapominamy o danych, u�ywamy jedynego modelu w przysz�o�ci. tak dzia�a nasz m�zg. Mo�emy wi�c powiedzie�, �e uczenie si� jest procesem, kt�ry zmodyfikuje p�niejsze zachowanie. Z drugiej strony pami�� to zdolno�� pami�tania wcze�niejszego do�wiadczenia. Najbli�szy s�siad K to prosty algorytm, kt�ry przechowuje wszystkie dost�pne przypadki i klasyfikuje nowe przypadki wi�kszo�ci� g�os�w swoich s�siad�w. Ten algorytm dzieli nieoznaczone punkty danych na dobrze zdefiniowane grupy. Klasyfikator KNN jest jednym z najprostszych i najpi�kniejszych klasyfikator�w. Wyobra� sobie wykres rozproszenia z punktami danych klas r�owych i niebieskich, w kt�rych r�owe punkty danych s� bardziej widoczne w lewym g�rnym rogu, a w prawym dolnym rogu niebieskie s� bardziej widoczne, ale w danych jest du�o szumu. takie s� prawdziwe dane. Teraz, je�li dam wam nowy punkt danych i poprosz� o sklasyfikowanie go. Co zrobisz? zaczynasz znajdowa� punkt najbli�szy podanemu nowemu punktowi danych na podstawie odleg�o�ci, Za��my, �e najbli�szy jest r�owy. Co b�dziesz robi� gdy ten nowy punkt danych zostanie przypisany do r�owego. Nazywa si� to 1 Najbli�szym s�siadem. To jest co� takiego: chcesz obejrze� film, zadzwoni�e� do jednego ze znajomych i zapyta�e�, czy to dobrze, czy �le. Cokolwiek powie, zrobisz. Czy to zrobisz? Nie, wi�c co zrobisz? Dzwonimy do wi�kszej liczby os�b, ��czymy si� z internetem i czytamy recenzje. Ogl�dasz zwiastun, a potem decydujesz, prawda. Zatem proces decyzyjny zale�y od danych zewn�trznych, im wi�cej danych wej�ciowych zdob�dziesz, tym silniejsza b�dzie twoja decyzja. Co mog� zrobi� zamiast korzysta� z 1 najbli�szego s�siada? Mog� korzysta� z 2 najbli�szych s�siad�w, teraz zadzwoni�em do 2 przyjaci�, pierwszy facet powiedzia�, id� obejrze�, a drugi m�wi, �eby nie ogl�da�. Teraz jestem jeszcze bardziej zdezorientowany. Zatem w najbli�szych s�siadach K unikamy u�ywania K jako liczby parzystej. Je�li p�jd� z 3 najbli�szymi s�siadami, zn�w si� to zmienia w zale�no�ci od liczby punkt�w. Je�li p�jd� jeszcze wy�ej, etykieta mo�e si� zmieni�. i tak dalej i tak dalej. Jak kontrolujesz tutaj z�o�ono��? Jaki jest model prosty i z�o�ony w K najbli�szych s�siad�w? Bior� surowe dane, kt�re s� r�owe i niebieskie, zak�adaj�c, �e to przyk�ad testowy, u�yli okre�lonej warto�ci K i powiedzieli, �e je�li u�yj� trzech najbli�szych s�siad�w, jaka by�aby moja etykieta? R�owy czy niebieski ?. To jest przestrze� i podzielili�my j� na 2 regiony. Nikt nie m�wi, �e regiony musz� by� �adne i pi�kne. Teraz niebieski region ma pewn� czysto�� i ka�dy punkt nale��cy do niebieskiego zostanie przypisany do niebieskiego regionu. Co si� stanie, gdy K wzro�nie? Regiony zmieni�y si� w niekt�rych punktach, wraz ze wzrostem K, g�adsze granice, a nasz model staje si� coraz bardziej odporny na ha�as. Wcze�niej za bardzo reagowa�o na ha�as. Czego si� tutaj uczysz? Im wy�szy K, tym bardziej solidny jest model i mniej z�o�ony model. Model wygl�da prawie jak regresja liniowa. Podczas budowania klasyfikatora musimy wzi�� pod uwag� kilka pyta�. Jakie s� parametry? czy nauczyli�my si� jakich� parametr�w? Czy w regresji logistycznej poznali�my jakie� parametry? Ci�ary to moje parametry. Rzeczy, kt�rych si� nauczy�em. W K-oznacza klastrowanie centra klastra to parametry, a K to hiperparametr. W K najbli�si s�siedzi K nazywani s� hiperparametrami. To jest co�, co daje systemowi kontrol� nad z�o�ono�ci�. W przypadku KNN nie ma parametr�w. Nie ma modelu. Dlatego w KNN czas szkolenia wynosi zero, poniewa� niczego si� nie uczy. Dlatego nazywany jest modelem nieparametrycznym. Jakie s� wady tego KNN ?. Jak d�ugo musisz zdoby� punkt danych? Wyobra� sobie, �e je�li dam ci 100 tysi�cy punkt�w danych w zestawie szkoleniowym, a powiesz, �e nadchodzi nowy punkt danych, co musisz zrobi�? Musisz zmierzy� odleg�o�� od wszystkich 100 tysi�cy punkt�w, a nast�pnie posortowa� j� i wybra� g�rn� K, zobaczy�, jakie s� ich etykiety, to �wiczenie jest rz�du N, w czasie treningu. Czy u�y�by� takiego klasyfikatora do podejmowania decyzji w czasie rzeczywistym ?. Wybieraj�c technik� modelowania, patrzymy nie tylko na jej dok�adno��, ale nawet na czas oblicze�. Je�li musz� zbudowa� model, kt�ry trzeba bardzo szybko trenowa�, Moje dane zmieniaj� si� bardzo szybko, to potrzebujesz modelu, kt�ry w og�le nie ma czasu na szkolenie. Kluczem tutaj jest spos�b zdefiniowania funkcji odleg�o�ci. Zdefiniowanie funkcji odleg�o�ci jest najtrudniejszym zadaniem. Wyobra� sobie dwie zmienne, takie jak wiek i doch�d, w jaki spos�b okre�lasz odleg�o�� mi�dzy nimi? Odleg�o�� mi�dzy dwoma profilami LinkedIn, Odleg�o�� mi�dzy dwiema sekwencjami genowymi itp., Dwa sygna�y d�wi�kowe, dwa dokumenty w Internecie, dwa tweety, dwa filmy i trwa. We�my prosty przyk�ad sekwencji gen�w raka, mamy oko�o 10 tysi�cy sekwencji gen�w pacjent�w z rakiem i 1 milion sekwencji gen�w pacjent�w nienowotworowych. kiedy pojawia si� nowy punkt danych, musimy zdecydowa�, czy musimy sprawdzi�, czy wszystkie miliardy sekwencji gen�w pasuj� do wszystkich sekwencji gen�w i obliczy� odleg�o�ci mi�dzy nimi, znale�� K i tak dalej, jest to do�� trudne do zrobienia . Tak wi�c, wybieraj�c technik� modelowania, musimy zastanowi� si�, co to jest K ?, co to jest funkcja odleg�o�ci ?, czy b�d� w stanie teraz szybciej zdobywa� punkty? wszystkie te rzeczy. Kolejnym problemem zwi�zanym z KNN jest faktyczna odleg�o��, kt�rej nie wzi��bym pod uwag�. M�wi� tylko o g�rze K. Nie m�wi�, jak daleko. jest to jeszcze jeden problem z KNN, poniewa� traci on informacje o odleg�o�ci. Kolejnym problemem zwi�zanym z KNN jest to, �e nie jest odporny na ha�as. O ile nie zwi�kszysz zbyt mocno K, nie b�dzie to zbyt odporne na ha�as.

JAK WYBRA� ODPOWIEDN� WARTO�� K?

Wyb�r liczby najbli�szych s�siad�w, tj. oOkre�lenie warto�ci K, odgrywa istotn� rol� w okre�leniu skuteczno�ci modelu. Zatem wyb�r K okre�li, jak dobrze dane mog� by� wykorzystane do uog�lnienia wynik�w algorytmu kNN. Du�a warto�� k ma zalety, kt�re obejmuj� zmniejszenie wariancji ze wzgl�du na zaszumione dane, efektem ubocznym jest rozwijanie uprzedze�, w wyniku kt�rych ucz�cy si� ignoruje mniejsze wzorce, kt�re mog� mie� u�yteczny wgl�d.

Algorytm kNN - zalety i wady

Plusy: Algorytm ma wysoce bezstronny charakter i nie zak�ada wcze�niej podstawowych danych. Poniewa� jest prosty i skuteczny z natury, jest �atwy do wdro�enia i zyska� dobr� popularno��.
Wady: Rzeczywi�cie algorytm kNN nie tworzy modelu, poniewa� nie wymaga �adnego procesu abstrakcji. Tak, proces szkolenia jest naprawd� szybki, poniewa� dane s� przechowywane dos�ownie, ale czas przewidywania jest do�� d�ugi, a czasami brakuje przydatnych informacji. Dlatego zbudowanie tego algorytmu wymaga czasu na zainwestowanie w przygotowanie danych w celu uzyskania solidnego modelu.

BUDUJ MODEL KNN NA DIABETYCZNYM ZBIORZE DANYCH

Wykrywanie cukrzycy: Uczenie maszynowe znajduje szerokie zastosowanie w przemy�le farmaceutycznym, szczeg�lnie w wykrywaniu cukrzycy i raka. Zobaczmy proces budowania tego modelu przy u�yciu algorytmu kNN w Programowaniu R.

Krok 1: Zbieranie danych:

Wykorzystamy zestaw danych pacjent�w z cukrzyc� do wdro�enia algorytmu KNN, a tym samym interpretacji wynik�w. Zbi�r danych sk�ada si� z 500 obserwacji i 7 zmiennych, kt�re s� nast�puj�ce: W rzeczywisto�ci istnieje dziesi�tki wa�nych parametr�w potrzebnych do pomiaru prawdopodobie�stwa cukrzycy, ale dla uproszczenia poradzimy sobie z 7 z nich.

• Pat_Id
• P�e�
• OGTT
• DBP
• BMI
• Wiek
• Cukrzyca

Krok 2: Eksploracja danych
setwd ("D: / R data") # Zaimportujmy plik danych "Diab.csv". To polecenie s�u�y do wskazywania folderu zawieraj�cego wymagany plik.
Diabdata <- read.csv("Diab.csv", header = TRUE,stringsAsFactors = FALSE) # To polecenie importuje wymagany zestaw danych i zapisuje go w ramce danych Diabdata. stringsAsFactors = FALSE # To polecenie pomaga przekonwertowa� ka�dy wektor znak�w na czynnik, tam gdzie ma to sens.
str(Diabdata) # U�ywamy tego polecenia, aby sprawdzi�, czy dane maj� struktur�, czy nie. Stwierdzamy, �e dane maj� struktur� 7 zmiennych i 500 obserwacji. Je�li obserwujemy zestaw danych, pierwsza zmienna "Pat_Id" ma unikalny charakter i mo�na j� usun��, poniewa� nie dostarcza u�ytecznych informacji.
Krok 3: Przygotowanie danych
# Usu� pierwsz� zmienn� (Pat_Id) ze zbioru danych.
Diabdata <- Diabdata [-1]
Zestaw danych zawiera pacjent�w, u kt�rych zdiagnozowano cukrzyc� lub cukrzyc�
# Szybkie spojrzenie na atrybut Diabetic poprzez pokazuje, �e podzia�.
table(Diabdata$Diabetic)

Zmienna Diabetic jest nasz� zmienn� docelow�, tj. Ta zmienna okre�la wyniki diagnozy na podstawie innych zmiennych liczbowych. # Je�li chcesz sprawdzi� procentowy podzia� atrybutu Cukrzyca, mo�esz poprosi� o tabel� proporcji:

round(prop.table(table(Diabdata$Diab)) * 100, digits = 1)
# Dog��bne Zrozumienie Twoich Danych
summary(Diabdata)
# Mo�esz tak�e zaw�zi� podsumowanie, dodaj�c okre�lone atrybuty
summary(Diabdata[c("OGTT", "BMI")])

Krok 4: Normalizacja:
Ta funkcja ma ogromne znaczenie, poniewa� skala zastosowana dla warto�ci ka�dej zmiennej mo�e by� inna. Najlepsz� praktyk� jest normalizacja danych i przekszta�cenie wszystkich warto�ci na wsp�ln� skal�.

# Mo�emy wykona� normalizacj� funkcji, najpierw tworz�c w�asn� funkcj� normalizacji:
normalize <- function(x) {
num <- x - min(x)
denom <- max(x) - min(x)
return (num/denom)
}
Diab_norm <- as.data.frame(lapply(Diabdata[3:6], normalize))
summary(Diab_norm)
fix(Diab_norm)
Sprawd�my za pomoc� zmiennej "BMI", czy dane zosta�y znormalizowane.
summary(Diab_norm$BMI)

Krok 5: Tworzenie zestawu danych treningowych i testowych:
Algorytm kNN jest stosowany do zestawu danych treningowych, a wyniki s� weryfikowane w zestawie danych testowych. W tym celu podzieliliby�my zestaw danych na 2 porcje w stosunku 60: 40 odpowiednio dla zestawu danych treningowych i testowych. Mo�esz u�y� zupe�nie innego wsp�czynnika w zale�no�ci od wymaga� biznesowych
# Zestawy szkoleniowe i testowe
set.seed (1234)
Indicator <- sample(2, nrow(Diab_norm), replace=TRUE, prob=c(0.6, 0.4))
# Mo�emy nast�pnie u�y� pr�bki zapisanej w zmiennej Indicator do zdefiniowania treningu i zestawy testowe:
Diab.training <- Diab_norm [Indicator == 1, 1: 4]
Diab.test <- Diab_norm [Indicator == 2, 1: 4]
Nasz� zmienn� docelow� jest "Cukrzycowa", kt�rej nie uwzgl�dnili�my w zestawach danych szkoleniowych i testowych.
Diab.trainLabels <- Diabdata [Wska�nik == 1, 7]
Diab.testLabels <- Diabdata [Wska�nik == 2, 7]

Krok 6: Trening modelu na danych:
Funkcji knn () nale�y u�y� do wyszkolenia modelu, dla kt�rego musimy zainstalowa� pakiet "class". Funkcja knn () identyfikuje najbli�szych s�siad�w za pomoc� odleg�o�ci euklidesowej, gdzie k jest liczb� okre�lon� przez u�ytkownika.

install.packages ("class")
library (class)

Teraz jeste�my gotowi do u�ycia funkcji knn () do klasyfikacji danych testowych. Pozw�l nam zbudowa� nasz klasyfikator. Aby zbudowa� tw�j klasyfikator, musimy wzi�� funkcj� knn () i po prostu doda� do niej kilka argument�w.

Diab_pred <- knn (train = Diab.training, test = Diab.test, cl = Diab.trainLabels, k = 11)
Diab_pred
Warto�� k jest na og� wybierana jako pierwiastek kwadratowy z liczby obserwacji. knn () zwraca warto�� wsp�czynnika przewidywanych etykiet dla ka�dego z przyk�ad�w w zestawie danych testowych, kt�ry jest nast�pnie przypisywany do ramki danych Diab_pred. Wynikiem tego polecenia jest wektor czynnikowy z przewidywanymi klasami dla ka�dego wiersza danych testowych.

Krok 7: Ocena twojego modelu:
Aby sprawdzi� wydajno�� modeli, mo�emy zaimportowa� pakiet gmodels:

install.packages ("gmodels")
#Je�li ju� zainstalowa�e� ten pakiet, mo�esz po prostu wej��
library(gmodels)
# Nast�pnie tworzymy tabel� krzy�ow� lub tabel� zdarze� awaryjnych.
CrossTable (x = Diab.testLabels, y = Diab_pred, prop.chisq = FALSE)

Nie stwierdzono przypadk�w fa�szywie ujemnych (FN), co oznacza, �e nie odnotowano �adnych przypadk�w, kt�re faktycznie maj� charakter cukrzycowy, ale zosta�y przewidziane jako niecukrzycowe. FN stanowi potencjalne zagro�enie z tego samego powodu, a g��wnym celem jest zwi�kszenie dok�adno�ci modelu jest zmniejszenie FN. Ca�kowita dok�adno�� modelu wynosi 60% ((TN + TP) / 35), co pokazuje, �e mog� istnie� szanse na popraw� wydajno�ci modelu Krok 8: Poprawa wydajno�ci modelu

Mo�na to wzi�� pod uwag�, powtarzaj�c kroki 3 i 4 oraz zmieniaj�c warto�� k. Zasadniczo jest to pierwiastek kwadratowy z obserwacji i w tym przypadku przyj�li�my k = 10, kt�ry jest idealnym pierwiastkiem kwadratowym ze 100. Warto�� k mo�e si� waha� wi wok� warto�ci 10, aby sprawdzi� zwi�kszon� dok�adno�� Model. Wypr�buj to z wybranymi warto�ciami, aby zwi�kszy� dok�adno��. Musimy pami�ta� o tym, aby warto�� FN by�a jak najni�sza.

KROK 15

Klasyfikatory Bayesowakie

WPROWADZENIE

Twierdzenie Bayesa jest twierdzeniem matematycznym, za pomoc� kt�rego pr�bujemy znale�� zwi�zek mi�dzy danymi a klas�. Musimy pomy�le�, je�li to s� dane, to jaka powinna by� klasa. Tutaj pr�bujemy dokona� mapowania mi�dzy danymi a klas�.

1. Jakie jest prawdopodobie�stwo, �e klient odpowie na t� ofert� i kupon.
2. Jakie jest prawdopodobie�stwo zachorowania na raka, czy nie, bior�c pod uwag� t� konkretn� sekwencj� genow�?
Pozw�l mi om�wi� zasad� Bayesa. Pozw�l nam zrozumie�, dlaczego jest to tak wa�na rzecz

P (Class) → Class Prior
P (Dane | Klasa) → Prawdopodobie�stwo danych dla danej klasy
P (dane) → Dane przed (marginalne)
P (klasa | dane) → prawdopodobie�stwo p�niejsze (prawdopodobie�stwo klasy po obejrzeniu danych)
Pozw�lcie, �e porozmawiam o bardzo prostej w�a�ciwo�ci ��cznego rozk�adu prawdopodobie�stwa: je�li powiem, P (a, b) mog� zapisa� go w dw�ch typach, jako P(a) razy p(b bior�c pod uwag� a) lub P(b) razy p(b) a). Pozw�l nam to zrozumie� na przyk�adzie: Wyobra� sobie, �e jeste� lekarzem, czekasz na przyj�cie kolejnego pacjenta. Czy ju� wiesz, jaka b�dzie choroba? Czy potrafisz zgadn��, jaka by�aby choroba? cokolwiek wiemy bez patrzenia na dane, nazywamy to wcze�niej. Kiedy poprosi�em o rozmow� z kandydatem w organizacji zajmuj�cej si� oprogramowaniem, nie patrz�c na kandydata, nie patrz�c na jego CV, co mog� powiedzie�, czy kandydat zostanie zatrudniony, czy nie? Jak mam to zrobi�? Patrz� na wszystkich ludzi, kt�rzy brali udzia� w wywiadach i jak� cz�� z nich zatrudnimy?. To si� nazywa wcze�niejsze prawdopodobie�stwo. Ten sam lekarz widzia� wielu pacjent�w w przesz�o�ci i prawid�owo je zdiagnozowa�, a nast�pnie oczekujemy od punktu danych, aby zaklasyfikowa� ich do tej klasy (dane, kt�re prawdopodobnie da�y klas�). Nast�pnie musz� rozwa�y� nawet to, jakie jest prawdopodobie�stwo, �e taki pacjent kiedykolwiek do mnie przyjdzie (Data Prior Marginal). Na podstawie tych informacji musz� przewidzie� przysz�o��. Bior�c pod uwag� ten nowy punkt danych, powiedz mi, jakie jest prawdopodobie�stwo tej klasy. W�a�nie to staramy si� zrobi�, wi�c twierdzenie Bayesa nie jest matematyczn� �onglerk� prawdopodobie�stwa warunkowego. To naprawd� spos�b na po��czenie swoich przesz�ych do�wiadcze� z prognozami na przysz�o��. Istnieje ca�a masa technik modelowania opartych na twierdzeniu Bayesa. Wi�kszo�� uczenia maszynowego sp�dza czas na danych, kt�re prawdopodobnie da�y klas�. Maksymalne prawdopodobie�stwo oznacza, jakie jest prawdopodobie�stwo tych danych pochodz�cych z tej klasy, a my po prostu staramy si� na nich maksymalnie wykorzysta�. S� dwa sposoby my�lenia o twierdzeniu bayesowskim. 1. Decyzja o maksymalnym prawdopodobie�stwie 2. Maksymalna decyzja o prawdopodobie�stwie p�niejszym.

MY�LENIE JAK PODOBNY BAYESJAN To tylko zastosowanie naszej teorii prawdopodobie�stwa w podejmowaniu decyzji. Przedstawi� wam scenariusz, przekonwertujemy zdania angielskie jako prawdopodobie�stwa i prawdopodobie�stwa warunkowe i przejdziemy przez obliczanie prawdopodobie�stw p�niejszych. Wyobra� sobie, �e jeste� producentem maszyny. We� setki os�b, kt�re znasz na raka, i przetestuj je, je�li stwierdzenie m�wi, �e maszyna da 95% poprawnych wynik�w pozytywnych.

P (Test_positive | Has_Cancer) = .95, P (Test_Negative | Has_Cancer) = .05

Oznacza to, �e nawet maszyna m�wi negatywnie i masz raka, to nie znaczy, �e nie masz raka. Co to s� dane i klasa tutaj? Wynik testu to dane, Rak bez raka jest wynikiem. Wyobra� sobie, �e jeste� producentem maszyny. We� setki os�b, kt�re nie maj� raka, i przetestuj je. Je�li maszyna daje poprawny wynik ujemny 90% razy.

P (Test_Negative | No_Cancer) = .9, P (Test_Positive | No_Cancer) = .1

I tylko 0,8% ca�ej populacji ma raka:

P (Has_Cancer) = 0,008, P (No_Cancer) = 0,992

Mamy tutaj do czynienia z dwiema zmiennymi: 1. Niezale�nie od tego, czy pacjent ma raka, czy nie, 2. Test wyszed� pozytywnie lub negatywnie. Teraz pozw�l mi zapyta�, jakie jest prawdopodobie�stwo, �e test jest pozytywny? Aby odpowiedzie� na to pytanie, musimy obliczy� dwie rzeczy: 1. pacjent ma raka jest maszyn� z wynikiem dodatnim lub nie., 2. pacjent nie ma raka jest maszyn� z wynikiem dodatnim lub nie.

= [P (Test_positive | Has_Cancer) * P (Has_Cancer) +
P (Test_Positive | No_Cancer) * P (No_Cancer)]
= 0,95 * 0,008 + .1 * 0,992 = 0,1068

Jakie jest wcze�niejsze prawdopodobie�stwo, �e test jest negatywny?

= [P (Test_Negative | Has_Cancer) * P (Has_Cancer) +
P (Test_Negative | No_Cancer) * P (No_Cancer)]
= 0,05 * 0,008 + .9 * 0,992 = 0,8932

Tak my�limy jak Bayesian. Nie mog� zmierzy�, ile razy b�dzie to pozytywne. To zale�y od rodzaju pacjent�w poddawanych testom. Nie mo�emy po prostu obserwowa� danych, ignoruj�c etykiet� klasy. We�my przyk�ad, chcia�bym przewidzie�, czy dzisiaj kichniesz? To zale�y od tego, jakie s� przyczyny kichania i czy zamierzasz je ujawni�, to mo�emy powiedzie�, czy kichasz, czy nie. Teraz pozw�l mi zada� drugie pytanie. Je�li nowy pacjent wejdzie i wynik testu b�dzie pozytywny, zastosujemy twierdzenie Bayesa. Jakie jest prawdopodobie�stwo raka, je�li wynik testu b�dzie pozytywny?

P (Has_Cancer | Test_Positive)
= [P (Test_positive | Has_cancer) * P (Has_Cancer) / P (Test_Positive)]
= [(0,95 * 0,008) / 0,1068] = 0,07116

Jakie jest prawdopodobie�stwo raka, je�li wynik testu jest ujemny?

P (Has_Cancer | Test_Negative)
= [P (Test_Negative | Has_cancer) * P (Has_Cancer) / P (Test_Negattive)]
= [(0,05 * 0,008) / 0,8932] = 0,00045

nawet dowody m�wi�, �e pacjent ma raka, ale nie musimy si� martwi�, poniewa� wcze�niejsza liczba jest bardzo niska. Aby obliczy� NaiveBayes, musimy wiedzie�, jak obliczy� �redni�, kowariancj� i obliczenie prawdopodobie�stwa Bayesa.
Odleg�o�� Mahalanobisa: kiedy bierzesz dane, we� PCA danych, co robisz, gdy bierzesz PCA danych, zasadniczo usuwasz w nim kowariancj�, a nast�pnie obliczasz odleg�o��, aby sta�a si� odleg�o�ci� Mahalanobisa.
Bayesowski klasyfikator Granica decyzyjna: Pami�taj, �e omawiali�my 2 typy klasyfikator�w w poprzednich cz�ciach, 1. Kszta�t klasy 2. Granica decyzyjna. W granicy decyzji bayesowskiej klasyfikatora u�ywamy obu. To, co robimy, to tworzymy jednego Gaussa na ka�d� klas� i gdziekolwiek dwa s� r�wne, to jest granica naszej decyzji.

NAIWNY KLASYFIKATOR BAYESOWSKI

NaiveBayes jest bardzo wa�n� klas� klasyfikator�w bayesowskich. Warunkowa niezale�no��: znamy niezale�no�� mi�dzy dwiema zmiennymi. Je�li powiem, �e dziej� si� dwa zdarzenia i s� one ca�kowicie losowe, co mo�emy powiedzie� o wsp�lnym prawdopodobie�stwie?

P (A, B) = P (A) * P (B).

Za��my, �e weszli�my do komnaty lekarzy i powiedzieli�my, �e mamy gor�czk� i b�le cia�a. my�lisz, �e te dwa objawy s� niezale�ne? Nie, istnieje wsp�lna przyczyna obu powy�szych objaw�w. lekarze pr�buj� ustali� wsp�ln� przyczyn� wszystkich niezale�nych objaw�w. Powiedzmy, �e infekcja wirusowa powoduje te dwa objawy. Tak wi�c przyczyn� jest infekcja wirusowa. Nast�pnie mo�emy napisa� to zdanie w nast�puj�cy spos�b: P (gor�czka, b�l cia�a | wirusowy) = P (gor�czka | wirusowy) * P (b�l cia�a | wirusowy) to w�a�nie nazywa si� warunkow� niezale�no�ci�.

Ponownie wracaj�c do twierdzenia Bayesa, chc� dowiedzie� si� prawdopodobie�stwa infekcji wirusowej, bior�c pod uwag�, �e pacjent ma gor�czk� i b�l cia�a.

P (wirusowa | gor�czka, b�l cia�a) = [P (gor�czka, b�l cia�a | wirusowy) * P (wirusowa)] / P (gor�czka, b�l cia�a).

ZBUDUJ NAIVEBAYES Z DIABETYCZNEGO ZBIORU DANYCH

Krok 1: Uzyskaj swoje dane:
# load w zestawie danych za pomoc� nast�puj�cego polecenia:
setwd("D:/R data")
Diabds <- read.csv("Diab.csv", header = TRUE)
fix(Diabds)
Krok 2: Poznaj swoje dane:
Lepszym pomys�em jest sprawdzenie zestawu danych poprzez wykonanie
head(Diabds)
str(Diabds)
names(Diabds)
summary(Diabds
Krok 3: Przygotuj swoje dane:
Usu� pierwsz� zmienn� (Pat_Id) ze zbioru danych.
Diabdata <- Diabds [-1]
Krok 4: Za�aduj wymagane pakiety:
Zainstaluj i za�aduj pakiet e1071
install.packages('e1071',dependencies=TRUE)
library(e1071)
Krok 5: Podziel zestaw danych
Diab_test = sample(1:nrow(Diabdata),200)
Diab_train = setdiff(1:nrow(Diabdata),Diab_test)
Krok 6: Zbuduj model
Diab_nb = naiveBayes(Diabdata[Diab_train,2:5],Diabdata[Diab_train,6])
Dia_res = predict(Diab_nb,Diabdata[Diab_test,2:5])
Krok 7: Wy�wietl macierz nieporozumie�
table(Dia_res,Diabdata[Diab_test,6])
Krok 8: Dok�adno�� oblicze�
cm_Diab = table(Dia_res,Diabdata[Diab_test,6])
# oblicz sum� warto�ci przek�tnych w macierzy
correct = sum(diag(cm_Diab))
accuracy = correct / sum(cm_Diab)

KROK 16

Sieci Neuroowe

WPROWADZENIE

Sie� neuronowa (NN) ma neurony i warstwy w swojej architekturze. 3 warstwy w sieci neuronowej to Warstwa wej�ciowa, Warstwa ukryta i Warstwa wyj�ciowa. Ka�da z tych warstw ma w sobie jednostki lub neurony.

Ludzka sie� neuronowa: Podstawow� jednostk� obliczeniow� w uk�adzie nerwowym jest kom�rka nerwowa lub neuron. Neuron ma 1. Dendryty (dane wej�ciowe) 2. Cia�o kom�rki 3. Akson (dane wyj�ciowe). Neuron otrzymuje dane wej�ciowe z innych neuron�w, dane wej�ciowe s� sumowane, a gdy dane wej�ciowe przekraczaj� warto�� krytyczn� neuron wy�adowuje impuls elektryczny, kt�ry przemieszcza si� przez cia�o w d� aksonu, do nast�pnego neuronu. To zdarzenie szczytowe jest r�wnie� nazywane depolaryzacj�, a po nim nast�puje okres refrakcji, podczas kt�rego neuron nie jest w stanie strzela�. Zako�czenia akson�w prawie si� stykaj� z dendrytami lub cia�em kom�rkowym nast�pnego neuronu. Przekazywanie sygna�u elektrycznego z jednego neuronu do drugiego odbywa si� za pomoc� neuroprzeka�nik�w, substancji chemicznych uwalnianych z pierwszego neuronu i wi��cych si� z receptorami w drugim. To ��cze nazywa si� synaps�. Zakres, w jakim sygna� z jednego neuronu jest przekazywany do nast�pnego, zale�y od wielu czynnik�w, np. ilo�� dost�pnego neuroprzeka�nika, rozmieszczenie receptor�w, ilo�� neuroprzeka�nik�w wch�oni�tych ponownie, itd. Przyjrzyjmy si� algorytmowi EM. W klastrze K-oznacza ,�e to co zrobili�my, przypisujemy klastry do punkt�w danych i obliczamy �redni�, po obliczeniu �redniej ponownie przypisujemy punkty danych. Poniewa� nie znamy modelu, zaczynamy gdzie� i stamt�d.

Zastosowania sieci neuronowej:

1. Robotyka - nawigacja, rozpoznawanie wzroku
2. Medycyna - Przechowywanie dokumentacji medycznej
3. Rozpoznawanie mowy
4. Prognozy gie�dowe
5. Kompresja danych
6. Przetwarzanie obrazu
7. Rozpoznawanie twarzy
8. �ledzenie pozycji kabiny lub ci�ar�wki
9. Przetwarzanie sygna�u
10. Rozpoznawanie znak�w odr�cznych.

DLACZEGO SIECI NEURONOWE?

Sie� neuronowa jest prze�omowym algorytmem w uczeniu maszynowym. Po pierwsze, zrozummy, dlaczego regresja logistyczna nie wystarczy? Gdy istniej� wi�cej ni� 2 klasy, dotychczas sugerowali�my wykonanie nast�puj�cych czynno�ci: Przypisz jeden w�ze� wyj�ciowy do ka�dej klasy, ustaw warto�� docelow� ka�dego w�z�a na 1, je�li jest to poprawna klasa, a 0 w przeciwnym razie. U�yj sieci liniowej z funkcja �redniej kwadratowej b��du. Istniej� problemy z t� metod�. Po pierwsze, istnieje rozbie�no�� mi�dzy definicj� funkcji b��du a okre�leniem klasy. B��d minimalny nie musi powodowa�, �e sie� ma najwi�ksz� liczb� poprawnych prognoz. Nowa interpretacja: Wynik yi jest interpretowany jako prawdopodobie�stwo, �e i jest poprawn� klas�. Oznacza to, �e wyj�cie ka�dego w�z�a musi wynosi� od 0 do 1. Suma wynik�w wszystkich w�z��w musi by� r�wna 1. We�my problem XOR, brama EXCLUSIVE-OR jest bramk� z dwoma wej�ciami i jednym wyj�ciem , to klasyczny przyk�ad, dlaczego potrzebujemy sieci neuronowej. XOR. Po prostu we�my dwukierunkowy mechanizm prze��czaj�cy w naszym domu, je�li oboje byli�my w��czeni lub oboje byli�my wy��czeni, prze��cznik uwa�a si� za wy��czony. Je�li kt�rykolwiek z nich jest w��czony, uznaje si�, �e prze��cznik jest w��czony. M�wi, �e je�li oba s� zerami lub oba s� jedynymi, otrzymujemy warto�� X, a ka�dy z nich jest r�wny zero / Jeden otrzymujemy warto�� Y. Bramki XOR daj� warto�� 0, gdy oba wej�cia s� zgodne. Podczas wyszukiwania okre�lonego wzorca bitowego lub sekwencji PRN w bardzo d�ugiej sekwencji danych, mo�na u�y� szeregu bramek XOR do r�wnoleg�ego por�wnania ci�gu bit�w z sekwencji danych z sekwencj� docelow�. Nast�pnie mo�na policzy� liczb� 0 wyj��, aby okre�li�, jak dobrze sekwencja danych pasuje do sekwencji docelowej. Ile linii musimy narysowa�, aby odr�ni� takie punkty danych? Co najmniej dwa, poniewa� jednym nie mog� ca�kowicie rozr�ni� danych. Tutaj musimy zrozumie�, �e regresja logistyczna jest niewystarczaj�ca, poniewa� z�o�ono�� danych jest wi�ksza ni� z�o�ono�� modelu.

Jakie rodzaje linii mog� mie�? Czy mam unikalne rozwi�zanie? Mo�emy uzyska� r�ne rozwi�zania. istniej� cztery r�ne rozwi�zania tego problemu. jeden z nich jest podany na obrazku, przynajmniej z tymi dwiema liniami mog� co� zrobi�. cokolwiek robimy, ostatecznie to, co robi�, to dziel� przestrze� na wiele czystych region�w. Jednak robi� to, niezale�nie od tego, czy robi� to poprzez ustalenie Gaussa, czy mieszanki Gauss�w, z dwoma Gaussianami na klas�, Wyobra� sobie, �e gdybym musia� rozwi�za� ten sam problem z klasyfikatorem opisowym, co bym zrobi�, to wystarczy jeden Gaussian na klas�? Nie, jeden Gauss nie wystarczy. W obu przypadkach, niezale�nie od tego, czy wybierasz opis, czy dyskryminacj�, jest to niezale�ne, charakter danych m�wi, �e jeden gaussowski nie wystarczy, a jedna linia nie wystarczy. Dlatego potrzebuj� dw�ch Gauss�w lub dw�ch linii w dyskryminuj�cym klasyfikatorze. Kiedy m�wimy, �e istnieje wiele lokalnych minim�w, rozumiemy przez to, �e dolna linia to jedno lokalne minima, co oznacza, �e da mi dobr� odpowied�, je�li spojrzysz na inne, to jest inny zestaw parametr�w, kt�ry r�wnie�, dajcie mi bardzo czyste regiony, czyli kolejne lokalne minima. Mo�emy wi�c zrozumie�, �e istnieje wiele rozwi�za� tego problemu. W�a�nie dlatego tego rodzaju algorytmy stanowi� wyzwanie. Pozw�l mi wzi�� jedno r�wnanie na lini�. Teraz mam dwie linie, czy to wystarczy? Pierwsza linia m�wi tylko, czy jeste� po tej czy po tej stronie. Nie m�wi, jaka jest klasa. Powy�sza linia m�wi r�wnie�, czy jeste� po tej czy po tej stronie. Nie m�wi nawet, jaka jest klasa. Potrzebujemy kogo�, kto wys�ucha obu linii i po��czy wyj�cie, a nast�pnie powie, jaka jest klasa ostateczna. Tak wygl�da sie� neuronowa. To jest najprostsza sie� neuronowa, to jest jeden neuron r�wny jednej linii, to jest inny neuron, kt�ry jest inn� lini�, i sp�jrz na wagi, ta linia m�wi 2 razy X1 plus 2 razy X2 minus 1, co daje jedn� lini�. drug� lini� mo�na wyja�ni� w ten sam spos�b. Powy�szy punkt przypomina kierownika zespo�u, s�ucha wszystkich i bierze ich wyniki, odpowiednio je wa�y i popycha do przodu. To jest ostateczna decyzja, kt�r� podejmuje. Pami�taj, �e omawiali�my Hierarchie, tak jak ka�dy in�ynier robi jedn� rzecz, i potrzebujemy kogo�, kto po��czy ich wyniki i podejmie ostateczn� decyzj�. Do tej pory zrozumieli�my, dlaczego potrzebujemy sieci neuronowej. Nauczmy si� je interpretowa�. Sie� neuronowa jest niczym wi�cej ni� jedn� regresj� logistyczn� i kombinatorem na nich. Nazywa si� to r�wnie� wielowarstwowym perceptronem. Pomy�lmy w ten spos�b, jakby nowy punkt danych znajdowa� si� powy�ej pierwszej linii i poni�ej drugiej linii, to m�wimy, �e jest czerwony. w przeciwnym razie jeste� niebieski. Generalnie, kiedy podejmujemy zasady i decyzje, jest to zbi�r O�wiadcze�. We�my na przyk�ad, je�li jeste� po tej stronie linii i po tej stronie drugiej linii, jaka jest odpowied�?. Sp�jrzmy na lini�, kt�ra oznacza, �e jeste� powy�ej dolnej linii. A poni�ej g�rnej linii, je�li oba te warunki s� spe�nione, jeste� czerwony. W systemie opartym na regu�ach s� one ci przekazywane, nie uczysz si� ich, a my po prostu tworzymy regu�� na podstawie tych stwierdze�. Ale w sieciach neuronowych tworzymy regu�� w ten spos�b. W drzewie decyzyjnym regu�� jest ca�a �cie�ka. Pozw�l mi po��czy� to z sytuacj� opieki zdrowotnej, �e je�li masz dreszcze i gor�czk�, problemem mo�e by� gor�czka malaryczna. Sieci neuronowe nazywane s� r�wnie� jako Perceptronami wielowarstwowymi. Je�li mam surowe dane, w kt�rych jedna grupa punkt�w jest osadzona w innej grupie punkt�w, Teraz powiedz mi, ile linii potrzebuj�? Teraz potrzebuj� co najmniej trzech lub wi�cej. Co m�wimy ka�da ukryta jednostka jest lini�. Interpretacja przebiega za ka�dym razem, gdy dodajemy jednostk�, jest to jedna linia, druga ukryta jednostka to inna linia i tak dalej. w zale�no�ci od z�o�ono�ci problemu mog� dodawa� coraz wi�cej ukrytych jednostek i mo�e to dawa� mi coraz wi�cej linii. a nast�pnie dodajemy sta��. Pami�taj, co powiedzieli�my wcze�niej o neuronie, natura neuronu si� nie zmienia, jego wk�ad mo�e si� zmieni�. Neuron po�rodku pobiera informacje z dw�ch lewych jednostek, a pr�g znajduje si� na g�rze. Aktywacja i prze��cznik tworz� neuron. Neuron najbardziej na prawo nie pobiera surowych danych wej�ciowych. Jest to uog�lniony model liniowy, kt�ry przyjmuje punkty �rodkowe jako dane wej�ciowe. Nic nie wie o surowych danych, co oznacza, �e role ka�dego neuronu s� bardzo jasne, wiedz�, co powinien robi�, a czego nie. Nasz podstawowy element obliczeniowy (model neuronu) jest cz�sto nazywany w�z�em lub jednostk�. Odbiera dane wej�ciowe z niekt�rych innych jednostek lub by� mo�e ze �r�d�a zewn�trznego. Ka�de wej�cie ma przypisan� wag� w, kt�r� mo�na modyfikowa�, aby modelowa� uczenie synaptyczne. Jednostka oblicza funkcj� f wa�onej sumy swoich danych wej�ciowych:

• Suma Σj_wij_yj wa�ona nazywana jest wk�adem netto do jednostki i, cz�sto zapisywanym neti.
• Nale�y pami�ta�, �e wij odnosi si� do masy od jednostki j do jednostki i (nie na odwr�t).
• Funkcja f jest funkcj� aktywacji urz�dzenia. W najprostszym przypadku f jest funkcj� to�samo�ci, a wyj�ciem jednostki jest tylko jej wej�cie netto. Nazywa si� to jednostk� liniow�.

Je�li dam ci architektur� sieci neuronowej, powiedzmy, �e mam wej�cia D i zawsze mamy sta�� X0 to zawsze 1. Zawsze istnieje sta�y termin na warstw�. a na ko�cu mamy ukryte jednostki H, a na ko�cu klasy C. Pozw�lmy zrozumie� w przypadku Diabetic Data, gdzie dane wej�ciowe i wyj�ciowe s� ustalone. Nic nie mo�emy na to poradzi�. Co mo�emy zmieni� liczb� ukrytych jednostek i liczb� ukrytych warstw? To daje ci z�o�ono��. Je�li z�o�ono�� osi�gnie okre�lony poziom, dok�adno�� wzro�nie. Teraz powiedz mi, ile mam wag, kt�rych si� ucz�. dla jednej ukrytej jednostki mam W0 i liczb� wej��, co oznacza wagi D + 1. Ile mam ukrytych jednostek. H ukrytych jednostek. to jest liczba parametr�w od teraz do tutaj, dla ukrytej jednostki w nast�pnej warstwie, jest ona obliczana ponownie, w ten sam spos�b, dla klasy ko�cowej, jest obliczana jak (H + 1) C. wi�c ostateczna odpowied� to (D + 1) H + (H + 1) C. W ten spos�b mo�emy obliczy� parametry dla dowolnej z�o�ono�ci. Powiem jeszcze raz, prostym s�owem: sie� neuronowa jest w pe�ni po��czona, pomy�l o pierwszym neuronie, jest po��czona ze wszystkimi wej�ciami D, ka�de wej�cie ma wag�, pomy�l o tym jak o g (W0 + W1X1 + .. . WdXd) jest to regresja logistyczna. daje mi to wyj�cie jednego neuronu. Ile tam jest parametr�w? Jakie s� stopnie swobody? Ile parametr�w si� uczy? Ucz� si� (D + 1) i jest to prawd� nawet w przypadku innych jednostek, poniewa� wszystkie ucz� si� wag D + 1, wi�c (D + 1) H. Teraz ta sama logika jest stosowana do nast�pnej warstwy i tak dalej. We�my jednostki wyj�ciowe C, tutaj dane wej�ciowe b�d� ukrytymi jednostkami poprzedniej warstwy (H + 1), a ja mam C takich jednostek. wi�c C (H + 1). W ten spos�b mo�emy obliczy� szereg parametr�w dla dowolnej z�o�ono�ci. Powiedzmy, �e mamy w siatk�wce 10000 pikseli, to jest tw�j wk�ad, powiedz mi, ile r�nych nachyle� linii mo�esz mi powiedzie�. i wyobra�my sobie, jak wiele wychyle� mo�emy wykry� wizualnie, jest to 60. mo�emy nawet zrobi� dobr� ocen�, ale powiedzmy 60. To znaczy, �e z 10000 wej�� trafi�e� do 60 ukrytych jednostek. Teraz, je�li powiem, nie tylko linie proste, co z krzywymi, mo�esz wykry� wszystkie rodzaje krzywych, mo�esz wykry� krzywe o innej orientacji, mog� kontynuowa� i kontynuowa� i mog� mie� wi�cej ni� liczb� danych wej�ciowych, podobnie w nast�pna warstwa, je�li powiem ko�a, owal, tr�jk�ty i inne, je�li idziemy w g�r� w hierarchii, nie oznacza to, �e zmniejszasz liczb� funkcji. to w�a�ciwie kombinatoryczna eksplozja. Przy niewielkiej liczbie rzeczy stopie� kombinacji faktycznie ro�nie i ro�nie. Tak w�a�nie dzia�a g��boka sie�. radzi sobie z tak� z�o�ono�ci�. Tak m�wi natura, jej natura jest tak z�o�ona, je�li zwierz� lub cz�owiek musi zrozumie� tak� z�o�ono��, Potrzebujemy bardzo z�o�onej sieci neuronowej, ale nie mo�emy tworzy� neuron�w, kt�re s� r�ne, wi�c powiedzmy : Jak mog� stworzy� z�o�on� sie� z tym samym elementem konstrukcyjnym i tym, co musimy zrobi�, zmienia elementy sk�adowe. To jest pi�kno sieci neuronowej. Ka�dy neuron wci�� robi to samo. Wszystko, co robi, to liniowa kombinacja danych wej�ciowych, po kt�rej nast�puje funkcja logistyczna. Wszystkie miliardy neuron�w robi� dok�adnie to samo. Przy takiej prostocie masz tyle z�o�ono�ci. Poniewa� architektura jest inna. Mo�esz mnie zapyta�, co z klasyfikacj� gradientow�. Jest to rodzaj regresji logistycznej, kt�ra ma gradient. Wyobra�my sobie pocz�tkowo, �e te linie s� bardzo losowe, je�li zobaczymy, jak to wygl�da przed treningiem, jest bardzo chaotyczne. Nie wiemy nawet, kt�ra z tych linii stanie si� t� konkretn� lini�. Potrzebujemy mechanizmu do wykonywania mi�kkich przej�� linii. Wyobra� sobie teraz zesp� nowych pracownik�w, przez kt�ry rozwi�zywali�my 5 problem�w, i powiedzia�em, �e potrzebuj� kogo� do wykrycia linii pionowych, kogo� do wykrycia linii poziomej, a oni wszyscy walcz�, aby to zrobi�. W ko�cu jaki� facet m�wi, pozw�l mi znale�� t� lini�, a ty id� i znajd� inn� lini�, tak, �e wszyscy zrobimy co� dobrego, nie mo�emy dokona� klasyfikacji. Takie zachowanie wy�ania si� z pocz�tkowo przypadkowych dzieci do geniuszu.

JAK DECYDUJESZ O LICZBIE UKRYTYCH WARSTW I JEDNOSTEK?

Wa�ne jest, w jaki spos�b decydujesz o liczbie klastr�w w klastrze K-�rednich, jak decydujesz o g��boko�ci drzewa decyzyjnego, jak decydujesz o K w najbli�szych s�siadach, jak decydujesz o szeroko�ci okno parzana, wszystkie s� hiperparametrami. Kontroluj� one z�o�ono�� modelu. to jest co�, co musisz da�. Nie decydujemy o liczbie danych wej�ciowych i nie decydujemy o liczbie danych wyj�ciowych, a nawet nie decydujemy o wagach. Uczymy si� ci�ar�w. Im bardziej z�o�ony model jest wy�szy, tym wi�ksza mo�e by� dok�adno��, ale nale�y zapewni� optymaln� z�o�ono��. Ludzie pytaj� mnie, jaki model powinien by� odpowiedni? To nie jest w�a�ciwe pytanie, w�a�ciwe pytanie, czy zale�y ci na interpretacji wynik�w, czy nie? Pozw�lcie, �e wezm� dwie sytuacje w pierwszej sytuacji, w kt�rej chc� wykry� oszustwo, i nie obchodzi ich, �e nale�y to wyja�ni� konsumentowi, dlaczego nazywamy to oszustwem. Tutaj interpretacja modelu nie jest wa�na, wa�no�� modelu by�a wa�na. W tym przypadku korzystamy z sieci neuronowej, poniewa� bardzo trudno j� interpretowa�. Je�li zale�y Ci na interpretacji, musimy skorzysta� z drzewa decyzyjnego. Pozw�l, �e wezm� inny przyk�ad, w innym przypadku, je�li odrzucisz po�yczk� dla kogo�, musisz poda� powody, nie mo�esz po prostu odrzuci� po�yczki, musisz mie� wa�ny pow�d, dlatego tutaj interpretacja modelu jest bardzo wa�na, nie mo�na tutaj zbudowa� sieci neuronowej, nawet kosztem mniejszej dok�adno�ci u�ywamy drzew decyzyjnych, poniewa� interpretowalno�� jest wysoka. Decyduj�c mi�dzy drzewami decyzyjnymi a sieciami neuronowymi, musisz zapyta�, kt�ra z nich jest dla Ciebie wa�niejsza - jej dok�adno�� lub interpretowalno��. Istniej� inne takie kryteria. Kryteria okre�laj�, jak szybko zmienia si� tw�j model ?. Je�li masz do czynienia z bardzo dynamicznym �rodowiskiem, jeden model, kt�ry zbudowa�e� na lato, nie b�dzie dzia�a� na zim�, to musisz przebudowa� sw�j model, wi�c czy mog� szybko odbudowa� model? Ile czasu zajmuje zbudowanie modelu? Innym kryterium jest to, czy twoja decyzja jest podejmowana w czasie rzeczywistym czy w partii? Je�li decyzja jest podejmowana w czasie rzeczywistym, musisz zbudowa� model, kt�ry mo�e szybko przetwarza� dane i podejmowa� decyzj�. podj�cie decyzji w sprawie oszustwa zwi�zanego z kart� kredytow� musi by� decyzj� podejmowan� w czasie rzeczywistym. Ale je�li budujesz model oceny kredytu , mo�esz u�y� drzewa decyzyjnego. Wi�c mo�esz zada� mi jeszcze jedn� w�tpliwo��, czy mog� u�y� KNN? Mo�e by� bardzo dok�adny, ale zajmie to du�o czasu, poniewa� w KNN oblicza odleg�o�� od wszystkich punkt�w, wi�c nie mo�na go u�ywa� w czasie rzeczywistym. W�a�ciwe pytanie nie brzmi, kt�ry model jest dobry? W�a�ciwe pytanie brzmi: na jakich kryteriach Ci zale�y? Pozw�l, �e powiem ci, jakie s� cztery kryteria, na kt�re musisz spojrze�.

1. Podejmowanie decyzji w czasie rzeczywistym czy nie?
2. Dok�adno��, kt�rej potrzebujesz, czy nie?
3. jak szybko trzeba odbudowa� sw�j model?
4. Interpretowalno�� ma znaczenie czy nie?

pomy�l o tych czterech pytaniach, a nast�pnie zdecydujesz, kt�rej techniki modelowania nale�y u�y�. Idea z�o�ono�ci jest taka: Wyobra� sobie, co si� stanie, je�li na�o�� jeszcze jedn� ukryt� warstw� na t� istniej�c� warstw�. Je�li chcesz bardziej z�o�ono�ci, innym kierunkiem jest zwi�kszenie liczby warstw. Pozw�l nam zrozumie� r�wnanie: Wyj�cie z poprzedniej warstwy j-ta jednostka z poprzedniej warstwy, daj�c ci wa�on� sum�, logistycznie na niej, daje wynik nast�pnej warstwy. jest to r�wnanie rekurencyjne, poniewa� g w warstwie n prowadzi do g w n + 1. Ci�gle idzie naprz�d, to jest to, co robi neuron, ale to, gdzie siedzi, robi r�nic�. Rozmawiali�my o uog�lnionych modelach liniowych. Powiedzieli�my, �e je�li chcemy wykona� regresj� liniow�, nie chcemy tego robi� tylko na X, mo�na to zrobi� na dowolnej funkcji X, To w�a�nie robi ukryta jednostka w przeciwie�stwie do jednostki wej�ciowej, a nast�pnie, to jest nadal model liniowy, zaczynam J od 0, poniewa� W0 jest r�wnie� cz�ci� tego r�wnania liniowego, nie chc� powiedzie� W0 plus co�, dlatego tutaj wstawiamy 1 i zaczynamy od W0 bezpo�rednio. Nast�pnie mo�emy powiedzie�, �e jest to model liniowy, nie mo�emy poradzi� sobie z liniami, musimy upewni� si�, �e nasze neurony s� ograniczone, poniewa� wyobra� sobie, �e je�li tw�j neuron mo�e naprawd� strzela� bardzo wysoko, tw�j m�zg p�knie, wi�c zachowali�my funkcj� logistyczn� , w�wczas g�rny koniec staje si� pochlebny, wi�c funkcja logistyczna w kombinacji liniowej prowadzi do wyj�cia neuronu. Mo�emy okre�li� algorytm sieci neuronowej, taki jak poni�szy

gdzie Zk^{(l + 1)} → Aktywacja k-tego neuronu w nast�pnej warstwie
f → Funkcja aktywacji
Z₀^jl → Aktywacja jth Neuronu w bie��cej warstwie
W_jk^l → Wagi (parametry)

Pozw�l, �e podsumuj� to samo, istniej� r�ne komponenty, mo�esz mapowa� to do struktury neuronu, wi�c dane wej�ciowe to ci faceci, dendryty pochodz�ce z poprzedniej warstwy, wszystkie s� agregowane, wysy�aj� przez Axon do z drugiej strony, po funkcji aktywacji, jest to wyj�cie neuronu, kt�ry trafia do przysz�ych neuron�w. Neuron nie wie, co zrobi� z wyj�ciem, po prostu m�wi, �e je�li si� ze mn� po��czycie, to w�a�nie otrzymacie. Zadaniem funkcji aktywacyjnych jest upewnienie si�, �e liniowa rzecz nie idzie w niesko�czono��, w kierunku dodatnim lub ujemnym, wi�c po prostu ogranicza, �e w systematyczny spos�b istniej� r�ne rodzaje funkcji aktywacyjnych. Wystarczy spojrze� na ich kszta�ty, wszyscy robi� to samo, niezale�nie od tego, co si� zbli�a, dane wej�ciowe mog� by� bardzo du�e, chc� zawrze� ten zakres wyj�ciowy w zakresie od 0 do 1. z tego powodu potrzebujemy czego� powi�za� dane wyj�ciowe. W�a�nie dlatego wstawili�my regresj� logistyczn� w pierwszej kolejno�ci. wi�c kszta�t si� zmienia. Wszystkie te funkcje robi� to samo z niewielkimi zmianami, koncepcja jest blisko granicy, musisz by� w stanie zrobi� co� g�adkiego, aby nie wygl�da�a jak twardy Perceptron, i z dala od granicy musz� by� w stanie zawiera� warto�ci od 0 do 1. je�li te dwie w�a�ciwo�ci istniej�, mo�emy zdefiniowa� wszystkie rodzaje takich funkcji aktywacyjnych, wszystko to pochodzi z neuronauki, przeprowadzaj� wiele eksperyment�w, aby dowiedzie� si�, co to jest w�a�ciwa funkcja. Jednym z problem�w z sieciami neuronowymi by�o to, �e wiem, jak trenowa� ci�ar tej warstwy, im bardziej wewn�trzna jest warstwa, tym trudniej jest j� poprawi�, poniewa� zale�y to od wielu rzeczy, kt�re w ko�cu si� wydarzy�y,i kt�re doprowadzi�o do dobra lub z�a. Pomy�l o tym w ten spos�b, je�li poprosz� dziecko, aby rozpozna�o A w por�wnaniu z 4, neurony, kt�re wykrywaj� linie, odgrywaj� rol�, neuron, kt�ry wykrywa posta� A, odgrywa rol�, �e neuron otrzyma bezpo�redni wk�ad, dziecko powiedzia�o A i to nie jest A. Wi�c musi si� naprawi�, ale ta fiksacja cofnie si� i powie, czy prawid�owo wykry�e� lini�. Czy to mo�e by� pow�d, dla kt�rego nie uda�o si� prawid�owo wykry� A? Tak dzia�a backpropagacja. By� to du�y wynalazek w sieciach neuronowych, kt�ry sprawia, �e sieci neuronowe nawet trenuj� wewn�trzne w�z�y.Je�li jest to jedna warstwa, jest to �atwe. To, co robimy, kiedy budzimy si� w ci�gu dnia, pobieramy dane, kt�re je przedstawiamy, i otrzymujemy informacje zwrotne, odbieramy informacje zwrotne, a nast�pnie propagujemy i uczymy si� itd. Sp�jrzmy na to samo na danych mieszkaniowych _loan, w danych mieszkaniowych _loan ile mamy danych wej�ciowych, to 4, i mamy sta��, potem buduj� model i mam 3 wyj�cia, nie wiem ile ukryte jednostki, kt�rych naprawd� potrzebuj�, mo�e by� mniej lub bardziej ni� klasa, bawimy si� i szkolimy sie� neuronow� dla zestawu danych Housing_loan. P�niej wezm� jeden przyk�ad z tego rz�du, ma on pewne cechy, neurony ju� maj� pewne ci�ary, w oparciu o wagi, kt�rym nadam troch� aktywacji tutaj, kt�ra powie mi, czy jestem po tej czy po drugiej stronie linii, i mamy trzy klasy, Wyobra� sobie, �e zdecydowa�em, �e nowy punkt to klasa 3. Jak wygl�da wyj�cie, oczekuj� 1 w tym miejscu klasy i 0 w pozosta�ych dw�ch klasach. w ten spos�b zamieniasz problem klasyfikacji na problem sieci neuronowej. Poniewa� neuron nie jest jeszcze idealny, mo�e da� ci 0,9, 0,4, 0,6 dla trzech klas, poniewa� nie jest jeszcze w pe�ni wyszkolony, w�wczas znajdujemy b��d i musimy go propagowa� wstecz, dlatego nazywa si� to propagacj� wstecznego b��du. Tutaj, w tym przypadku, musz� z powrotem propagowa� b��d -0,9 b��du, poniewa� zawsze m�wimy, �e cel minus rzeczywisty (0-0,9) jest b��dem. wi�c wagi powoduj�ce b��d tak wysokie, �e teraz spadn�. w drugim przypadku nawet ci�ary spadn�, ale nie tak bardzo, jak w pierwszej sytuacji. w trzecim przypadku otrzymujemy 0,4, wi�c zwi�kszamy wagi, aby aktywacja by�a teraz wy�sza. Tak wi�c b��d musi by� propagowany z g�ry na d�, a dane wyj�ciowe musz� i�� z do�u do g�ry. We�my przyk�ad zastosowa� Google do wykrywania zdj��, kt�re mog� mie� 100 warstw. Interpretacja staje si� znacznie bardziej z�o�ona, ale robi co� bardzo pot�nego. Ilekro� korzystasz z sieci neuronowych, najpierw dowiedz si� wystarczaj�co du�o o danych, zdecyduj, jak s� one z�o�one, w ten spos�b otrzymamy dobry punkt wyj�cia i za��my, �e trzy wygl�daj� wystarczaj�co dobrze, a nast�pnie spr�buj z 2 i 4 parzystymi i zobacz je�li to si� poprawi. je�li poprawi si� na 4, pozw�l mi spr�bowa� nawet z 5 i tak dalej. To kwestia trafienia i pr�by. Z tego powodu praca naukowca danych jest nieco trudna. Mo�e wr�ci� do analizy surowej, zbudowa� bardzo surowy model, a nast�pnie spojrze� wstecz, uczy� si� i tworzy� model ponownie i tak dalej. Prawdziwym prze�omem by�o to, jak uczysz si� tej wagi? Ilo�� obci��enia id�cego w ten spos�b jest proporcjonalna do zaanga�owania tej jednostki w podejmowanie decyzji. Chodzi o to, �e im wy�sza waga, tym wi�cej winy musisz wzi��. Pozw�lcie, �e wezm� scenariusz biznesowy: Ile b��du pope�ni� ten dyrektor jest proporcjonalne do kilku rzeczy, takich jak: Ile to by� b��d ca�kowity i co pope�ni� w tej jednostce, a ile b��d pope�ni� inny i jaki by� jego udzia� w tej decyzji razem ile korekcji musi wykona� to urz�dzenie? Wcze�niejsza propagacja kumuluje b��d i wysy�a go do moich poprzednik�w. Robi� to samo dla moich junior�w, poniewa� w oparciu o ich zaanga�owanie zobowi�za�em si� do mojej V.P. To tak, przekazywanie w prz�d gromadzi informacje i rozpowszechnia oraz wsteczn� propagacj� w gromadzeniu b��d�w i rozpowszechniania. Sp�jrz na pi�kno sieci neuronowych, tych samych neuron�w, kt�re robi� dok�adnie to samo, ale spos�b, w jakie s� po��czone, przekazuj� informacje i b��dy i ucz� si� dalej. Wi�c wagi ci�gle si� ucz�. To by� prze�om i dlatego wszyscy dzisiaj mamy karty kredytowe. Wyobra� sobie, �e gdyby�my nie zastosowali sieci neuronowych do problemu wykrywania oszustw, banki zosta�yby zamkni�te w systemie kart kredytowych. Sie� neuronowa jest bezstanowa, w zasadzie wymaga jednego wej�cia i daje jedno wyj�cie, i bierze ten b��d i propaguje si� z powrotem. Nic nie wie o nast�pnym przyk�adzie. Pami�taj, IID (niezale�ne i identycznie rozmieszczone), neurony s� bezstanowe, robi to do ty�u i do przodu. W wielu innych sytuacjach potrzebujesz stanu, na przyk�ad chcesz zdecydowa�, jak g�o�no chcesz porozmawia� z przyjacielem, to zale�y od tego, gdzie jeste�. Tutaj jest stan, w kt�rym przebywasz i jak daleko on jest lub w pobli�u. Zasadniczo pomy�l o stanie w �rodowisku, w kt�rym poprzedni stan r�wnie� przyczynia si� do nast�pnego wyniku. W sytuacji, gdy zwyk�e sieci neuronowe nie dzia�aj�, wymy�lono co� nowego, zwanego rekurencyjnymi sieciami neuronowymi. W tym przypadku co robi? Pobiera bie��cy sygna� wej�ciowy, generuje stan, ale potem zapami�tuje stan, kt�ry staje si� ponownie sygna�em wej�ciowym, teraz m�wimy, �e tutaj jest tw�j aktualny sygna� wej�ciowy, tutaj jest tw�j stan, razem zdecydujemy, co powinno by� nast�pnym wyj�ciem. Ilekro� masz sekwencyjne problemy z uczeniem si�, takie jak uczenie si� przewidywania rynku akcji, musisz pami�ta� poprzedni stan, a je�li chcesz przewidzie� nast�pne s�owo w sekwencji s��w, musisz pami�ta� stan. Za ka�dym razem, gdy dzieje si� co�, pojawia si� wewn�trzna p�tla sprz�enia zwrotnego. poniewa� jest to cz�� pami�ci w nauce. Jak nasz m�zg ma poj�cie pami�ci. w gr� wchodzi�aby rozk�adaj�ca si� rzecz, poniewa� nie mog� przypisa� takiej samej wagi wczorajszej nauce i jednemu miesi�cowi nauki. To jest jak rozk�ad wyk�adniczy. Pomy�l o tym, wiesz, co zrobi�e� dzi� rano, ale nie wiesz, co zrobi�e� 5 dni temu , wi�c tw�j stan jest zawsze aktualny. Innym rodzajem sieci neuronowej jest sie� kompresyjna. Je�li zrobimy zdj�cie aparatem, dostan� zdj�cie w formacie png, jest ono bardzo du�e, a nast�pnie go kompresuj�. kiedy kompresja nie jest wystarczaj�co dobra, powiniene� by� w stanie j� rozpakowa�. Tylko wtedy otrzymasz obraz JPEG. W tej sytuacji nie uczy si� niczego zwanego nadzorowanym, nie m�wi X do Y, to znaczy, X do skompresowanej wersji X, a nast�pnie rozpakowuje si�, teraz wej�cie i wyj�cie powinny by� podobne. Je�li kompresja jest dobra, to co robi�, przyjmuj� te same liczby, umieszczaj� te same liczby na wyj�ciu, a nast�pnie ucz� si� sieci, jest to technika uczenia si� bez nadzoru, poniewa� nie ma zmiennej Y. Mo�esz u�y� tego wsz�dzie tam, gdzie u�ywasz PCA, PCA jest projekcj� liniow�. Skompresowane sieci neuronowe s� projekcjami nieliniowymi. To jest jak koder mowy, nasze telefony u�ywaj� tego, tw�j g�os najpierw jest kompresowany, a nast�pnie przesy�any na kanale, a nast�pnie inny facet go odbiera, ma ten sam dekoder-dekoder, u�ywa dekodera do dekompresji i us�yszy niewielk� odmian� tego, co oryginalne. Tutaj nie uczymy si� mapowania mi�dzy czym� a czym� innym. Tak jak mapujemy funkcje do etykiet klas. Ale ten problem kompresji oznacza, �e musisz nauczy� si� kompresji i dekompresji, aby og�lny b��d rekonstrukcji og�lnego efektu zosta� zminimalizowany. Szybko�� uczenia si� jest kolejnym parametrem, kt�ry musimy okre�li�, tak jak podali�my Ukryte jednostki. og�lnie rzecz bior�c, zaczynamy od ma�ej szybko�ci uczenia si� i je�li uwa�amy, �e jest to bardzo powolna, w�wczas zwi�kszamy szybko�� uczenia si�, ale w pewnym momencie, je�li zbyt mocno zwi�kszymy szybko�� uczenia si�, zostanie ona przetrenowana, wi�c musimy znale�� optymaln� szybko�� uczenia si� . Wa�nym czynnikiem jest wsp�czynnik uczenia ?, kt�ry okre�la, o ile zmieniamy wagi w na ka�dym kroku. Je�li ? jest zbyt ma�e, algorytm zbiegnie si� d�ugo. I odwrotnie, je�li ? jest zbyt du�e, mo�emy w ko�cu odbi� si� od powierzchni b��du poza kontrol�, algorytm si� rozbiera.

BUDOWANIE SIECI NEURONOWYCH W ZBIOREZ DANYCH HOUSING_LOAN

Krok 1: Zainstaluj i za�aduj wymagane pakiety
install.packages('neuralnet')
library("neuralnet")
library(dummies)
library(vegan)
Krok 2: �adowanie danych do R:
loandata=read.csv(file="D:\\R data\\Housing_loan.csv", header=TRUE, sep=",")
fix(loandata)
Krok 3: Usu� kolumn� Identyfikator kolumny z danych
loandata2=subset(loandata, select=-c(ID))
fix(loandata2)
Edu_dum =dummy(loandata2$Education)
loandata3=subset(loandata2,select=-c(Education))
fix(loandata3)
loandata4=cbind(loandata3,Edu_dum)
fix(loandata4)
Krok 4: Standaryzuj dane, stosuj�c metod� "Range"
loandata_stan=decostand(loandata4,"range")
fix(loandata_stan)
# Ustaw ziarno, aby uzyska� te same dane za ka�dym razem
set.seed (123)
Krok 5: Pobierz losow� pr�bk� 60% rekord�w danych poci�gu
train = sample(1:1000,600)
loan_train = loandata_stan[train,]
# Pobierz losow� pr�bk� 40% rekord�w dla danych testowych
test = (1:1000) [-train]
loan_test = loandata_stan[test,]
table(loandata_stan$Loan_sanctioned)
table(loan_train$Loan_sanctioned)
table(loan_test$Loan_sanctioned)
rm(loandata2, loandata3, loandata4,loandata_stan, Edu_dum, test, train)
Krok 6: Zbuduj sie� neuronow�
nn <- neuralnet(Loan_sanctioned~ Age+Experience+
Income+Family+ Education1+Education2+ Education3,
data=loan_train, hidden=c(2,3))
out <- cbind(nn$covariate, nn$net.result[[1]])
fix(out)
dimnames(out) = list(NULL,c ("Age","Experience","Income","Family","Education1","
Education2", "Education3","nn-output"))
Krok 7: Wy�wietl najlepsze rekordy w zestawie danych
head(out)
plot(nn)
Krok 8: Przygotowanie danych do matrycy klasyfikacji
p=as.data.frame(nn$net.result)
colnames(p)="pred"
pred_class <- factor(ifelse(p$pred > 0.5, 1, 0))
a <- table(pred_class, loan_train$Loan_sanctioned)
recall <- a[2,2]/(a[2,1]+a[2,2])*100
Krok 9: Pobieranie wymaganych kolumn z danych
test_data2=subset(loan_test, select=-c(Loan_sanctioned))
new.output <- compute(nn,covariate=test_data2)
p=as.data.frame(new.output$net.result)
colnames(p)="pred"
pred_class <- factor(ifelse(p$pred > 0.5, 1, 0))
a <- table(pred_class,loan_test$Loan_sanctioned)
recall <- a[2,2]/(a[2,1]+a[2,2])*100
recall
Krok 10: Zagraj z r�nymi strukturami w�z��w (3), (2,2), (4,3)

Mo�emy wzi�� r�ne ukryte warstwy i r�ne ukryte dane wej�ciowe i stworzy� model, sprawdzi� ich dok�adno�� i przywo�a� procenty. Nast�pnie sfinalizuj model na podstawie dok�adno�ci i przywo�aj zestaw danych sprawdzania poprawno�ci (testowania).

KROK 17

Obs�uga Maszyn Wektorowych

WPROWADZENIE

Support Vector Machine (SVM) to narz�dzie do klasyfikacji i regresji, kt�re wykorzystuje teori� uczenia maszynowego, aby zmaksymalizowa� dok�adno�� predykcyjn�, jednocze�nie automatycznie unikaj�c nadmiernego dopasowania do danych. Ilekro� my�limy o stworzeniu modelu, my�limy o kilku rzeczach, takich jak z�o�ono��, determinizm, pr�bkowanie, cechy itp. Z�o�ono��: w dobrej technice modelowania powinni�my by� w stanie kontrolowa� jej z�o�ono��, w przypadku mieszanki Gaussa z�o�ono�� jest liczb� komponent�w o z�o�ono�ci sieci neuronowej to liczba ukrytych jednostek i ukrytych warstw. Determinizm: chc�, aby algorytm wytwarza� ci�gle to samo z tymi samymi danymi treningowymi. Wyobra� sobie inne algorytmy w zale�no�ci od punktu pocz�tkowego, kt�ry idzie gdzie indziej. nie jest to po��dana w�a�ciwo��, ale dzieje si� tak, gdy masz z�o�ony model. Perceptron, sieci neuronowe, K-oznacza Klastry maj� ten sam problem, za ka�dym razem nie daj� tego samego wyniku.

Optimal Hyper Plane: Problem klasyfikacji mo�na ograniczy� do kontemplacji problemu dw�ch klas bez utraty og�lno�ci. W tym problemie celem jest rozr�nienie dw�ch klas za pomoc� funkcji indukowanej na podstawie przedstawionych przyk�ad�w. Celem jest stworzenie klasyfikatora, kt�ry b�dzie dzia�a� dobrze na niewidzialnych przyk�adach, tj. dobrze si� uog�lni. Istnieje wiele potencjalnych klasyfikator�w liniowych, kt�re mog� oddzieli� dane, ale jest tylko jeden, kt�ry maksymalizuje margines (maksymalizuje odleg�o�� mi�dzy nim a najbli�szym punktem danych ka�dej klasy). Ten liniowy klasyfikator nazywa si� optymaln� hiperp�aszczyzn� oddzielaj�c�. Powiedzmy, �e mam zestaw danych z problemem dw�ch klas, chc� zbudowa� klasyfikator i u�ywam Perceptron jako klasyfikatora. Perceptron, bez wzgl�du na to, gdzie si� zaczyna, kontynuuje nauk� i gdy tylko przestaje pope�nia� b��d, przestaje si� uczy�. Mo�emy mie� wiele perceptron�w (Infinite) dla zestawu danych, kt�ry ma problem z dwiema klasami. Wszystkie te perceptrony maj� ten sam koszt b��dnej klasyfikacji, co zero. wi�c wszystkie te mog� by� prawid�owymi modelami. Ale co jest z nimi nie tak? Po pierwsze, nie s� deterministyczne, co oznacza, �e za ka�dym razem, gdy zaczynam gdzie indziej, daje to inny rezultat. Jest jeszcze jeden problem, s� punkty, kt�re s� naprawd� blisko granicy. Wi�c jest to delikatny model. Je�li otrzymam nieco inny punkt danych, mo�e pope�ni� du�y b��d. Nie tego chcemy. Chcieli�my, aby model by� bardziej solidny. Teraz, gdy mamy te problemy, powinni�my spr�bowa� czego� lepszego ni� istniej�ce modele, takie jak pojawi� si� SVM. Pomy�l teraz intuicyjnie, gdzie powinna by� granica decyzyjna. Powinien znajdowa� si� daleko od obu punkt�w danych, czyli w �rodku najbli�szych punkt�w danych. Granica decyzji musi by� solidna. niewielkie zmiany i ha�as nie powinny wp�ywa� na granic� decyzji.

Wyobra� sobie, �e s� to dwie wioski, a ty chcesz zrobi� mi�dzy nimi drog�. Droga musi by� tak szeroka, jak to mo�liwe, ale istnieje ograniczenie, je�li chc� zbudowa� szerok� drog�, ale nie chc� rozbija� dom�w. Pr�bujemy tutaj zbudowa� granic� tak solidn�, jak to mo�liwe, bez niszczenia dom�w po obu stronach. Jaki by�by dobry klasyfikator? Chc� liniowego klasyfikatora takiego, �e chc� narysowa� lini� po obu stronach i zatrzyma� si� tam, gdzie jest pierwszy dom. a nast�pnie spojrze� na szeroko�� tej drogi. Jest to r�wnie� nazywane klasyfikatorem maksymalnego marginesu. Tutaj nie wszystkie punkty danych s� wa�ne, punkty danych znajduj�ce si� w pobli�u granicy s� wa�ne. Pytanie brzmi, czy mo�esz znale�� domy, wzd�u� kt�rych mog� zrobi� drog�. Pozw�l nam zobaczy� jak matematyk rozwi�zuje problem uczenia maszynowego. Je�li mam hiperp�aszczyzn� i chc� zmierzy� odleg�o�� prostopad�� mi�dzy pocz�tkiem a lini�, b�dzie to tyle (- B / | w |).

Wi�c chc� znale�� W i B, pr�bujemy tutaj, je�li mogliby�my znale�� rodek drogi, je�li p�jdziesz +1 tutaj lub -1 tutaj nie powinno by� nic (�adnych dom�w) pomi�dzy nimi. Tak wi�c r�wnanie wygl�da mniej wi�cej tak: Xi (najbli�szy punkt danych), dla wszystkich dom�w, kt�re s� po jednej stronie drogi, warunek ten powinien obowi�zywa� (W + B> = +1) dla wszystkich dom�w, kt�re s� na po drugiej stronie drogi, drugi stan powinien si� utrzyma�. (W + B <= -1). Teraz pami�taj, co robi� Perceptron, Perceptron m�wi, �e Xi W + W0 jest> 0 lub <0. W Perceptron, gdy tylko przekroczysz granic�, znajdziesz si� po drugiej stronie. Nie ma poj�cia marginesu. To tylko linia. W SVM potrzebujemy marginesu b��d�w, wi�c zamiast powiedzie� 0, wstawimy tutaj 1 i -1. Jest to jedyna r�nica mi�dzy Perceptronem, kt�ry ma zerow� mar�� a SVM, kt�ra ma maksymalny margines, co oznacza, �e zwi�kszamy grubo�� perceptronu. Je�li umie�cimy oba powy�sze r�wnania w jednym, otrzymamy Yi (Xi.W + B) -1> = 0. W uczeniu nadzorowanym zawsze definiujemy funkcj� celu i rozwi�zujemy j�. Funkcja celu sk�ada si� z dw�ch cz�ci. (Maksymalizuj, ograniczenia). Tutaj staramy si� zmaksymalizowa� margines pod warunkiem, �e nie b�dzie szk�d dla dom�w. Powiedz mi teraz, ile tu jest ogranicze�? Wr��my do sytuacji programowania liniowego. W programowaniu liniowym rysujemy wi�zk� linii, kt�re s� uwa�ane za ograniczenia liniowe. Dlatego uwa�amy, �e powinno to znajdowa� si� po jednej stronie linii. Nie mog� narysowa� linii tak szerokiej, jak to mo�liwe, poniewa� mam ograniczenie, �e nie mog� rozbi� dom�w. Mam teraz N (��czn� liczb� punkt�w danych), poniewa� nie mog� z�ama� �adnego z dom�w. Na wst�pnym schemacie wszystkie linie s� mo�liwe, ale musimy dalej dostroi� moj� funkcj� celu, aby uzyska� unikaln� lini� lub optymalne rozwi�zanie. Linia po�o�ona najdalej z obu stron jest najlepsza, poniewa� maksymalizuje margines. Kiedy formu�ujemy problem, oznacza to tylko, �e gdyby to by�a linia, jaki by�by margines, jakie by�yby ograniczenia, a nast�pnie rozwi�zali�my dla tego, co by�oby lini�. To tak, jakby X by� rozwi�zaniem i rozwi�za� dla X. Je�li spojrzymy na matematyk�, Geometria m�wi: Je�li narysowa�em prostopad�� lini� od pocz�tku do dowolnej linii, w�wczas d�ugo�� wynosi (-b / w). wtedy, gdy spojrzymy na pozosta�e dwie linie, jedna jest powy�ej, a druga poni�ej, ich d�ugo�� wynosi�aby (1-b / w) i (-1-b / w), Margines by�by jednym r�wnaniem minus inne r�wnanie. B zostaje anulowane, a otrzymujemy 2 / W.

Tutaj mamy funkcj� celu i zestaw ogranicze�. Ograniczenia to liczba punkt�w danych, poniewa� nie mo�emy rozbi� �adnego domu W wiosce ka�dy punkt danych (Dom) jest moim ograniczeniem. Naszym celem jest optymalizacja funkcji celu przy danych ograniczeniach. W tej sytuacji Lagrange zaproponowa� Mno�nik, kt�ry m�wi, �e musimy zap�aci� pewn� kar� za z�amanie ka�dego ograniczenia. Za��my, �e w przypadku naruszenia i-tego ograniczenia p�acisz kar� Alpha I Ci (x). Ta alfa nazywa si� mno�nikiem Lagrange'a. Nast�pnie sumujemy wszystkie kary. W algorytmie maszyny wektorowej Wsparcia mo�emy zastosowa� trzy triki:

1. Konwersja pierwotna na podw�jn�
2. Zmienne swobodne
3. Wyb�r j�dra

Pomy�l tylko, �e naszym celem jest maksymalizacja marginesu, wi�c naruszenie ograniczenia powinno zminimalizowa� warto��. Musimy wi�c odj�� og�lne sumowanie kar od funkcji celu, kt�r� staramy si� maksymalizowa�.

PODSTAWOWA PODW�JNA KONWERSJA

Mno�nik Lagrange′a: Pozw�lcie, �e wezm� prosty przyk�ad, aby�cie mogli zrozumie� ca�� teori�. Wyobra�my sobie, �e twoja �ona dzwoni�a do ciebie i powiedzia�a, �e o 19.30 planuje wyj�� na zakupy. Teraz Twoim celem jest wczesne dotarcie do domu. To jest twoja funkcja celu. Masz zestaw ogranicze�, takich jak wcze�niejsze zako�czenie pracy, nie je�d� bardzo szybko, nie przeskakuj sygna�u, nie uderzaj w �aden pojazd itp., Je�li naruszysz kt�rekolwiek z tych ogranicze�, zostaniesz ukarany, kara r�ni si� od jedno ograniczenie do drugiego. Na koniec sumujemy wszystkie kary i odejmujemy je od funkcji celu, kt�r� pr�bujesz zmaksymalizowa�. Musimy pomy�le�, czy naruszaj�c jakiekolwiek ograniczenie, czy nie, osi�gn�li�my nasz cel. Gdyby�my nie z�amali �adnego ograniczenia, nasza kara wyni�s�aby zero.

Pierwotny problem Lagrange′a wygl�da tak jak powy�ej i musimy zrozumie�, �e chcemy przekszta�ci� ten pierwotny problem w podw�jny problem, abym m�g� pozby� si� W i B. Poniewa� je�li znam alf�, potrafi� obliczy� w i b. tak jest, je�li wiem, jakie s� domy, kt�rych nie powinienem burzy� podczas uk�adania drogi, mog� odpowiednio zaplanowa� swoj� drog�. Podw�jna posta� r�wnania wygl�da tak, �e nie mamy wi i b

Wa�n� rzecz� do zapami�tania jest to, �e mo�emy zmaksymalizowa� margines, identyfikuj�c te punkty danych (domy), kt�re b�d� stanowi� granic�, w zasadzie s� to tak zwane wektory wsparcia. S� to wektory, poniewa� s� to punkty w przestrzeni o du�ych wymiarach i s� to punkty (wektory) podtrzymuj�ce p�aszczyzn� (granica decyzji). Mamy jedno ograniczenie dla jednego punktu danych, a po rozwi�zaniu tego wygenerowali�my wi�zk� warto�ci alfa dla ka�dego punktu danych. Te warto�ci alfa m�wi�, �e punkt ten znajduje si� w pobli�u granicy decyzji, czy nie. Wa�ne jest, aby zrozumie�, �e wi�kszo�� warto�ci alfa wynosi zero, poniewa� wi�kszo�� punkt�w danych znajduje si� w granicach (wi�kszo�� dom�w znajduje si� w wiosce). Musimy tu zrozumie�, �e im wy�sza warto�� alfa, tym wy�szy punkt znajduje si� na drodze.

ZMIENNE SWOBODNE

Do tej pory omawiamy dane, kt�re mo�na rozdzieli� liniowo. Teraz zastan�w si�, co si� stanie, je�li punkt�w danych nie da si� rozdzieli� liniowo. Wyobra� sobie tylko dane ze �wiata rzeczywistego, kt�rych zwykle nie mo�na oddzieli� liniowo. Tutaj musimy zastosowa� jeszcze jedn� sztuczk� zwan� zmiennymi swobodnymi. Je�li zestawu treningowego nie da si� rozdzieli� liniowo, stosujemy standardowe podej�cie, aby pozwoli� marginesowi decyzji dotycz�cej t�uszczu pope�ni� kilka b��d�w dla niekt�rych punkt�w danych, takich jak warto�ci odstaj�ce lub ha�a�liwe przyk�ady, kt�re znajduj� si� wewn�trz lub po niew�a�ciwej stronie marginesu. Nast�pnie ponosimy koszty za ka�dy b��dnie sklasyfikowany przyk�ad, kt�ry zale�y od tego, jak daleko jest do spe�nienia wymogu depozytu zabezpieczaj�cego. Aby to zaimplementowa�, wprowadzamy zmienne luzu. Niezerowa warto�� ?i pozwala xi nie spe�nia� wymogu mar�y przy koszcie proporcjonalnym do warto�ci ?i. Problemem zwi�zanym z optymalizacj� jest zatem kompromis mi�dzy tym, jak gruby mo�e zrobi� margines, a tym, ile punkt�w nale�y przesun��, aby umo�liwi� ten margines. Margines mo�e by� mniejszy ni� 1 dla punktu xi poprzez ustawienie >i> 0, ale nast�pnie p�aci si� kar� C?i w minimalizacji za zrobienie tego. Suma ?i daje g�rn� granic� liczby b��d�w treningowych.Mi�kkie arginesy SVM minimalizuj� b��d szkolenia, kt�ry jest wymieniany z marginesem. Parametr C jest terminem regularyzacji, kt�ry zapewnia spos�b kontrolowania nadmiernego dopasowania: poniewa� C staje si� du�y, nieatrakcyjne jest nieprzestrzeganie danych kosztem zmniejszenia marginesu geometrycznego; gdy jest ma�y, �atwo jest uwzgl�dni� niekt�re punkty danych za pomoc� zmiennych swobodnych i ustawi� gruby margines , aby modelowa� wi�kszo�� danych. Obserwuj powy�sze punkty danych i podane ograniczenia. Z tymi punktami danych mo�liwa jest droga, ale

Co to za model?

• Jaki jest model?
• Jakie s� parametry?
• Czym jest z�o�ono��?
ZADANIE KERNELA

Je�li dane mo�na rozdzieli� nieliniowo, oznacza to, �e je�li danych nie mo�na oddzieli� lini� prost�, to chcemy, aby SVM rzutowa� dane do przestrzeni o wi�kszych wymiarach, aby umo�liwi� to liniowo lub wykona� separacj� liniow�. To si� nazywa sztuczka j�dra.

BUDOWANIE MASZYNY WEKTOROWEJ W OPARCIU O ZBI�R DANYCH HOUSING_LOAN

setwd ("Dane D: / R")
# �adowanie danych do R:
loandata=read.csv(file="Housing_loan.csv", header=TRUE)
# Przygotowanie danych: Usu� identyfikator kolumny z danych
loandata2=subset(loandata, select=-c(ID))
fix(loandata2)
# Zmienna "Edukacja" ma wi�cej ni� dwie kategorie (1: licencjackie, 2: magisterskie, 3: zaawansowane / profesjonalne), # wi�c musimy utworzy� zmienne zast�pcze dla ka�dej kategorii, aby uwzgl�dni� je w analizie. Utw�rz zmienne zast�pcze dla zmiennej kategorialnej
# "Edukacja" i dodaj te zmienne oboj�tne do oryginalnych danych.
install.packages("dummies")
library(dummies)
#Zainstaluj i za�aduj pakiet "manekin�w", aby utworzy� zmienne zast�pcze
Edu_dum=dummy(loandata2$Education)
head(Edu_dum)
loandata3=subset(loandata2,select=-c(Education))
loandata4=cbind(loandata3,Edu_dum)
head(loandata4)
# Standaryzacja danych: Standaryzuj dane, stosuj�c metod� "Range"
install.packages("vegan")
library(vegan)
loandata5=decostand(loandata4,"range")
#Przygotuj zestawy danych o poci�gach i testach. We� losow� pr�bk� 60% rekord�w dotycz�cych poci�gu
data
train = sample(1:1000,600)
train_data = loandata5[train,]
nrow(train_data)
# We� losow� pr�bk� 40% rekord�w dla danych testowych
test = (1:1000) [-train]
test_data = loandata5[test,]
nrow(test_data)
# Podsumowanie danych dla zmiennej odpowiedzi "Loan_sanctioned":
table(loandata5$Loan_sanctioned)
#Train Data
table(train_data $Loan_sanctioned)
#Dane testowe
table(test_data$Loan_sanctioned)
# Klasyfikacja za pomoc� SVM:
install.packages("e1071")
library(e1071)
# Zainstaluj i za�aduj pakiet e1071, aby przeprowadzi� analiz� SVM.
x = subset(train_data, select = -Loan_sanctioned)
y = as.factor(train_data$Loan_sanctioned)
?svm
model = svm(x,y, method = "C-classification", kernel = "linear", cost = 10, gamma = 0.1)
# J�dro: J�dro u�ywane podczas szkolenia i przewidywania. Mo�esz rozwa�y� zmian� niekt�rych nast�puj�cych parametr�w, w zale�no�ci od typu j�dra.
# koszt naruszenia ogranicze� (domy�lnie: 1) -jest to sta�a "C" terminu regularyzacji w sformu�owaniu Lagrange′a.
# Gamma: parametr wymagany dla wszystkich j�der z wyj�tkiem liniowego.
summary(model)
# Test z danymi poci�gu
pred = predict(model, x)
table(pred, y)
# Test z danymi testowymi
a = subset(test_data, select = -Loan_sanctioned)
b = as.factor(test_data$Loan_sanctioned)
pred= predict(model, a)
table(pred, b)
model2 = svm(x,y, method = "C-classification", kernel = "radial", cost = 10, gamma = 0.1)
summary(model2)
#Test z danymi poci�gu
pred = predict(model, x)
table(pred, y)
#Test z danymi testowymi
pred = predict(model, a)
table(pred, b)

KROK 18

Ensemble Learning

WPROWADZENIE

Przejd�my do innego wymiaru technik modelowania, zwanego metodami zespolonymi. Do tej pory omawiali�my poszczeg�lne modele i widzimy, jak radzi� sobie z rosn�c� z�o�ono�ci�, ale zastan�wmy si�, co zrobi�, je�li te modele nie s� wystarczaj�co dobre? Je�li liniowy SVM nie wystarczy, idziemy do wielomianowej SVM stopnia 2, a nast�pnie stopnia 3, je�li to nie wystarczy, przechodzimy do nieliniowej SVM z j�drem RBF, istnieje spos�b na zwi�kszenie z�o�ono�ci, ale jak widzieli�my, wzrost z�o�ono�ci zwi�kszy dok�adno�� do jednego okre�lonego poziomu. W tej metodzie ci�gle zwi�kszamy z�o�ono��. Kolejnym du�ym obszarem poprawy wydajno�ci modelu jest opracowanie lepszych funkcji. Mo�esz powiedzie�, �e wyodr�bni�em wiele funkcji i zbudowa�em model, zbudowa�em najlepszy mo�liwy model z tym zestawem funkcji, nie mog� zrobi� nic lepszego, pozw�l mi wr�ci� do moich danych, pozw�l mi ulepszy� moje funkcje , dodaj jeszcze kilka funkcji, ponownie zbuduj model z�o�ony i ten cykl trwa. Z surowymi funkcjami mo�emy potrzebowa� z�o�onych modeli, ale przy lepszej in�ynierii funkcji mo�emy potrzebowa� prostego modelu. Przyjmijmy inne podej�cie do poprawy wydajno�ci naszego modelu, zwane uczeniem si� w zespole. W ten spos�b, zamiast uczy� si� na z�o�onym modelu, uczymy si� wielu prostych modeli i ��czymy je. Takie jest podej�cie do zwi�kszenia og�lnej z�o�ono�ci modelu. Zesp� jest niczym innym jak grup� rzeczy jako pojedyncz� kolekcj�. Do tej pory zajmujemy si� pobieraniem danych, wydobywaniem niekt�rych funkcji, szkoleniem modelu, zwi�kszaniem z�o�ono�ci modelu i uzyskiwaniem danych wyj�ciowych. Zesp� to technika ��czenia wielu s�abych uczni�w w celu stworzenia silnego ucznia. W statystyce i uczeniu maszynowym metody zespolone wykorzystuj� wiele modeli, aby uzyska� lepsz� wydajno�� predykcyjn� ni� mo�na by uzyska� z dowolnego z g��wnych modeli. Termin zesp� jest zwykle zarezerwowany dla metod generuj�cych wiele hipotez przy u�yciu tego samego podstawowego ucznia. Ocena predykcji zestawu zwykle wymaga wi�cej oblicze� ni� ocena predykcji pojedynczego modelu, wi�c zespo�y mog� by� uwa�ane za spos�b na zrekompensowanie s�abych algorytm�w uczenia si� poprzez wykonanie wielu dodatkowych oblicze�. Szybkie algorytmy, takie jak drzewa decyzyjne, s� powszechnie stosowane w zestawach.

BAGGING

Bagging jest technik� stosowan� do zmniejszania wariancji naszych prognoz poprzez ��czenie wyniku kilku klasyfikator�w modelowanych na r�nych podpr�bkach (pr�bkowanie danych) tego samego zestawu danych. Utw�rz wiele zestaw�w danych: Pr�bkowanie jest wykonywane z zast�pieniem oryginalnych danych i tworzone s� nowe zestawy danych. Nowe zestawy danych mog� zawiera� u�amek kolumn, a tak�e wierszy, kt�re s� og�lnie hiperparametrami w modelu workowania. Pomaga to w tworzeniu solidnych modeli, mniej podatnych na nadmierne dopasowanie. Budujemy wiele klasyfikator�w na ka�dym zestawie danych i prognozy s� dokonywane. Po��czone klasyfikatory: prognozy wszystkich klasyfikator�w s� ��czone przy u�yciu warto�ci �redniej lub trybu w zale�no�ci od problemu biznesowego. Po��czone warto�ci s� w wi�kszo�ci bardziej niezawodne ni� pojedynczy model. Wi�ksza liczba modeli ma zawsze lepsz� wydajno�� ni� ni�sze liczby. Mo�na hipotetycznie wykaza�, �e wariancja po��czonych prognoz jest zmniejszona do 1 / n (n: liczba klasyfikator�w) pierwotnej wariancji. Kroki w agregacji Bootstrap (Bagging):

• Zaczynamy od wielko�ci pr�bki N.
• Tworzymy du�� liczb� pr�bek o tym samym rozmiarze. Nowe pr�bki s� generowane z zestawu danych szkoleniowych przy u�yciu pr�bkowania metod� zast�pcz�. Nie s� wi�c identyczne z oryginaln� pr�bk�.
• Powtarzamy to wiele razy, mo�e 1000 razy, i dla ka�dej z tych pr�bek �adowania pocz�tkowego obliczamy jego �redni�, kt�ra nazywa si� szacunkami �adowania pocz�tkowego.
• Utw�rz histogram z tymi szacunkami, je�li zapewnia oszacowanie kszta�tu rozk�adu �redniej, z kt�rego mo�emy dowiedzie� si�, o ile �rednia si� zmienia.

Kluczow� zasad� bootstrap jest zapewnienie sposobu symulowania powtarzaj�cych si� obserwacji z nieznanej populacji na podstawie uzyskanej pr�bki jako podstawy. Pobieramy n *
LASY LOSOWE

Random Forest to metoda uczenia si� przez zestaw do klasyfikacji i regresji, polegaj�ca na tworzeniu wielu drzew decyzyjnych. Losowe lasy s� do�� szybkie i �atwe w u�yciu. Potrafi� poradzi� sobie z rzadkimi danymi, a dzi�ki Random Forest mo�emy rozwi�za� problem nadmiernego dopasowania. Random Forest mo�e pobiera� inny podzbi�r (pr�bk�) danych z zamiennikiem, a nawet mo�e pr�bkowa� cechy, co oznacza, �e wykonuje pr�bkowanie danych (obserwacje), a tak�e pr�bkowanie cech (zmienne). Ostatecznie decyzj� podejmuje si� wi�kszo�ci� g�os�w. W drzewie decyzyjnym budowane jest jedno drzewo decyzyjne, a w algorytmie losowego lasu wiele drzew decyzyjnych jest budowanych podczas procesu. G�osowanie z ka�dego drzewa decyzyjnego jest brane pod uwag� przy podejmowaniu decyzji o ostatecznej klasie sprawy lub obiektu, nazywa si� to procesem zespo�owym. Poniewa� wiele drzew decyzyjnych jest budowanych i wykorzystywanych w procesie algorytmu Losowego Lasu, nazywa si� to Lasem. Wiemy, �e ramka danych ma dwa wymiary: 1. Rz�dy i 2. Kolumny. W przypadku budowy drzewa decyzyjnego wybiera si� pr�bki ramki danych zast�puj�c je wraz z wyborem podzestawu kolumn dla ka�dego drzewa decyzyjnego. Zar�wno pr�bkowanie ramki danych (Pr�bkowanie danych), jak i wyb�r podzbioru zmiennych (Pr�bkowanie cech) odbywa si� losowo. Dlatego nazywamy to Losowym Lasem. Losowe lasy poprawiaj� dok�adno�� predykcyjn� o generowanie du�ej liczby drzew �adowanych na podstawie losowych pr�bek zmiennych, klasyfikowanie przypadku przy u�yciu ka�dego drzewa w tym nowym "lesie" oraz podejmowanie ostatecznych przewidywanych wynik�w poprzez ��czenie wynik�w we wszystkich drzewach.

BUDOWANIE MODELU PRZY U�YCIU LASU LOSOWEGO

Krok 1: Zainstaluj i za�aduj wymagane pakiety i bibliotek�
install.packages('randomForest')
library(randomForest)
Krok 2: Odczytaj dane i utw�rz ramk� danych.
Diab<-read.csv(file="D:/R data/Diab.csv",header = T)
Krok 3: Przegl�daj ramk� danych
fix(Diab)
str(Diab)
Krok 4: Ustaw ziarno, aby uzyska� powtarzalne wyniki
set.seed (4848)
Krok 5: Utw�rz poci�g i przetestuj zestawy danych Poci�g (70%), Test (30%).
# We� losow� pr�bk� 70% rekord�w danych poci�gu
train = sample(1:500,350)
train_data = Diab[train,]
nrow(train_data)
# We� losow� pr�bk� 30% rekord�w dla danych testowych
test = (1:500) [-train]
test_data = Diab[test,]
nrow(test_data)
Krok 6: Zbuduj model za pomoc� algorytmu losowego lasu
fit <- randomForest(as.factor(Diabetic) ~ Gender + Age + OGTT + DBP + BMI,
data=train_data, importance=TRUE, ntree=400)
Krok 7: Sprawd�, jakie zmienne by�y wa�ne:
varImpPlot(fit)
Krok 8: Sprawd� poprawno�� modelu, przewiduj�c niewidoczne dane
Prediction <- predict(fit, test_data)
Final <- data.frame(Id = test_data$Pat_Id, Diabetic = Prediction)
fix(Final)
Krok 9: Je�li nie jeste� zadowolony z wynik�w modelu, mo�esz spr�bowa� wnioskowania warunkowego drzewa, kt�re podejmuj� decyzje za pomoc� testu statystycznego, a nie czysto�ci pomiaru.
install.packages('party')
library(party)
fit <- cforest(as.factor(Diabetic) ~ Gender + Age + OGTT + DBP + BMI,
data=train_data, controls=cforest_unbiased(ntree=700, mtry=3))
Prediction <- predict(fit, test_data, OOB=TRUE, type = "response")

W losowym lesie zmuszamy model do przewidywania naszej klasyfikacji, tymczasowo zmieniaj�c zmienn� docelow� na czynnik z tylko dwoma poziomami, u�ywaj�c as.factor(). Argument wa�no�� = PRAWDA pozwala nam sprawdza� zmienne znaczenie, a argument ntree okre�la, ile drzew chcemy wyhodowa�. Je�li pracujesz z wi�kszym zestawem danych, spr�buj u�y� mniejszej liczby drzew lub ogranicz z�o�ono�� ka�dego drzewa, u�ywaj�c wielko�ci w�z�a, a tak�e zmniejsz liczb� wierszy pr�bkowanych przy pomocy sampsize. Mo�esz r�wnie� zast�pi� domy�ln� liczb� zmiennych do wyboru za pomoc� mtry, ale domy�lnie jest to pierwiastek kwadratowy z og�lnej liczby, og�lnie dzia�a dobrze. Mo�emy u�y� zast�powania Takes True i False i wskazuje, czy pobra� pr�bk� z / bez zast�pczej blisko�ci Czy obliczy� miary blisko�ci mi�dzy wierszami opcji ramki danych. Oszacowanie b��du braku opakowania (OOB): W losowych lasach nie ma potrzeby weryfikacji krzy�owej lub oddzielnego zestawu testowego, aby uzyska� obiektywn� ocen� b��du zestawu testowego. Ka�de drzewo jest konstruowane przy u�yciu innej pr�bki bootstrap od danych. Oko�o 1/3 przypadk�w nie zosta�a uwzgl�dniona w pr�bce �adowania pocz�tkowego i nie zosta�a u�yta w konstrukcji drzewa Kth. Umie�� ka�d� skrzynk� pomini�t� w konstrukcji k-tego drzewa w d� k-tego drzewa, aby uzyska� klasyfikacj�. W ten spos�b uzyskuje si� klasyfikacj� zestawu testowego dla ka�dego przypadku w oko�o 1/3 drzew. Na koniec biegu bierz j, aby by� klas�, kt�ra zdoby�a wi�kszo�� g�os�w za ka�dym razem, gdy przypadek n by� nieobliczalny. Proporcja razy, gdy j nie jest r�wna prawdziwej klasie n u�rednionej we wszystkich przypadkach, jest oszacowaniem b��du OOB, kt�ry okaza� si� by� bezstronny w wielu testach. Niedoci�gni�cia w losowym lesie Zmienne znaczenie: Losowy las jest bardzo popularny jako technika selekcji zmiennych. Ma jednak r�wnie� pewne wady. Je�li zmienne niezale�ne innego rodzaju s� losowe, zmienna wa�no�ci lasu mo�e by� myl�ca. Je�li wszystkie zmienne niezale�ne s� kategoryczne, ale maj� r�ne kategorie, losowa miara wa�no�ci zmiennej lasu mo�e by� myl�ca. Aby rozwi�za� oba powy�sze problemy, powinni�my zastosowa� warunkowy las wnioskowania, tj. Las. Je�li zmienne niezale�ne s� skorelowane, miara wa�no�ci losowej zmiennej lasu mo�e by� myl�ca. Nawet las warunkowy nie usuwa ca�kowicie problemu wielokoliniowo�ci. W pewnym stopniu rozwi�zuje problem kolinearno�ci.

REZERWACJA

Zwi�kszenie wydajno�ci jest bardziej systematycznym sposobem poprawy wydajno�ci poprzez ��czenie r�nych klasyfikator�w. Rozwa� utworzenie tr�jsk�adnikowych klasyfikator�w dla problemu dw�ch kategorii poprzez wzmocnienie.

1. Losowo wybierz n1 2. Wybierz n2 3. Wybierz wszystkie pozosta�e pr�bki z D, z kt�rymi C1 i C2 si� nie zgadzaj�, i trenuj s�abego ucznia C3. Ostatecznym klasyfikatorem jest g�os s�abych uczni�w.
4. Je�li przybli�enia replikowane podczas �adowania pocz�tkowego by�y prawid�owe, w�wczas pakowanie zmniejszy�oby wariancj� bez zmiany obci��enia. W praktyce pakowanie mo�e zmniejszy� zar�wno stronniczo��, jak i wariancj�. W przypadku klasyfikator�w o du�ym odchyleniu mo�e zmniejsza� odchylenie, a w przypadku klasyfikator�w o du�ej zmienno�ci mo�e zmniejsza� wariancj�.

Adaboost: W Adaboost zamiast ka�dorazowego pobierania pr�bek do ka�dej pr�bki przypisywana jest waga. Waga to prawdopodobie�stwo, �e pr�bka zostanie wybrana w klasyfikatorze. Dzia�a z klasyfikatorami binarnymi, kt�re s� lepsze ni� losowe rzuty monet� (b��d mniejszy ni� 0,5). Pomys� polega na takim dostosowaniu wagi, aby te rekordy, kt�re zosta�y nieprawid�owo sklasyfikowane, zosta�y wybrane do drugiego poziomu klasyfikacji przez drugi klasyfikator. Tak wi�c, je�li klasyfikator pope�ni b��d przy przewidywaniu zmiennej, jej waga wzro�nie. Nast�pnie klasyfikator jest definiowany jako liniowa kombinacja wszystkich s�abych klasyfikator�w. Wynikiem jest tryb przewidywania wszystkich klasyfikator�w. Powiedzmy, �e mamy zestaw danych (x1, y1),� (xm, ym), gdzie x to warto��, a y to, czy zosta� wybrany przez klasyfikator. Zatem y przyjmuje warto�� -1 lub 1. Zaczynamy od pocz�tkowych wag, wybieramy klasyfikator tak, aby b��d w odniesieniu do rozk�adu by� minimalny i mniejszy ni� 0,5. S�aby klasyfikator ma mniej ni� 50% b��du, ale nadal jest niezadowalaj�cy (50% to przypadek rzutu monet�, a zatem b��d ponad 50% nie jest dopuszczalny nawet dla s�abego klasyfikatora

Tutaj jest b��d pojedynczego klasyfikatora. Po sklasyfikowaniu za pomoc� pierwszego s�abego klasyfikatora aktualizujemy wagi tak, aby

Zt jest czynnikiem normalizacyjnym zapewniaj�cym, �e D jest zawsze rozk�adem. Tak wi�c, je�li dane pole jest poprawnie sklasyfikowane, wyk�adniczy sk�adnik jest niski (poniewa� y jest dodatnie). Dlatego waga jest niska. Dla tych, kt�rzy s� �le sklasyfikowani, y jest ujemne, a zatem wyk�adnicze jest du�e, a zatem wagi rosn�. Kontynuujemy wszystkie s�abe klasyfikatory i na ka�dym etapie wybieramy klasyfikator, kt�ry minimalizuje b��d. W ten spos�b jest to chciwy algorytm. We wczesnych iteracjach wzmocnienie jest podstawow� metod� zmniejszania uprzedze�, aw p�niejszych iteracjach wydaje si� by� przede wszystkim metod� zmniejszania wariancji. B��d szkolenia jest definiowany w ka�dej rundzie stanowi u�amek b��dnie sklasyfikowanych obserwacji.

B��d treningu spada wyk�adniczo szybko. Wybierz ?t, kt�re minimalizuj� Zt. Nie ma parametr�w do dostrojenia (z wyj�tkiem liczby rund). Jest szybki, prosty i �atwy w programowaniu. Zawiera zestaw teoretycznych gwarancji (np. B��d szkolenia, b��d testu) Zamiast pr�bowa� zaprojektowa� algorytm uczenia, kt�ry b�dzie dok�adny w ca�ej przestrzeni, mo�emy skupi� si� na znalezieniu podstawowych algorytm�w uczenia, kt�re musz� by� lepsze ni� losowe. Mo�e identyfikowa� warto�ci odstaj�ce: tzn. Przyk�ady, kt�re s� albo b��dnie oznakowane, albo z natury niejednoznaczne i trudne do sklasyfikowania. Jednak faktyczna wydajno�� wzmocnienia zale�y od danych i podstawowego ucznia. Wzmocnienie wydaje si� by� szczeg�lnie podatne na ha�as.

Bagging kontra Boosting: Bagging zawsze wykorzystuje resampling zamiast ponownego wa�enia. Pakowanie nie modyfikuje rozk�adu na przyk�adach lub b��dnych etykietach, ale zamiast tego zawsze u�ywa rozk�adu jednolitego. Formu�uj�c ostateczn� hipotez�, workowanie przypisuje jednakow� wag� ka�dej ze s�abych hipotez.

BUDOWANIE MODELU ZA POMOC� ADABOOST

# Krok 1: �adowanie danych do R:
setwd("D:/R data")
loandata=read.csv(file="Housing_loan.csv", header=TRUE)
# Krok 2: Przygotowanie danych:
Usu� kolumny ID i p�e� z danych
loandata2=subset(loandata, select=-c(ID, Gender))
fix(loandata2)
# Krok 3: Utw�rz zmienne zast�pcze dla zmiennej kategorialnej "Edukacja" i dodaj te zmienne zast�pcze do pierwotnych danych
#Zainstaluj i za�aduj pakiet "manekin�w", aby utworzy� zmienne zast�pcze
install.packages("dummies")
library(dummies)
Edu_dum=dummy(loandata2$Education)
head(Edu_dum)
loandata3=subset(loandata2,select=-c(Education))
loandata4=cbind(loandata3,Edu_dum)
fix(loandata4)
# Krok 4: Standaryzacja danych:
Standaryzuj dane, stosuj�c metod� "Range"
install.packages("vegan")
library(vegan)
loandata5=decostand(loandata4,"range")
# Krok 5: Przygotuj zestawy danych dotycz�ce poci�g�w i test�w
# We� losow� pr�bk� 60% rekord�w danych poci�gu
train = sample(1:1000,600)
train_data = loandata5[train,]
nrow(train_data)
# We� losow� pr�bk� 40% rekord�w dla danych testowych
test = (1:1000) [-train]
test_data = loandata5[test,]
nrow(test_data)
# Krok 6: Podsumowanie danych dla zmiennej odpowiedzi "Loan_sanctioned":
# Dane og�em
table(loandata5$Loan_sanctioned)
#Train Data
table(train_data $Loan_sanctioned)
#Dane testowe
table(test_data$Loan_sanctioned)
# Krok 7: Klasyfikacja za pomoc� Adaboost:
#Install & Load pakiet - ada do wykonania analizy SVM.
install.packages("ada")
library(ada)
x = subset(train_data, select = -Loan_sanctioned)
y = as.factor(train_data$Loan_sanctioned)
Ada_20=ada(x,y,iter=20,nu=1,loss="logistic", type="discrete")
summary(Ada_20)
# Krok 8: Dodaj zestaw danych testowych
a = subset(test_data, select = -Loan_sanctioned)
b = as.factor(test_data$Loan_sanctioned)
Ada_t20=addtest(Ada_20,a,b)
pred = predict(Ada_t20, a)
table(pred, b)
# Krok 9: Rysuj Ada_t20
plot(Ada_t20,TRUE,TRUE)
# Krok 10: Spr�buj z 50 iteracjami
Ada_50=ada(x,y,iter=50,nu=1,loss="logistic", type="discrete")
summary(Ada_50)
Ada_t50=addtest(Ada_50,a,b)
pred = predict(Ada_t50, a)
table(pred, b)
#Plot Ada_50
plot(Ada_t50,TRUE,TRUE)
#Krok 11: Spr�buj u�y� r�nych iteracji, takich jak iter = 100.500.1000, aby sprawdzi� dok�adno�� i napraw model.frame ()

; •

Kurs Analityka Big DataBig Data

Wprowadzenie