1장. *데이터를 통해 지혜를 얻기 위해서는 분석이 필요하다. *데이터 분석에 있어 '평균'은 매우 중요하며, 평균은 '표준편차'와 짝꿍이다.
2장. *데이터 분석을 하기 위해서는 '표본조사'가 필요하다. *표본(선택된 자료)은 '정규분포'를 따르기 때문에 모집단(전체)을 대변한다.
3장. 그때는 맞고, 지금은 틀리다 * 추출된 '표본'에 대한 의구심을 해결 하기 위해 't-검정'을 사용한다. * '정규분포'를 따르는 가설을 검정할 때는 'Z-검정' 사용 *가설 검정시 '오류'가 발생할 수 있으므로 '유의수준'과 '유의확률'을 정한다 *데이터 분석의 순서 : 최댓값/최솟값 확인 -> 평균 확인 -> 표준편차 확인
4장. 일송정 푸른 솔과 같은 근대 수리 통계의 선구자들 - 56p *프랜시스 골턴 - 회귀분석 *칼 피어슨 - 상관분석 *로널드 피셔 - 모집단과 표본의 분리
5. 세상은 흑과 백만으로 설명할 수 없다 - 72p * 표본의 선택은 '확률'이다. * '분산'은 '확률변수'와 '기대값(확률변수들의 평균)'의 거리를 확인하는 척도이다. * '분산분석'을 통해 가설을 검정한다. * '자주성'의 유무에 따라 독립변수(유)와 종속변수(무)로 나뉜다. * '분석'의 최종 목표는 종속 변수(임의 변경 불가능)의 변화를 보는 것이다.
6. 그 밖의 이야기 - 86p. * 비모수적 검정기법은 서로 독립적인 환경의 데이터를 분석한다 * 비모수는 극단적 값에 영향을 덜 받는다. * 비모수는 서열(순위), 특정 기준값(평균, 중앙값)으로 분석한다.
7장. 너랑 나랑은 그렇고 그런 사이니까 * 분류(기준에 따라 구분)와 '군집'(유사 속성끼리 묶음)은 다르다. * 유사한 속성(유사도)은 '거리'(두 수의 차이의 절대값)로 측정한다. * 유클리드 거리 유사도를 통해 '근접성'을 확인한다.
8장. k에게 물어봐 * 군집화 데이터 분석 기법에는 k-최근접 이웃 알고리즘(K-NN)와 k-평균 군집화 기법(k-means)이 있다. * k-NN, k-means 의 핵심은 정확한 거리 계산이다.
9장 데이터는 미래를 비추는 거울 - 142p * 데이터로 미래를 예측할 때는 대상(활용,목적)과 분석 기법을 명확히 해야 한다. * 정성적 예측 기법으로 전략을 세우거나 장기적 관점에서 발전 방향을 수립한다. * 정성적 예측 기법에는 델파이 기법, 패널 조사법, 시장 조사법 등이 있다. * 시계열 분석으로 과거의 흐름을 패턴화 한다. * 시계열 데이터의 몇가지 특성화된 패턴은 경향, 순환, 계절, 우연이다. * 시계열 예측 기법에는 이동평균법, 지수평활법, 추세분석법 등이 있다.
10장. 분류도 예측이 되나요 - 152p * 회귀분석은 인과관계를 파악해 연속형 변수 간의 적합도를 예측한다. * 회귀분석은 독립변수가 변함에 따라 종속변수가 어떤 변화를 보이는지 설명한다. * 로지스틱 회귀분석은 결과의 가능성을 진단해 예측한다. * 범주별 분류를 하기위한 기준(척도)에는 명목척도, 서열척도, 등간척도, 비율척도가 있다. * 이산확률분포는 실험과 관찰의 횟수가 적을 때 사용한다. * 이산확률분포에는 베르누이 분포, 푸아송 분포가 있다.
11장. 빅데이터에 대한 짧은 이야기 * 빅데이터의 요소는 4V-1A이다. * 빅데이터란 가치를 창출하는 다양한 형태의 거대한 정보 집합체이다. * 빅데이터 분석이란 모든 유형의 데이터와 적절한 컴퓨터 기술, 그에 맞춤화된 알고리즘과 가치 창출을 위한 유용한 통계적 분석 기법의 결합이다. * 빅데이터의 성공적인 공략을 위해서는 대용량 데이터를 자원화하고 이를 가공, 분석, 처리하는 기술을 갖춰야 하며 도출된 결과와 의미를 통찰하는 인적 자원도 있어야 한다. * 빅데이터가 이슈인 이유는 혁신, 경쟁력, 생산성 향상에 있다.
12장. 자연어 처리와 텍스트 마이닝 182p * 정형과 비정형 데이터의 구분 기준은 속성이다. * 자연어 처리는 자연어(일상 언어)의 속성을 파악하는 기법 * 자연어 처리는 데이터 분석을 위한 사전 작업이자 인공지능과 찰떡이다. * 데이터 마이닝 : 데이터 분석을 하기 위해 데이터를 구조화하는 작업
13장. 관계1 * 집합은 연관규칙 분석에 기초가 되는 개념이다. * 교집합은 집합 내 데이터가 얼마나 중복되는지를 판단하는 기준으로, 유사도를 측정하는 공식으로도 두루 사용한다. * 자카드 유사도 : 중복된 비율에 따라 유사도를 측정한다. * 연관 규칙 분석은 반복적인 패턴을 찾아 특정 사건이 동시에 일어나는 규칙을 탐색하는 데이터 분석 방법이다. * 연관 규칙 분석에는 지지도, 신뢰도, 향상도가 사용된다.
14장. 관계 2 * 최근 인기 있는 데이터 분석 기법으로 네트워크 분석이 있으며 이를 통해 도출되는 값으로 중앙성이 대표적으로 사용된다 * 네트워크 분석은 인간과 인간 사이의 관계를 넘어, 독리적인 사건의 관계 속에서 발생하는 현상을 찾는 분석 기법이다. * 네트워크 분석의 핵심은 상호관계 설정이다.
|
1장. 데이터(data)의 사전적 의미 : 원하는 결과를 얻기 위해 증명, 판단, 결정하는 과정에 필요한 자료
데이터의 범위 : 세상의 모든 자료 : 원하는 결과는 사람마다 다르므로 '각자가 필요한 자료' 이기 때문
데이터의 흐름 : 데이터 -> 정보 -> 지식 -> 지혜
평균 - 함정 - 분포 - 음수 - 분산 - 값 2배 - 표준편차
단, 평균의 함정 : 극단적인 값에 민감하다. 따라서 '분포'(얼마나 멀리 떨어져 있는가)를 사용한다. 또한, 분포에는 '음수'가 존재하는데 이를 해결 하기 위해 '분산'을 사용 추가적으로 위 분산은 '2배' 늘어난 값임으로 다시 줄여야 한다. 이는 '표준편차'로 해결한다.
2장. 표본 조사시 유의점 1) '분석 대상'과 '표본 추출 기간(범위,방법)'의 명확성 2) 표본의 크기 결정 시 시간과 비용, 조사 목적, 방법을 검토
정규 분포 : 모집단의 성격과 분포가 어떠하든 상관없이 '표본 평균의 분포'는 '모집단의 평균'을 기준으로 좌우 대칭되며, 이를 통해 충분히 전체를 대변할 수 있다.
근거 : 중심극한정리(아브라함 드무아브르) 모집단의 평균이 무엇이든 상관없이 모집단으로부터 추출한 여러 표본의 각 평균은 모집단의 평균을 중심으로 좌우 대칭 형태로 분포한다.
표본의 모집단 대표성 판단시 '확률'이 중요하다.
3장. 가설 : 한자 그대로 해석하면 '거짓 또는 임의로 정한 이야기'
데이터 분석에서의 가설 : 탐구 대상이 되는 과학적 자료를 바탕으로 실험과 관찰을 통해 논리적으로 증명해 나가는 이론
데이터 분석에서는 일반적으로 귀무가설을 사용
귀무가설 : 얻고자 하는 상황과 반대의 상황을 설정
대립가설 : 내가 얻고자 하는 상황을 설정 -> 이미 진실로 굳어진 사실은 증명하기 어렵다
가설의 주의 사항 : 가설이 맞고 틀린지는 누구나 공감할 수 있어야 한다.
가설 검정에서 발생할 수 있는 오류 1) 제 1종 오류 : 귀무가설이 참임에도 거짓으로 오판 2) 제 2종 오류 : 귀무가설이 거짓이지만 참으로 선택
t-검정 정의 : 두 집단 간 평균에 차이가 있는지를 비교해 검증 쉽게 말해, 표본을 무작위로 선정했을 때 차이가 날 확률이 몇 %인지 검증
내용 : 설정된 기준(유의수준, 유의확률) 내에서 분석한 내용이 포함되는지 확인 필요성 : 모 집단에서 추출한 표본에 대한 의구심 해소
유의수준(유의확률) : 가설에 대한 검정 결과가 잘못 될 가능성을 특정 퍼센트로 설정, 반대인 신뢰 수준은 100- ()% - 기준은 숫자가 아니여도 됨. 지금까지의 패턴이나 흐름 등도 가능
Z-검정 : 정규분포를 따르는 가설을 검정하고자 할 때 사용 가설을 Z-분포로 검증하는 방법으로, 집단 간 차이가 있는지를 밝히는 통계 기법
선택기준 : 대용량 데이터(Z-검정), 적을 때는(t-검정)을 진행 단, 둘 다 평균의 차이를 확인하고 확률 범위를 구한다
t-분포(월리엄 고셋) '정규분포'를 사용할 때는 충분한 데이터를 확보해야 하는데 그러지 못할 경우 (시간, 비용, 인력 부족) 작은 표본으로 모집단을 추론해야 할때 사용
원리 : 작은 표본도 정규분포를 따를 거라고 가정하고, 자유도라는 개념을 통해 새로운 분포를 만듦
4장. 회귀분석(프랜시스 골턴) - 모든 현상이 평균으로 회귀하려는 사실에 기초한 분석 - 두 요인 간의 인과관계를 파악해 미래를 예측하고 설명 - 주의사항 : 전혀 관련 없는 두 변수 사용시 분석이 의미없음 - 문제점 : 두 요인의 관련성을 확인할 값이 필요
상관분석(칼 피어슨) - 상관 : 독립변수와 종속변수 사이에 대칭관계가 있음 - 피어슨 상관계수 1) 음의 상관관계 : 두 변인 간에 관계 없음, 0 > Value 2) 양의 상관관계 : 두 변인 간에 관계 있음, 0 < Value - 문제점 : 두 변수 간의 인과관계는 설명하지 않는다.
인과관계를 분석할 때는 상관관계가 반드시 있어야 한다.
모집단과 표본의 분리(로널드 피셔) - 선택된 일부가 전체를 대변할 수 있다는 점을 수학적으로 증명 - 분석 대상 전체(모집단)와 전체에서 추출한 일부(표본)를 명확하게 분리 - 일부를 통해 전체에 대한 분석과 추리가 가능함을 귀무가설로 증명
5장. 확률 - 모집단으로부터 표본을 선택하는 과정 - 표본에서 어떤 데이터가 선택될지 미리 정해지지 않은 상황
데이터 분석에서의 확률변수 : x, 변수(값을 알 수 없음) 기댓값 : 확률변수들의 평균
확률변수 1) 이산확률변수 - 무작위로 선택된 값 - 변수 x1, x2를 전혀 별개의 사건으로 봄
2) 연속확률변수 - 임의의 값 - 변수 x1, x2 사이의 모든 값이 변화 및 연속적으로 발생하는 같은 사건의 연장
확률분포 : 확률변수가 가질 수 있는 값(확률값)과 그 값이 나올 확률과의 관계(대응) 1) 이산확률분포 2) 연속확률분포
공분산 - 두 확률변수의 상관관계를 파악해 하나의 일직선(선형)상에 표현 - 0보다 큰 경우(정의 관계) - 0인 경우(관계없음) - 0보다 작은 경우(부의 관계)
공분산과 상관계수의 차이점 : 공분산은 선형관계가 있는지, 없는지만을 나타냄 : 상관계수는 명확한 값을 제시
분산 - 기준 값에서 비교하려는 대상값(확률값)이 얼마나 떨어져 있는지를 나타내는 척도 - 확률변수가 기대값으로부터 얼마나 떨어져서 나타나는지를 확인하는 척도
분산분석 - 분산을 비교해 가설을 검정하는 분석 - 가설을 검증하는 방법 - 특성 값의 분산과 변동을 분석하고 어떤 특성이 여러 조건하에서 어떻게 차이가 나는지를 판단
분산분석 핵심원리 : 무작위, 반복, 통제 단, 제어 환경을 완벽하게 관리하기 어려움 -> 세 가지 제어 환경에서 여러 속성이 각각 어떤 차이(오차)와 특성을 보이는지에 주목 ex) 분석 대상의 선정에서 오는 차이와 특성 실험 방법에 따른 결과의 차이와 특성 같지 않은 환경에서 오는 평가의 차이와 특성 등
분산 분석의 분류 : 변수의 개수 1) 일원배치 분산분석 - 결과(종속변수)와 연결되는 하나의 독립변수에 영향을 받는 3개 이상의 조건을 분산분석 - 독립변수의 주된 영향력 검정
2) 이원배치분산분석 - 결과(종속변수)와 연결되는 두 개의 독립변수로 검정 - 상호작용의 영향력까지 검정
분산분석 수행 충족조건 1) 독립성 : 독립변수의 조건이 서로 독립적이어야 함 2) 정규성 : 독립변수의 영향을 받는 결과값인 '연속된 종속변수의 값들'은 정규분포를 만족해야 함 3) 등분산성 : 독립변수의 각 조건에 따른 결과인 '종속변수의 분산'은 조건마다 같아야 함
변수의 특성 - 독립변수는 '자주성'이 확보된 변수 - 종속변수는 '자주성'이 확보되지 않은 변수 - '종속변수'가 어떤 결론으로 도출되든 '독립변수'를 변하게 할 수는 없다.
분석의 최종 목표 : 종속변수의 변화를 보는 것(해당 값을 임의로 변경할 수 없다)
6장. 모수의 조건 1) 정규분포를 따름 2) 많은 표본 수 3) 데이터가 같은 환경에 존재
비모수의 조건 1) 정규분포가 아님 2) 표본 수 적거나 부족 3) 데이터가 서로 독립적으로 존재
정규분포는 연속확률분포 연속!
모수적와 비모수적 검정기법의 차이 모수적 : 모집단 -> 표본 간 평균차이 분석 비모수적 : 서열(순위,rank), 특정 기준값(평균,중앙값)을 중심으로 분석
그러므로!
비모수적 검정기법은 극단적 값에 영향을 덜 받음 1) 특정 값이 너무 크거나 작아도 순위차이만 있을 뿐 평균의 차이와는 관련없음 2) 이산확률분포 - 순위 차이 기준 분석
비모수적 검정 기법의 종류 1) 스피어만 상관계수 : 순위 상관분석 두 변인(변수)간의 순위를 부여하고 연관성을 검정하는 기법(-1에서 1사이 값) 2) 피어슨 상관분석 : 곱적률 상관분석(-1에서 1사이 값), 두 변인 간의 선형관계를 계수로 표현
비모수적 양측 검정 기법 1) 월콕슨 순위합 검정 : 독립된 집단의 결과를 통합해 정리하고 순위를 부여한 뒤 각각의 집단에 대한 순위합을 구해 비교하는 방식 2) 만-위트니 U 검정 : 값들을 비교해 값이 큰 경우 해당하는 개수의 총합을 구해 검정 3) 크루스칼-왈리스 검정 : 2개 이상의 집단을 비교할 때 사용, 관측값의 순위만으로 집단 간의 차이점을 검정, 관측된 값들의 중앙값을 기본으로 함
비모수적 검정 기법의 조건 1) 관측하거나 실험한 값이 서로 다른 환경의 독립적인 결과여야 함 2) 어느 쪽이 크다는 서열을 표시할 수 있어야 함
7장. <분류와 군집> 분류 : 새로운 데이터를 이미 정해진 체계(속성 또는 기준)에 따라 구분해 가장 유사한 그룹에 배치하는 것 -> 이미 설정된 체계와 규칙 또는 조건에 따라 데이터를 분리하는 것 -> 이미 개수가 정해져 있다 -> 정해진 기준을 대상에 '적용'
군집 : 체계(속성 또는 기준)가 정해지지 않은 상태에서 체계를 정립하고 새 데이터를 가장 유사한(근접한)속성끼리 묶어 그룹을 구성하는 것 -> 전체 데이터를 보고 유사한 성질과 특성 또는 규칙에 따라 데이터를 묶는 작업 -> 최종 개수를 사전에 알 수 없다 -> 기준을 '탐사'하고 대상을 나누는 것
군집화 : 개체 간 속성을 분석해 유사한 속성을 가진 개체끼리 묶는 행위 -> 개체(분석 대상), 속성(분석 대상의 특성)
유사한 속성(유사성, 유사도)을 구하는 원리는? -> 군집화를 위해 유사도를 측정해야 한다면, 유사도 역시 수로 표현돼야 할 것이다. -> 유사도는 얼마인가? 두 수의 차이
거리 : 두 수의 차이에서 방향성을 뺀 값, 절대값.
거리는 군집과 어떤 관계가 있는가? 유사도 측정시 가장 훌륭현 조력자이다.
거리는 데이터의 속성을 파악해 분류하고 군집하는 유사도 측정에 가장 많이 활용하는 기법 거리를 계산하고 인접한 거리로 묶어주는 것이 군집화의 가장 기본 원리
<유사도 계산> 피타고라스의 정리로도 2차원상의 거리를 구하는 데 아무 문제가 없다. 단, 3차원(현실 세계)은 가능한가?
유클리드 거리는 N차원 공간의 두 점 사이의 거리를 측정하는 공식 -> 유클리드 거리 공식은 그 값을 유사도에 그대로 사용하기에는 한 가지 문제가 있다. -> 실제 거리를 측정할 때는 유리하지만, 근접성을 확인하는 유사도에는 이용하기 어렵다.
해결 : 정규화를 진행, 계산한 유클리드 거리 값에 1을 더하고 이 값의 역수를 취한다. 0~1사이 값 도출 유클리드 거리 유사도 = 1/(1+Ed)
<그 밖의 유사도 공식> 맨허튼 거리 공식 : 거리를 계산할 때 장애물을 고려. 두 좌표 값의 차이에 절대값을 취해 구함
코사인 유사도 공식 : 각도에 따라 유사도를 측정 -> 코사인 : 2차원 평면에서 볼 때 한 지점에서 출발한 방향을 가진 두 값(벡터)의 길이에 대한 비율 -> 두 값의 방향성이 정확히 일치하는 0도일 때 값이 1이므로 가장 유사도가 높다. 0이 가장 낮다고 판단
8장. <k로 뭉쳐라> 군집화 데이터 분석 기법
k-최근접 이웃 알고리즘(k-NN) : 데이터 속성을 파악해 가장 가까운 이웃을 묶는 데이터 분석 기법 k-평균 군집화 기법(k-means) : 거리를 통해 새로운 데이터를 분리된 군집에 추가 -> n개의 데이터를 k개의 군집으로 분리해 경계선을 작성 -> 분리된 각 군집의 평균 거리를 계산(중심값)하고 군집별 중심값과 비교해 거리가 가장 가까운 것을 선택 -> 새로운 데이터 추가 시 다시 계산해 새로운 중심값 도출 -> 군집의 모양이 변하고 경계선이 새롭게 작성됨
k-NN, k-means 의 핵심 : 정확한 거리 계산 -> 데이터 분석에서 군집화에 매우 폭넓게 활용되고 있다.
9장. <예측은 진짜 가능한가> 데이터 분석의 세계에서도 과거를 알면 미래를 내다볼 수 있다.
예측 기법에 대한 연구는 다양한 분야에서 끊임없이 진행되었고 앞으로도 그럴 것이다.
데이터로 미래를 예측할 때(예측뿐 아니라 모든 데이터 분석을 포괄해)는 두 가지 전제가 명확해야 한다. 1) 대상이 명확해야 한다. : 단순히 어떤 데이터를 활용할 것인가의 문제만이 아니라 어떤 목적을 위해, 도출된 결과를 어떻게 활용한다는 것까지 고민 2) 어떤 분석 기법을 활용해 문제를 해결할 것인가를 명확히 하는 것
<여러 의견을 듣고 객관적으로 표현하기> 정량적 기법 : 수를 기반으로 함 정성적 기법 : 성질을 기반으로 함
정성적 예측 기법의 종류 1) 델파이 기법 : 전문가의 의견을 수렴 2) 패널 조사법 : 각계각층의 이해관계자로부터 공개적으로 의견을 수렴 3) 시장 조사법 : 직접 시장 상황을 파악
언제 : 전략을 세우거나 장기적 관점에서 발전 방향을 수립할 때 많이 활용 단점 : 정량적 분석보다 상대적으로 시간과 비용이 많이 든다
<흘러간 시간도 소중히 하라 - 시계열 분석> 시계열 : 시간을 묶어 나열하는 것을 의미 -> 재해석 : 시간의 흐름에 따라 데이터를 나열한 것 -> 과거 데이터를 일정한 시간으로 구분해 데이터를 분리하고 순차적으로 나열해 놓은 상태
과거 데이터만을 활용
핵심 : 시간을 어떤 수준으로 연결해 묶을 것인지의 판단 -> 과거의 흐름을 패턴화
시계열 예측 기법 1) 이동평균법 2) 지수평활법 3) 추세분석법
시계열 데이터의 몇가지 특성화된 패턴 : 경향, 순환, 계절, 우연
이동평균법 언제 : 네 가지 특성의 변화가 적어 과거 데이터의 변화폭이 적고 일정하게 유지될 때 사용하면 유리 어떻게 : 시계열 데이터를 일정 구간으로 나누어 정리하고 각 구간의 평균을 구해 다음 차수의 예측치를 구함 -> 단기 예측에 많이 활용 종류 : 단순이동평균, 가중이동평균 단점 : 변동이 심하면 적합하지 않다. 보완 : 시계열분해법을 접목해 사용 -> 예측 정확도를 높임
시계열분해법 정의 : 시계열 데이터의 네 가지 특성에 따라 시계열 데이터를 분해해 특성별 지수를 산출하고 이를 이동평균법 등에서 산출한 예측치에 대입해 더욱 정교한 값을 구함
추세분석법 정의 : 시간 흐름이 미래 예측치에 어떤 영향을 주는지를 파악해 분석 유사 : 인과분석인 회귀분석과 같다. 보완 : 시계열분해법으로 구한 특성별 지수를 반영해 예측을 더 정교하게 할 수 있다.
지수평활법 정의 : 가중치를 부여해 미래를 예측하는 기법 언제 : 단기 예측에 유리. 네 가지 특성의 변화가 적을 때 이용 평활상수를 구할 때는 예측치와 실측치의 오차를 이용한 방법을 가장 많이 사용
10장. <다시 한번 회귀분석>
회귀분석의 구분과 원리
회귀분석 : 인과관계를 파악해 연속형 변수 간의 적합도를 함수식으로 구하는 대표적인 예측 기법
회귀분석은 상관관계, 독립변수, 종속변수가 반드시 있어야 한다.
회귀분석은 독립변수가 변함에 따라 종속변수가 어떤 변화를 보이는지를 설명하는 모형
구분 : 독립변수의 갯수 -> 단순회귀분석(1개), 다중 회귀분석(2개 이상)
회귀분석의 기본 흐름 (153~156p 예제)
선형회귀분석 : 데이터의 상관관계를 선으로 연결해 함수식을 추정
구분 : 독립변수의 갯수 -> 단순선형회귀분석, 다중선형회귀분석
<시간과 공간의 가치창출 - 로지스틱 회귀분석>
로지스틱 회귀분석 - 이진 확률모델 - 범주형 모델 - 결과의 가능성을 진단해 예측하는 대표적인 데이터 분석 기법
: 회귀분석을 수행한 결과를 기준에 따라 분류해 범주에 포함한다. : 결과 => 영향을 받는 종속변수 : 종속변수는 범주형
범주에 넣으려면 데이터를 기준에 따라 분류해야 한다. : 기준을 데이터 분석에서는 척도라고 함
척도는 크게 네 가지 1) 명목척도 - 의미 그대로 명목상의 이름. 주민등록번호 등 - 연산 불가능 - 비교 불가능 - 특성을 반영하는 기호나 숫자에 불과함
2) 서열척도 - 특성에 따른 구분 및 순서까지 포함하는 기준 - 연산 불가능 - 비교 가능. 단, 얼마나 크고 작은지는 값(크기)으로 명시하지 않음
3) 등간척도 - 연산, 비교 가능 - 상대적 비교뿐 아니라 얼마나 큰지 설명 가능 - 0의 값을 가지지 않는다.
4) 비율척도 - 연산,비교,크기, 0의 값 가능
로지스틱 회귀분석에서 취하는 범주형 종속변수의 대표적인 척도는 이산형(명목척도)변수다. : 이분법적으로 구분해 예측하는 기법 : 선형회귀분석에서 출발
로지스틱 회귀분석과 선형회귀분석의 차이 - 정규분포의 가정 여부(로지스틱은 정규분포를 가정할 수 없음)
<이산확률분포> 이산확률분포 : 이산적인 값을 가지는 분포
1) 베르누이 분포 - 데이터를 시험하고 관찰한 결과 - 성공과 실패의 두가지 값(0,1)만으로 확률분포를 표현하는 대표적인 이항분포 - 성공 확률 p를 구하면 실패확률은 1-p 이다
2) 푸아송 분포 - 실험이나 관찰 횟수의 시간 간격 - 시간이 충분히 흘러 그 시행 횟수가 충분하다고 가정 - 핵심 : 사건이 발생한 시간 간격(λ, 람다)으로, 일정한 간격으로 발생하는 사건의 확률을 구함 - 시행횟수가 충분히 많아도 그 확률이 매우 낮을 때 이용
로지스틱 회귀분석은 일반적인 이항분포
베르누이 분포와 일반적인 이항분포의 차이 : 결과의 성공과 실패를 단 한 번의 실험과 관찰에서 얻었는지, 반복된 실험과 관찰에서 얻었는지의 차이
Q5. 데이터 분석의 목적은 무엇인가요? (필자의 생각) 1) 군집 : 속성을 비교해 유사한 속성끼리 묶어주는 행위 2) 분류 : 데이터의 관계를 파악해이미 정해진 범주로 배정 3) 규칙 : 데이터의 속성, 흐름, 배경, 유사성 등 여러 항목의 관계를 파악 4) 예측 : 위 세 가지 목적을 혼합해 새로운 상황을 설계하고 해당 상황에 유연하게 대처
11장. <빅데이터는 무엇인가>
빅데이터의 요소 3V(4V) 1) Volume(크기) : 대용량 데이터 2) Velocity(속도) : 빠르게 처리하는 기술 3) Variety(다양성) : 다양한 종류의 데이터 + 4) Veracity(정확성), Variability(가변성)
필자 4V - 1A 5) Analisys(분석)
빅데이터란? 빠른 속도로 데이터를 수집하고 발굴해 분석한 후 유용한 가치를 창출하는 다양한 형태의 거대한 정보 집합체를 의미
빅데이터 분석이란? 모든 유형의 데이터와 적절한 컴퓨터 기술, 그에 맞춤화된 알고리즘과 가치 창출을 위한 유용한 통계적 분석 기법의 결합
<빅데이터를 공략하라> 빅데이터를 공략하기 위해 필요한 것 1) 다양한 형태로 생산되는 대용량 데이터(품질이 꾸준하게 유지되어야 함) 2) 자원 관리 기술 3) 데이터를 빠르게 처리하는 장치 4) 데이터를 추출하고 수집하는 기술 5) 시각화 도구 (분석된 결과의 가시성 향상) 6) 빅데이터를 다룰 인력 7) 빅데이터 장치를 관리하는 하드에어와 소프트웨어 기술 8) 데이터 분석 기술자
정리 : 빅데이터의 성공적인 공략을 위해서는 대용량 데이터를 자원화하고 이를 가공, 분석, 처리하는 기술을 갖춰야 하며 도출된 결과와 의미를 통찰하는 인적 자원도 있어야 한다.
<왜 빅데이터인가>
이슈의 이유 1) 혁신 : 조직의 행동 패턴, 주변 혹은 시장의 변화와 변동 사항을 알면 바꾸고 도전해야 할 목표를 명확히 설정할 수 있다. 2) 경쟁력 : 조직 외부에서 일어나는 일련의 활동과 과정을 충분히 분석하는 것과 내부 빅데이터를 충분히 분석하고 인지 -> 비용 절감, 장점을 차별화, 투명성 확보 3) 생산성 : 가진 능력을 좀 더 효율적으로 분배하고 최대한 이끌어 냄, 원인과 이유를 분명하게 설명할 수 있다.
어디를 집중 공략할 것인가? 빅데이터 분석의 핵심은 가치가 있는 데이터를 모으는 것 -> 신뢰성 확보
데이터 마이닝 : 가치 있는 데이터를 모으는 활동
Q6. 통계 분석, 데이터 마이닝, 빅데이터 분석은 서로 어떻게 다른 거죠? 데이터 마이닝 : 데이터를 추출, 가공하는 데이터 분석을 위한 전처리 과정으로 분석 대상을 찾는 과정 데이터 분석 : 이미 분석 대상이 명확함
통계분석과 빅데이터 분석의 차이점 1) 분석 대상의 차이 2) 복잡성의 차이 3) 융합적 성격 4) 실행 시점의 차이
12장. <정형이거나 비정형이거나>
데이터란? 현실 세계에 존재하는 모든 것
데이터 분석을 위해 '모든 것'은 어딘가에 저장되어 있어야 한다
정형과 비정형 데이터의 구분 기준은 속성
<글로 표현된 모든 것> 자연어 : 일상에서 사용하는 언어 자연어 처리 : 자연어의 속성을 파악하는 기법 자연어 처리의 범위 : 음성과 문서를 모두 포괄 자연어 처리 기법 : 단순히 언어적 기능과 문법의 의미, 패턴, 형태를 반영하는 것을 넘어 이제 언어에 내포된 감정 영역까지 다룬다
자연어 처리는 데이터 분석을 위한 사전 작업으로 매우 중요한 비중을 담당할 뿐 아니라 인공지능과도 뗄래야 뗄수 없는 분야
<텍스트 마이닝> 텍스트 마이닝 : 글로 표현된 모든 것을 파악해 그 안에 내포된 의미와 의도, 성향 등을 구별하는 기법
도출된 결과가 반드시 가치로 연결 되는 건 아니다. -> 데이터 분석을 위한 전처리로 텍스트 마이닝을 사용하는 경우가더 많다.
중요한 이유 : 일상에서 자연어로 의사소통을 하기 때문 -> 상대방의 의도와 의미를 파악 -> 미래의 가치 창출에 핵심
데이터 마이닝 : 데이터 분석을 하기 위해 데이터를 구조화하는 작업
Q7. 머신러닝과 립러닝은 무엇인가요? 머신러닝 : 손을 댄 적이 있어서 불에 손을 대지 않는 건 '불이 뜨겁다'라는 사실적 경험에서 나오는 것 딥러닝 : '저 붉게 타오르는 것에 사람들이 손을 대지 않는 것을 보니 아무래도 좋지 않는 물질인 것 같아. 난 손을 대지 않겠어.'
13장. <집합> 집합은 연관규칙 분석에 기초가 되는 개념
교집합은 집합 내 데이터가 얼마나 중복되는지를 판단하는 기준으로, 유사도를 측정하는 공식으로도 두루 사용
자카드 유사도 : 중복된 비율에 따라 유사도를 측정. 교집합의 크기를 합집합의 크기로 나눈다
J(A,B) = A ∩ B / A U B
문제점 : 자카드 유사도 공식은 전체 대비 중첩 비율만을 고려 -> 데이터가 2개 이상 묶여도 그 묶음 자체를 또 다른 하나의 데이터로 보고 유사도를 측정 -> 조건부 확률값을 취할 수는 없다.
<연관 규칙>
연관 규칙 분석 : 반복적인 패턴을 찾아 특정 사건이 동시에 일어나는 규칙을 탐색하는 데이터 분석 방법 핵심 : 특정 사건이 동시에 발생하는 사건을 발견하는 것
장바구니 분석 : 소비자 구매 데이터를 분석해 함께 팔리는 품목을 상품 배치에 활용하는 것
지지도 : 전체 사건에서 특정 사건이 동시에 발생할 확률 지지도 = 사건 A & 사건 B / 전체 발생 사건 수 = P(A ∩ B) 단점 : 방향성이 없다
신뢰도 : A가 먼저 투입되고 난 뒤에 투입되는 부품이 어떤 것인지를 판별하는 조건부 확률을 구하면 좀 더 정확한 가치를 찾는다. 신뢰도 = 사건 A & 사건 B / 사건 A = P(A ∩ B) / P(A) = P(A|B)
향상도 : 연관규칙 분석 결과가 유의미한지를 판단하는 기준 향상도는 결과가 과연 우연으로 발생한 것인지를 판단
향상도 = 사건 A & 사건 B의 신뢰도 / ( 사건 B / 전체 발생 사건 수 ) = P(A|B)/S(B)
값 = 1, 두 사건은 서로 완전히 독립적 값 > 1, 양의 상관관계 : 긍정적인 연관관계 값 < 1, 음의 상관관계
<연관규칙 분석을 위한 가장 빠른 알고리즘>논문, 라케시 아그라왈 -> 데이터 관련 논문 중에서도 가장 영향력 있는 논문으로 평가 받고 있다
14장. <네트워크 사회>
사회 연결망 분석(네트워크 분석) : 사회학적 관점에서 출발해 지금은 모든 분야에서 활발히 활용되는 네트워크를 이용한 데이터 분석 기법 : 데이터 분석 분야의 '뜨거운 감자'
<네트워크 분석>
정의 : 인간과 인간 사이의 관계를 넘어, 독리적인 사건의 관계 속에서 발생하는 현상을 찾는 분석 기법 대상 : 우리 주변의 모든 것. 방법 : 다양한 대상을 중심으로 상호 간의 관계를 파악해 추출된 특성을 분석
노드 : 네트워크 대상을 나타냄 링크 : 대상 간의 관계를 나타냄
네트워크 분석의 핵심 : 상호관계 설정
대상 간의 링크를 구성할 때는 유사도, 상관계수 또는 연관규칙의 신뢰도 등과 같은 부수적인 관계 설정 값이 반드시 주어져야 한다.
관계에는 방향성이 있다.
네트워크 분석에서는 노드, 즉 분석 대상이 얼마나 중심적인 위치를 차지하는가를 판단하는 관점인 중앙성(중심성)이 있다.
중앙성은 독립성, 자율성, 지배력, 영향력 등을 포괄해 설명한다.
연결 중앙성 : 특정 노드가 다른 노드들과 얼마나 직접 연결됐는지를 판단
인접(근접) 중앙성 : 간접적으로 연결된 관계를 고려
사이(매개) 중앙성 : 네트워크에서 특정 노드가 다른 노드 간의 중개자 역할을 수행하는 정도를 의미
결론 : 최근 인기 있는 데이터 분석 기법으로 네트워크 분석이 있으며 이를 통해 도출되는 값으로 중앙성이 대표적으로 사용된다는 걸 아는 것이 중요
|