[Data Science]2: Getting to Know Your Data part1

데이터의 특성, 데이터 전처리, 유용한 정보 찾기, 분포 등에대해 배움

Contents

  • Data Objects and Feature Types
  • Basic Statistical Descriptions of Data
  • Data Visualization
  • Measuring Data Similarity and Dissimilarity
  • Summary

Types of Data Sets

  • Tabular
    • 각 데이터는 Data matrix / table 로 표현될 수도 있
    • 각 숫자가 의미하는 것은 그 단어의 등장 횟수. frequency
    • 한 줄은 a set of term-frequency vectors
    • Transaction data

1

2

  • Graph and network
    • 노드와 엣지로 표현될 수 있는 자료들
    • social network
    • word wide web
    • molecular structures
  • Time-series (ordered)
    • Video data: sequence of images
    • Temporal data: time-series of trajectories (예, 비트코인 가격)
    • Sequential data: transaction sequences
    • Genetic sequence data
  • Spatial, image, and multimodal:
    • Spatial data: maps
    • Image data
    • Multimodal data (video + image + text + ….)

Characteristics of Data

  • Dimensionality
    • feature의 개수
    • 차원의 저주(# of dim이 큰 경우)
      • 높은 dimension의 공간인 경우
      • 데이터 object 간에 유의미한 정보를 얻는 것이 힘들

    데이터 학습을 위한 차원이 증가할 수록 성능이 저하되는 현상

    이는 차원이 증가할수록 개별자원 내에 학습할 데이터 수가 적어지는 현상 때문

  • Sparsity
    • density 적은 것

      3

    • 위 그림은 rate matrix. 개개인별 영화 점수 준 것인데 대부분의 셀이 비어있음

  • Resolution
    • patterns depend on the scale
    • 이미지 데이터에서 데이터 분석 결과는 주어진 이미지의 resolution에 크게 영향
  • Distributioin
    • Centrality, dispersion
    • 평균 등

Data objects

Data set은 data object로 이루어져 있다.

= tuples = samples = examples = instances = data point

DB의 각 row → data object, 각 columns → features

< Features >

= dimensions = attributes = variables

각 data object들의 측정 가능한 property나 특징 (characteristics)

types : nominaly, binary, numeric(= quantative. ratio scaled / interval scaled)

Feature types

  • nominal
    • 이름 등을 이야기 하는 명사
    • 유한한 수의 값
    • ex, Hair_color = {black, blond, brown, grey, red, white …}, 결혼 했는지, 직업, …
  • Binary
    • nominal feature의 특이한 케이스
    • ex, 결혼 했다 안했다 2가지
    • Symmetric, asymmetric 2가지로 나뉜다.
  • Ordinal
    • 순서를 가지고 있는 것(ranking)
    • ex, Size = {small, medium, large}
    • 하지만 각 feature간의 Magnitude(규모)를 알 수는 없다. (magnitude of difference)
  • Numeric(integer or real-valued)
    • Ratio-scaled
      • Ratio(비율)가 의미있다
      • 0 없다는 것 의미
      • 90kg이 45kg의 두배
    • Interval-scaled
      • 차이만 의미 있음
      • 섭씨 2도가 4도의 절반이라고 할 수 없음
      • Ordinal과 다르게 scale 알 수 있음(equal-sized unit 사용하기 때문)

Basic Statistical Descriptions of Data

데이터를 더 이해하기 위해 central tendency, variation, spread등

Median, max, min, quartiles, outliers, variance, etc.

이들로 각 data의 특징들 represent

  • Mean

    4

    소문자 n은 sample을 의미, 대문자 N은 전체 의미

    위 수식의 좌측은 sample의 평균 의미, 우측은 전체 평균 의미

    • weighted arithmetic mean

      5

      w값에 1 넣어주면 original 버전과 같아짐.

    • Trimmed mean

      • feature에 매우 큰 값 있는 경우 필요함(outlier 등)
  • Median

    위에서 본 mean은 outlier에 크게 영향 받음. Mean은 극단적인 값에 영향 많이 안받음

    홀수개 있는경우 가운데 값이고 짝수의 경우 중앙의 두 값을 평균

    Sort한 후 중앙값을 찾아야해서 데이터셋이 dynamic(add remove), large 한 경우 어려움(computation issue)

    median 빨리 구하기 위한 방법으로 중앙값 추정하는 interpolation 방법이 있음

    (새로운 데이터 들어올 때 recomputation. re sorting 할 필요 없음)

    계산하는법 차근히 보기

  • Mode

    가장 빈번하게 일어나는 값

    주로 연속적인 feature가 아닌 discrete features에서 정의됨

    mode에서 한 값을 원할 때 → Unimodal, 두 값 → binomial, 세 값 → trimodal

Symmetric vs. Skewed data

다양한 모양의 데이터일 때 median, mean, mode의 위치

6

긴 꼬리가 좌측에 있으면 positive skew된 distribution이라고 함

negative skew는 반대

Measuring the dispersion of data

dispartion : data point가 전체 범위에서 어떻게 분포되어있는지

Quartiles, outliers and boxplots

  • Quartiles
    • Q1 (25th percentile), Q3 (75th percentile)
    • Q2는 50%, Q4는 100%를 나타내긴 하지만 1,3번을 자주 씀
  • Inter-quartile range (IQR): IQR = Q3 –Q1
    • Q3 와 Q1의 범위
  • Five number summary: min, Q1, median,Q3, max
    • 다섯 개의 수로 roughly dataset의 distribution을 생각할 수 있음
  • Box plot
    • Five number summary 시각화 한 것
    • 대략적인 분포 알 수 있
  • Outlier
    • 다양한 정의 및 방법이 있지만, IQR의 1.5보다 작거나 클 때 outlier 라고 하는 방법 있

box plot 디테일

7

  • 박스의 범위는 Q1과 Q3 사이.
  • 박스 안의 선은 평균을 의미
  • whiskers : 박스 밖의 두 선은 minimum 값과 maximum 값
  • Outliers: 작은 원으로 individually 표현 된 것

Variance and standard deviation (sample:s, population: σ)

  • variance

8

  • standard deviation
    • variance의 square root

데이터의 dispersion을 측정하는 다른 방법은

Normal distribution property 사용

9

이걸 사용해서 어떻게 대략적인 분포?


출처 : 2023-1 ITE4005 수업