본문 바로가기
공부에는 끝이 없지

[데이터분석] 데이터분석 기초 - 데이터 종류와 특성, 자료의 종류와 수집

by H Julia 2024. 3. 13.
반응형
반응형

  정신차려보니 대학원 생활을 시작한 지 벌써 1년이 지났습니다. 작년 초에는 열심히 블로그를 해보겠다는 의지가 가득했는데, 회사 일과 학교 과제, 십수년만에 겪어보는 중간/기말고사에 치여서 1년이 어떻게 흘러갔는지 모르겠어요, 자연스럽게 블로그에는 소홀했습니다. 😢
하지만 이제 논문을 써야하니까, 기록하며 공부하는 의미에서 조금 씩 더 글을 남겨 볼게요, 같이 공부하는 어딘가의 누구에게 조금이나마 도움이 되기를 바라며 🙏🏼 데이터 분석 기초 시작합니다 ⬇️

데이터분석 기초
데이터 분석

 

데이터의 종류와 특성 

정형 데이터 (Structured Data)

  • 정의: 미리 정해진 데이터 모델에 따라 엄격하게 조직된 데이터입니다.
  • 형태: 주로 표나 데이터베이스에서 찾을 수 있으며, 행과 열로 이루어진 형태입니다.
  • 저장: 관계형 데이터베이스(RDBMS)에 주로 저장됩니다.
  • 예시: 고객의 이름, 주소, 전화번호, 신용 카드 번호 등.
  • 처리: SQL(Structured Query Language)을 사용하여 쉽게 검색, 분류, 수정이 가능합니다.
  • 분석 용이성: 구조화된 형태로 인해 데이터 분석과 처리가 용이합니다.

정형 데이터 수집 방법

  • 데이터베이스 쿼리: 이미 존재하는 데이터베이스에서 SQL 등을 사용하여 필요한 데이터를 직접 추출합니다.
  • API (Application Programming Interface): 웹 서비스나 소프트웨어 애플리케이션에서 제공하는 API를 통해 데이터를 수집합니다.
  • 폼 및 설문조사: 사용자로부터 정보를 직접 입력받아 수집합니다.
  • 공공 데이터 세트: 정부나 기타 기관이 제공하는 공개 데이터를 활용합니다.

반정형 데이터(Semi-structured Data)

  • 정의: 정형 데이터와 비정형 데이터 사이에 위치하며, 일정 수준의 구조를 가지고 있지만, 전체적으로는 유연한 구조를 가진 데이터입니다.
  • 형태: 데이터 자체에 구조를 설명하는 태그나 마크업 언어를 포함합니다. 이 구조는 정형 데이터처럼 엄격하지 않아서 유연성을 제공합니다.
  • 저장: XML, JSON, CSV 파일 형식이 흔히 사용됩니다. 이러한 형식들은 데이터 구조에 대한 정보를 포함하면서도 상대적으로 유연성을 제공합니다.
  • 예시: 이메일(헤더와 본문 구조), HTML 문서(웹 페이지 구조), 로그 파일(시간, 이벤트 유형, 메시지 등을 포함한 기록) 등.
  • 처리: 정형 데이터보다 처리가 복잡할 수 있으나, 비정형 데이터에 비해 구조적인 요소를 갖고 있어 일부 데이터베이스 및 분석 도구를 통해 효율적으로 처리할 수 있습니다.
  • 활용: 데이터 마이닝, 빅 데이터 분석, 웹 데이터 추출 등에 널리 활용됩니다.
  • 중간 정도의 분석 복잡성: 특정한 구조를 갖고 있지만 정형 데이터만큼 엄격하지 않기 때문에 데이터의 형태나 구조가 변동 될수 있어, 분석 과정에서 추가적인 처리가 필요할 수 있습니다. 데이터 파싱 과정이 필요하고 xml과 같은 파일을 다룰 수 있는 특화된 도구가 필요합니다.  

※ 반정형 데이터 수집 방법

  • 웹 크롤링 및 스크래핑: 인터넷 상의 웹 페이지에서 HTML, XML 또는 다른 형식의 데이터를 자동으로 추출하는 기술입니다. 이 방법은 웹사이트의 구조적인 데이터를 수집하는 데 자주 사용됩니다.
  • API (Application Programming Interface) 사용: 많은 웹 서비스와 애플리케이션들은 데이터를 제공하기 위해 API를 제공합니다. API를 통해 JSON, XML 등의 형식으로 데이터를 수집할 수 있습니다.
  • 로그 파일 추출: 시스템, 애플리케이션 또는 서버의 로그 파일을 수집합니다. 이러한 로그 파일들은 종종 특정한 형식으로 기록되며 유용한 데이터를 포함하고 있습니다.
  • 이메일 데이터 수집: 이메일 서비스에서 제공하는 API나 특정 소프트웨어를 사용하여 이메일 데이터를 수집할 수 있습니다. 이메일은 헤더와 본문이라는 구조를 가지고 있습니다.
  • 소셜 미디어 데이터 수집: 트위터, 페이스북 등의 소셜 미디어 플랫폼은 사용자 데이터를 제공하는 API를 제공하기도 합니다. 이를 통해 JSON 형식 등으로 데이터를 수집할 수 있습니다.
  • 문서 파일에서 데이터 추출: PDF, Word, Excel 파일 등에서 텍스트와 다른 요소들을 추출합니다. 이는 종종 특정 파싱 도구를 필요로 합니다.

비정형 데이터 (Unstructured Data)

  • 정의: 특정한 데이터 모델이나 구조를 갖지 않은 데이터입니다.
  • 형태: 텍스트, 이미지, 비디오, 소셜 미디어 포스트, 이메일 등 다양한 형태가 있습니다.
  • 저장: NoSQL 데이터베이스, 데이터 레이크, 파일 시스템 등에 저장됩니다.
  • 예시: 블로그 게시글, 트윗, 위성 이미지, CCTV 영상 등.
  • 처리: 전통적인 데이터베이스 기법으로는 처리하기 어렵고, 특수한 소프트웨어와 알고리즘이 필요합니다.
  • 분석 복잡성: 구조화되지 않은 형태로 인해 분석과 처리가 더 복잡하고 어렵습니다.

비정형 데이터 수집 방법

  • 웹 크롤링: 인터넷 상의 웹 페이지에서 필요한 정보(텍스트, 이미지 등)를 자동으로 추출하는 기술입니다.
  • 소셜 미디어 수집 도구: 트위터, 페이스북 등의 소셜 미디어 플랫폼에서 게시물, 코멘트 등을 수집합니다.
  • 센서 및 IoT 장비: 실시간 환경 데이터, 위치 데이터 등을 센서나 IoT 장비를 통해 수집합니다.
  • 이미지 및 비디오 캡처: CCTV, 위성, 드론 등을 이용한 이미지 및 비디오 데이터 수집.

 
정형 데이터는 전통적인 데이터 분석에 주로 사용되고, 반정형 데이터는 데이터 마이닝이나 웹데이터 추출에 널리 활용되며, 비정형 데이터는 머신 러닝, 인공지능, 빅데이터 분석 등에 필요합니다.
 

출처: TTA 정보통신용어사전

 

변수의 종류와 척도

질적 변수 (Qualitative Variables)

  • 명목형 변수 (Nominal Variables)
    • 정의: 범주 또는 이름으로 분류되는 변수.
    • 특징: 순서나 등급이 없으며, 단순히 데이터를 구분하는 데 사용됩니다.
    • 예시: 혈액형, 국적, 성별 등.
  • 순서형 변수 (Ordinal Variables)
    • 정의: 범주 간에 명확한 순서나 등급이 있는 변수.
    • 특징: 각 범주 사이의 '정확한' 크기는 알 수 없습니다.
    • 예시: 교육 수준(고등학교 졸업, 대학 졸업 등), 설문 조사의 만족도(만족, 보통, 불만족 등)

※ 질적 변수 수집 방법

  • 인터뷰 및 포커스 그룹: 개인 또는 그룹과의 인터뷰를 통해 의견, 태도, 경험 등을 수집합니다.
  • 사례 연구: 특정 개인, 그룹, 사건 등을 심층적으로 조사하여 데이터를 수집합니다.
  • 관찰 연구: 참여 관찰 또는 비참여 관찰을 통해 행동, 상호작용 등을 기록합니다.
  • 문헌 조사: 기존의 문서, 기록, 출판물 등에서 정보를 수집합니다.

양적 변수 (Quantitative Variables)

  • 연속형 변수 (Continuous Variables)
    • 정의: 이론적으로 무한한 값의 범위를 갖는 변수.
    • 특징: 측정의 정밀도에 따라 더 세밀한 값으로 나눌 수 있습니다.
    • 예시: 온도, 체중, 시간 등.
  • 이산형 변수 (Discrete Variables)
    • 정의: 특정한 간격이나 개수로만 표현되는 변수.
    • 특징: 연속적인 값 사이에서는 존재할 수 없으며, 주로 셀 수 있는 양을 나타냅니다.
    • 예시: 학생 수, 주문 건수, 도서관의 책 수 등.

※ 양적 변수 수집 방법

  • 실험 및 실험실 테스트: 통제된 환경에서 수행되는 실험을 통해 수치 데이터를 수집합니다.
  • 설문조사 및 설문지: 수치화 가능한 응답을 통해 양적 데이터를 수집합니다.
  • 경제 및 통계 데이터: 정부나 기타 경제 기관에서 제공하는 경제 지표, 통계 데이터를 활용합니다.
  • 계측기 사용: 온도계, 속도계, 압력계 등 다양한 계측기를 사용하여 양적 데이터를 수집합니다.

연구 자료의 구분

자료의 종류는 정보의 출처와 수집 방법에 따라 구분됩니다.

자료의 종류에 따른 수집과 활용
출처: 구글

1차 자료 (Primary Data)

  • 정의: 연구자가 직접 수집하거나 생성한 원본 데이터입니다.
  • 특징:
    • 특정 연구 목적을 위해 수집: 연구의 목적에 맞춰 특별히 설계되고 수집된 데이터입니다.
    • 신뢰성과 정확성: 직접 수집된 데이터이므로, 연구자가 필요한 정보를 정확하게 얻을 수 있습니다.
    • 시간과 비용: 1차 자료 수집은 시간이 많이 소요되고 비용이 높을 수 있습니다.
  • 수집 방법 예시: 설문조사, 인터뷰, 실험, 관찰, 포커스 그룹, 케이스 스터디 등.

2차 자료 (Secondary Data)

  • 정의: 이미 다른 연구자나 기관에 의해 수집되고 출판된 자료입니다.
  • 특징:
    • 사전 수집된 데이터 활용: 연구 목적과는 별개로 이미 수집되어 있는 데이터를 사용합니다.
    • 시간과 비용 효율성: 이미 수집된 자료이므로 빠르고 비용이 적게 들어 연구 초기 단계에서 유용합니다.
    • 다양성과 광범위성: 여러 출처에서 얻은 다양한 유형의 데이터를 접근할 수 있습니다.
    • 정확성과 관련성의 한계: 원래의 연구 목적과 현재 연구 목적 사이에 차이가 있을 수 있어, 데이터의 정확성이나 관련성에 제한이 있을 수 있습니다.
  • 출처 예시: 정부 보고서, 학술 논문, 책, 기사, 통계 자료, 기존 연구 결과 등.

1차 자료와 2차 자료는 연구의 목적과 조건에 따라 적절하게 선택하여 사용해야 합니다. 때로는 이 두 종류의 데이터를 병행하여 사용하는 것이 연구의 품질을 높이는 데 도움이 될 수 있습니다. (저의 연구 논문 품질을 높이고 싶습니다. 제발요~🙆🏽‍♀️)
 

Julia's daily life
Julia's Daily Life

 
다음에는 통계적 분석방법에 대해 정리해볼게요, 새학기가 시작했으니 같이 공부해볼까요? 
 
통계 기초가 궁금하다면 우선 여기로 ⬇️
2023.03.12 - [공부에는 끝이 없지] - [데이터분석/통계기초] 데이터 체계화 및 시각화 - 도수분포, 상대도수, 누적도수 

 

[데이터분석/통계기초] 데이터 체계화 및 시각화 - 도수분포, 상대도수, 누적도수

바야흐로(?) 빅데이터의 시대, 오늘부터는 데이터를 분석하고 유의미한 인사이트를 얻어내기 위해 반드시 필요한 action, 통계분석 방법론을 차근차근 다뤄볼 예정이다. 그동안 필요한 범위 내에

hjuliacho.com

 

반응형

댓글