정신차려보니 대학원 생활을 시작한 지 벌써 1년이 지났습니다. 작년 초에는 열심히 블로그를 해보겠다는 의지가 가득했는데, 회사 일과 학교 과제, 십수년만에 겪어보는 중간/기말고사에 치여서 1년이 어떻게 흘러갔는지 모르겠어요, 자연스럽게 블로그에는 소홀했습니다. 😢
하지만 이제 논문을 써야하니까, 기록하며 공부하는 의미에서 조금 씩 더 글을 남겨 볼게요, 같이 공부하는 어딘가의 누구에게 조금이나마 도움이 되기를 바라며 🙏🏼 데이터 분석 기초 시작합니다 ⬇️
데이터의 종류와 특성
정형 데이터 (Structured Data)
- 정의: 미리 정해진 데이터 모델에 따라 엄격하게 조직된 데이터입니다.
- 형태: 주로 표나 데이터베이스에서 찾을 수 있으며, 행과 열로 이루어진 형태입니다.
- 저장: 관계형 데이터베이스(RDBMS)에 주로 저장됩니다.
- 예시: 고객의 이름, 주소, 전화번호, 신용 카드 번호 등.
- 처리: SQL(Structured Query Language)을 사용하여 쉽게 검색, 분류, 수정이 가능합니다.
- 분석 용이성: 구조화된 형태로 인해 데이터 분석과 처리가 용이합니다.
※ 정형 데이터 수집 방법
- 데이터베이스 쿼리: 이미 존재하는 데이터베이스에서 SQL 등을 사용하여 필요한 데이터를 직접 추출합니다.
- API (Application Programming Interface): 웹 서비스나 소프트웨어 애플리케이션에서 제공하는 API를 통해 데이터를 수집합니다.
- 폼 및 설문조사: 사용자로부터 정보를 직접 입력받아 수집합니다.
- 공공 데이터 세트: 정부나 기타 기관이 제공하는 공개 데이터를 활용합니다.
반정형 데이터(Semi-structured Data)
- 정의: 정형 데이터와 비정형 데이터 사이에 위치하며, 일정 수준의 구조를 가지고 있지만, 전체적으로는 유연한 구조를 가진 데이터입니다.
- 형태: 데이터 자체에 구조를 설명하는 태그나 마크업 언어를 포함합니다. 이 구조는 정형 데이터처럼 엄격하지 않아서 유연성을 제공합니다.
- 저장: XML, JSON, CSV 파일 형식이 흔히 사용됩니다. 이러한 형식들은 데이터 구조에 대한 정보를 포함하면서도 상대적으로 유연성을 제공합니다.
- 예시: 이메일(헤더와 본문 구조), HTML 문서(웹 페이지 구조), 로그 파일(시간, 이벤트 유형, 메시지 등을 포함한 기록) 등.
- 처리: 정형 데이터보다 처리가 복잡할 수 있으나, 비정형 데이터에 비해 구조적인 요소를 갖고 있어 일부 데이터베이스 및 분석 도구를 통해 효율적으로 처리할 수 있습니다.
- 활용: 데이터 마이닝, 빅 데이터 분석, 웹 데이터 추출 등에 널리 활용됩니다.
- 중간 정도의 분석 복잡성: 특정한 구조를 갖고 있지만 정형 데이터만큼 엄격하지 않기 때문에 데이터의 형태나 구조가 변동 될수 있어, 분석 과정에서 추가적인 처리가 필요할 수 있습니다. 데이터 파싱 과정이 필요하고 xml과 같은 파일을 다룰 수 있는 특화된 도구가 필요합니다.
※ 반정형 데이터 수집 방법
- 웹 크롤링 및 스크래핑: 인터넷 상의 웹 페이지에서 HTML, XML 또는 다른 형식의 데이터를 자동으로 추출하는 기술입니다. 이 방법은 웹사이트의 구조적인 데이터를 수집하는 데 자주 사용됩니다.
- API (Application Programming Interface) 사용: 많은 웹 서비스와 애플리케이션들은 데이터를 제공하기 위해 API를 제공합니다. API를 통해 JSON, XML 등의 형식으로 데이터를 수집할 수 있습니다.
- 로그 파일 추출: 시스템, 애플리케이션 또는 서버의 로그 파일을 수집합니다. 이러한 로그 파일들은 종종 특정한 형식으로 기록되며 유용한 데이터를 포함하고 있습니다.
- 이메일 데이터 수집: 이메일 서비스에서 제공하는 API나 특정 소프트웨어를 사용하여 이메일 데이터를 수집할 수 있습니다. 이메일은 헤더와 본문이라는 구조를 가지고 있습니다.
- 소셜 미디어 데이터 수집: 트위터, 페이스북 등의 소셜 미디어 플랫폼은 사용자 데이터를 제공하는 API를 제공하기도 합니다. 이를 통해 JSON 형식 등으로 데이터를 수집할 수 있습니다.
- 문서 파일에서 데이터 추출: PDF, Word, Excel 파일 등에서 텍스트와 다른 요소들을 추출합니다. 이는 종종 특정 파싱 도구를 필요로 합니다.
비정형 데이터 (Unstructured Data)
- 정의: 특정한 데이터 모델이나 구조를 갖지 않은 데이터입니다.
- 형태: 텍스트, 이미지, 비디오, 소셜 미디어 포스트, 이메일 등 다양한 형태가 있습니다.
- 저장: NoSQL 데이터베이스, 데이터 레이크, 파일 시스템 등에 저장됩니다.
- 예시: 블로그 게시글, 트윗, 위성 이미지, CCTV 영상 등.
- 처리: 전통적인 데이터베이스 기법으로는 처리하기 어렵고, 특수한 소프트웨어와 알고리즘이 필요합니다.
- 분석 복잡성: 구조화되지 않은 형태로 인해 분석과 처리가 더 복잡하고 어렵습니다.
※ 비정형 데이터 수집 방법
- 웹 크롤링: 인터넷 상의 웹 페이지에서 필요한 정보(텍스트, 이미지 등)를 자동으로 추출하는 기술입니다.
- 소셜 미디어 수집 도구: 트위터, 페이스북 등의 소셜 미디어 플랫폼에서 게시물, 코멘트 등을 수집합니다.
- 센서 및 IoT 장비: 실시간 환경 데이터, 위치 데이터 등을 센서나 IoT 장비를 통해 수집합니다.
- 이미지 및 비디오 캡처: CCTV, 위성, 드론 등을 이용한 이미지 및 비디오 데이터 수집.
정형 데이터는 전통적인 데이터 분석에 주로 사용되고, 반정형 데이터는 데이터 마이닝이나 웹데이터 추출에 널리 활용되며, 비정형 데이터는 머신 러닝, 인공지능, 빅데이터 분석 등에 필요합니다.
변수의 종류와 척도
질적 변수 (Qualitative Variables)
- 명목형 변수 (Nominal Variables)
- 정의: 범주 또는 이름으로 분류되는 변수.
- 특징: 순서나 등급이 없으며, 단순히 데이터를 구분하는 데 사용됩니다.
- 예시: 혈액형, 국적, 성별 등.
- 순서형 변수 (Ordinal Variables)
- 정의: 범주 간에 명확한 순서나 등급이 있는 변수.
- 특징: 각 범주 사이의 '정확한' 크기는 알 수 없습니다.
- 예시: 교육 수준(고등학교 졸업, 대학 졸업 등), 설문 조사의 만족도(만족, 보통, 불만족 등)
※ 질적 변수 수집 방법
- 인터뷰 및 포커스 그룹: 개인 또는 그룹과의 인터뷰를 통해 의견, 태도, 경험 등을 수집합니다.
- 사례 연구: 특정 개인, 그룹, 사건 등을 심층적으로 조사하여 데이터를 수집합니다.
- 관찰 연구: 참여 관찰 또는 비참여 관찰을 통해 행동, 상호작용 등을 기록합니다.
- 문헌 조사: 기존의 문서, 기록, 출판물 등에서 정보를 수집합니다.
양적 변수 (Quantitative Variables)
- 연속형 변수 (Continuous Variables)
- 정의: 이론적으로 무한한 값의 범위를 갖는 변수.
- 특징: 측정의 정밀도에 따라 더 세밀한 값으로 나눌 수 있습니다.
- 예시: 온도, 체중, 시간 등.
- 이산형 변수 (Discrete Variables)
- 정의: 특정한 간격이나 개수로만 표현되는 변수.
- 특징: 연속적인 값 사이에서는 존재할 수 없으며, 주로 셀 수 있는 양을 나타냅니다.
- 예시: 학생 수, 주문 건수, 도서관의 책 수 등.
※ 양적 변수 수집 방법
- 실험 및 실험실 테스트: 통제된 환경에서 수행되는 실험을 통해 수치 데이터를 수집합니다.
- 설문조사 및 설문지: 수치화 가능한 응답을 통해 양적 데이터를 수집합니다.
- 경제 및 통계 데이터: 정부나 기타 경제 기관에서 제공하는 경제 지표, 통계 데이터를 활용합니다.
- 계측기 사용: 온도계, 속도계, 압력계 등 다양한 계측기를 사용하여 양적 데이터를 수집합니다.
연구 자료의 구분
자료의 종류는 정보의 출처와 수집 방법에 따라 구분됩니다.
1차 자료 (Primary Data)
- 정의: 연구자가 직접 수집하거나 생성한 원본 데이터입니다.
- 특징:
- 특정 연구 목적을 위해 수집: 연구의 목적에 맞춰 특별히 설계되고 수집된 데이터입니다.
- 신뢰성과 정확성: 직접 수집된 데이터이므로, 연구자가 필요한 정보를 정확하게 얻을 수 있습니다.
- 시간과 비용: 1차 자료 수집은 시간이 많이 소요되고 비용이 높을 수 있습니다.
- 수집 방법 예시: 설문조사, 인터뷰, 실험, 관찰, 포커스 그룹, 케이스 스터디 등.
2차 자료 (Secondary Data)
- 정의: 이미 다른 연구자나 기관에 의해 수집되고 출판된 자료입니다.
- 특징:
- 사전 수집된 데이터 활용: 연구 목적과는 별개로 이미 수집되어 있는 데이터를 사용합니다.
- 시간과 비용 효율성: 이미 수집된 자료이므로 빠르고 비용이 적게 들어 연구 초기 단계에서 유용합니다.
- 다양성과 광범위성: 여러 출처에서 얻은 다양한 유형의 데이터를 접근할 수 있습니다.
- 정확성과 관련성의 한계: 원래의 연구 목적과 현재 연구 목적 사이에 차이가 있을 수 있어, 데이터의 정확성이나 관련성에 제한이 있을 수 있습니다.
- 출처 예시: 정부 보고서, 학술 논문, 책, 기사, 통계 자료, 기존 연구 결과 등.
1차 자료와 2차 자료는 연구의 목적과 조건에 따라 적절하게 선택하여 사용해야 합니다. 때로는 이 두 종류의 데이터를 병행하여 사용하는 것이 연구의 품질을 높이는 데 도움이 될 수 있습니다. (저의 연구 논문 품질을 높이고 싶습니다. 제발요~🙆🏽♀️)
다음에는 통계적 분석방법에 대해 정리해볼게요, 새학기가 시작했으니 같이 공부해볼까요?
통계 기초가 궁금하다면 우선 여기로 ⬇️
2023.03.12 - [공부에는 끝이 없지] - [데이터분석/통계기초] 데이터 체계화 및 시각화 - 도수분포, 상대도수, 누적도수
'공부에는 끝이 없지' 카테고리의 다른 글
[데이터분석/통계기초] 데이터 체계화 및 시각화 - 도수분포, 상대도수, 누적도수 (0) | 2023.03.12 |
---|---|
[MOT] 기술경영 전문대학원 합격 후기(2) (8) | 2023.01.24 |
[MOT] 기술경영 전문대학원 합격 후기(1) (0) | 2023.01.23 |
댓글