07.30 TIL CS 관련
빅 데이터
- 데이터 종류
1. 정형 데이터 : 수치로 확인할 수 있거나 구조를 가지고 있는 데이터들
ex) 관계형 데이터베이스, 스프레드시트, 시간, 표, 카드번호 등등
2. 비정형 데이터 : 수치적으로 확인할 수 없거나 구조를 띄지 않는 데이터
ex) 텍스트 분석이 가능한 텍스트 문서, 이미지, 동영상, GPS 위치 정보 등등
3. 반정형 데이터 : 위 두개 데이터들의 특성을 가짐
ex) XML, HTML, JSON 등등
- 데이터 전처리
정의 : 데이터를 분석 및 처리에 적합한 형태로 만드는 과정을 총칭
이 과정은 데이터의 품질을 높여주고, 작업을 효율적으로 진행할 수 있게 만듬
이 전처리 과정은 크게 5가지
데이터 수집 및 통합 – > 데이터 정제 -> 데이터 변환 -> 데이터 축소 -> 데이터 분할
1) 데이터 수집 및 통합 : 다양한 곳에서 데이터를 수집하고 이를 통합
2) 데이터 정제 : 크게 3가지로 나뉨
2-1 ) 결측값 처리 : 결측값을 제거하거나 적절한 값으로 대체(결측값이란 수집된 데이터 셋 중 관측되지 않은 특정 확률변수의 값)
2-2 ) 이상치 처리 : 데이터에 존재하는 이상치를 탐지하고 정리(이상치란 말도 안되는 이상한 값이 들어있는 경우, 이런 경우 이상치를 찾기가 쉽지가 않다.)
2-3 ) 중복 데이터 제거: 동일한 데이터가 중복되어 있는 경우 이를 제거
3) 데이터 변환 : 크기가 벗어났거나 인코딩이 맞지 않는 데이터를 옳바르게
4) 데이터 축소 : 컴퓨팅 시간 등 고려 위해 데이터 축소가 필요
5) 데이터 분할 : 이터를 학습 데이터와 테스트 데이터로 분할하여 모델의 성능을 평가할 수 있도록 핟나. 보통 70%는 학습 데이터로, 30%는 테스트 데이터로 사용
메타데이터
다른 정보에 대한 정보를 의미합니다. 보통 어떤 정보의 근원에 대한 정보를 담고 있다.
종류
- 기술 메타 데이터 : 데이터의 형식, 구조, 저장 위치 등을 설명
- 관리 메타 데이터 : 데이터의 관리와 보존을 돕는 정보
- 설명 메타 데이터 : 데이터의 내용과 관련된 정보
- 구조 메타 데이터 : 데이터의 조직과 관계를 설명
- 사용 메타 데이터 : 데이터의 사용과 관련된 정보
회귀분석
회귀분석은 종속 변수(목표)와 하나 이상의 독립 변수(예측 변수라고도 함) 간의 미래 사건을 예측하는 방법
사용되는 곳
- 금융 관련 예측(가격 또는 주가 등)
- 자동차 테스트
- 날씨 분석 등
종류
- 선형 회귀(Linear regression)
선형 회귀는 예측 변수와 종속 변수로 구성, 변수들이 서로 선형적으로 연결되어 있는 경우 선형 회귀를 사용
그러나 선형 회귀분석은 특이치에 영향을 받기 쉬우므로 빅데이터 집합을 분석하는 데 사용해서는 안 된다.
- 로지스틱 회귀(Logistic regression)
말해 0 또는 1, 참 또는 거짓, 흑 또는 백, 스팸 또는 스팸 아닌 것 등의 두 가지 값 중 하나만 취할 수 있는 경우 로지스틱 회귀를 사용하여 데이터를 분석
- 다항 회귀(Polynomial regression)
다항 회귀는 선형 모델을 사용하여 비선형 데이터 집합을 모델링한다.
곡선의 다항식 선을 사용하여 최적적합을 수행
AI
- 인공지능은 인간의 학습능력, 추론능력, 지각능력을 인공적으로 구현하려는 컴퓨터 과학의 세부분야 중 하나이다.
종류
전문가 시스템(Expert System)
자연어 처리(Natural Language Processing)
데이터 마이닝(Data Mining)
컴퓨터 비전(Computer Vision)
지능로봇(Intelligent Robots)
인공지능(AI) 활용 사례
내비게이션
음성인식 인공지능 비서(흔히 빅스비 같은 녀석들)
챗봇(이루다 같은 녀석들)
자율주행 자동차
나는 개인적으로는 사람의 몸을 검사해서 어디가 아픈지 알아 볼 수 있는 그런 인공지능이 더 발전했으면 좋겠다.(ㅎㅎ;;)
그러면 하루빨리 병원에 가서 치료를 할 수 있지 않는가
이거에 대한 사례들
- AI를 활용한 영상 진단과 질병의 조기 발견
인공지능(AI) 및 기계학습(ML) 알고리즘은 건강기록과 의료영상 등 방대한 데이터를 신속, 정확하게 분석하고 잠재적인 질병 징후를 탐지할 수 있어 질병 예측과 여러 질환의 진단에 활용되고 있다. 특히 AI 기반 의료 영상은 사람의 눈으로 식별하기 힘든 미세한 변화와 패턴을 감지해 진단의 정확성과 효율성을 높여줄 수 있어 크게 발전하고 있는 분야 중 하나
- AI를 활용한 신약 개발
임상시험을 통한 의약품 개발에는 막대한 시간과 비용이 소요되는데 AI 기술은 신약 개발 사전 조사, 임상시험 단계, 제조단계, 인허가 결정, 약물 감시 등의 단계에서 약물 개발 프로세스를 획기적으로 단축하고 비용 효율성을 높이는 데 기여한다.