Data Analysis

전체 글 126

단어 임베딩, Word Embedding

원핫 인코딩 (One-hot encoding) • 정의 • 임베딩의 한 방법으로 • 0과 1을 통해 단어를 정의 • 특정 단어를 표현하는 위치만 1이고 나머지의 위치는 0으로 구성 • 예를 들어, 전체 단어가 ʻdog’, ʻcat’, ʻapple’ 이 있다고 할 때, • dog : [1, 0, 0] • cat : [0, 1, 0] • apple : [0, 0, 1] • 과 같이 단어의 수 만큼의 크기를 갖는 벡터가 생성 • 각 단어의 위치(1이 표현되는 위치)는 설정하기에 따라 다름 • 직관적으로 쉽게 단어를 벡터로 변환 가능 단어에 원핫 인코딩 적용하기 • 원핫 인코딩을 적용하기 위해 문장을 단어의 형태로 분해 • 이를 tokenize(토크나이즈)라고 함 ‒ 추후 자세히 다룰 예정 • 일단 띄어쓰기 단..

카테고리 없음 2024.02.20

임베딩이란? 원핫 인코딩, 분산 표현

임베딩, Embedding 정의 • 텍스트 데이터를 벡터로 변환하는 기술 • 이는 텍스트 마이닝을 비롯해 자연어 처리에서 매우 기본적인 과정 • 글에서 유용한 정보를 추출해 분석하는 과정에서 컴퓨터가 이를 처리할 수 있도록 함 과정 • 데이터 준비 : 원문 데이터 혹은 다른 소스로부터 데이터를 수집 • 전처리 : 불용어, 오타 등의 데이터를 제외 • 임베딩 : 목적에 맞는 임베딩 알고리즘을 적용 • 시각화 : 필요시 임베딩 결과를 그려보고 이를 확인 종류 • 단어 임베딩 : 하나의 단어를 벡터로 변환 • 문장 임베딩 : 문장 자체를 벡터로 변환 원핫 인코딩 (One-hot encoding) 정의 • 임베딩의 한 방법으로 0과 1을 통해 단어를 정의 • 특정 단어를 표현하는 위치만 1이고 나머지의 위치는 ..

카테고리 없음 2024.02.20

[SQL] 다양한 함수 다뤄보기 (JOINS)

JOIN이란? 두 개 이상의 테이블을 특정 Key를 기준으로 결합하는 것 INNER JOIN 두 테이블의 교집합 = category별 담당자를 알고자 할 때 LEFT JOIN LEFT JOIN은 왼쪽을 기준으로 테이블이 생성되기 때문에 on에 대한 요구에 부합하지 않더라도 null값으로 출력된다. RIGHT JOIN FULL OUTER JOIN MySQL에서는 FULL OUTER JOIN 이 없음으로 위와 같이 LEFT JOIN과 RIGHT JOIN을 UNION함수로 합쳐 사용한다. CROSS JOIN 크로스 조인은 가능한 모든 경우의 수의 테이블을 출력한다. 예를 들어 각 3개씩 로우값이 있는 테이블에 CROSS JOIN을 하면 3*3 총 9개의 로우값이 있는 테이블이 출력된다. - 상품의 유사도 등을..

카테고리 없음 2023.12.05

[SQL] 관계형 데이터 베이스, 연산자, 정렬과 집계, 기초함수

구조적 쿼리 언어(SQL)는 관계형 데이터베이스에 정보를 저장하고 처리하기 위한 프로그래밍 언어이다. 데이터를 다룰 때 필수적으로 요구되는 기술이기 때문에 데이터 관련 직종을 갖고자 하는 분들에게는 필수적이라고 할 수 있다. 오늘은 SQL에 대해서 알아보자 ! 관계형 데이터베이스와 비-관계형 데이터베이스의 차이점 구분 관계형 데이터베이스 RDBMS 비-관계형 데이터베이스 NoSQL 사용 목적 - 정형 데이터: 테이블 행/열 로 이루어진 형태 - Transaction 처리: 데이터의 일관성과 무결성이 중요한 서비스에서 사용 예) 은행의 금융 서비스, 쇼핑몰 주문 & 정산 - 비정형/반정형 데이터: JSON, XML 등 다양한 형태 - 대량의 데이터와 빠른 읽기/쓰기: 대규모/분산 데이터 처리가 필요한 서비..

카테고리 없음 2023.12.04

엑셀 데이터의 종류와 기본 함수

엑셀 데이터의 종류 숫자 데이터 -숫자로 이루어져 있는 데이터 - 숫자(0~9), +, -, 화폐기호, 소수점, % 등 예시) 4, 1002 92%, 10000$ 문자 데이터 - 핸드폰번호, 주민등록번호, 숫자, 기호, 명칭과 같은 데이터 - 문자와 숫자가 혼합된 데이더 - 특정 함수 사용이 불가능하다. - 문자열 함수를 사용 가능하다. 예시) 010-1234-1234, 프로그래머스, 743-240 날짜 데이터 - 년, 월, 일 등 날짜를 표시하기 위한 데이터 - 하이픈(-)이나 슬래시(/)로 표현 가능 - 날짜도 숫자 데이터 처럼 계산이 가능 - 숫자 1은 하루를 의미(1->24시간, 0.5->12시간) 예시)2023-10-02, 2023/10/02 논리 데이터 - True(1)m False(0) - ..

카테고리 없음 2023.11.29

Generative AI 활용해보기 (Chat GPT)

최근 생성 AI가 Text, Code Generation, Image, Speech synthesis, Video and 3D models, Audio Music 등과 같은 영역에서 의미있게 사용되어 지 빠르게 성장하고 있는 요즘이다. 오늘은 Chat GPT가 직접적으로 우리에게 어떤 도움을 줄 수 있고, 또 어떻게 활용해야 하는지에 대해서 포스팅 해보겠다. 아래는 오늘 집중적으로 알아볼 두가지 포인트 이다 나의 문제 해결을 위한 Chat GPT 역할과 나의 문제를 구체적으로 프롬프트에 입력하는 것 나의 반복적인 작업을 효율적으로 처리하는 나만의 업무 보조 AI 챗봇을 만드는 것 사용자 문제 해결 중심의 프롬프트 엔지니어링 순서 (프롬프트 = 내가 우너하는 결과물을 얻을 수 있도록 AI에게 지시하는 명령..

카테고리 없음 2023.11.28

머신러닝이란 무엇인가 ?

오늘은 머신러닝이 정확이 무엇이고 실제로 기업에서 어떻게 적용되는지, 또 우리가 러닝머신을 활용할 떄 고려해야할 점은 무엇인지에 대해서 포스팅 해보겠습니다 ! 머신러닝이란 ?? 'A field of study that gives computers the ability to learn without being explicitly programmed' (Arthur Samuel) - 머신러닝이란 쉽게 말해서 배움이 가능한 기계의 개발 이라고 할 수 있다. - 데이터로 부터 학습을 하는 알고리즘 이고, 결국 데이터의 패턴을 보고 흉내내는 방식이다. 머신러닝 모델이란 ?? - 쉽게 말해 데이터를 학습함을 통해 만들어진 블랙박스라고 할 수 있다 - 여기서 블랙박스라고 표현하는 이유는 입력값을 통해 원하는 값을 출..

카테고리 없음 2023.11.22

데이터 기반 의사 결정, 데이터 분석가의 스킬 셋

데이터의 용도는 크게 Decision Science, Product Science 두 부분으로 나눌 수 있다. 오늘은 Decision Science와 데이터 분석가의 필요 스킬 셋에 대해서 알아보자 데이터 기반 의사결정이란? 데이터 기반 의사 결정이란? DDDM(데이터 기반 의사 결정)은 사실, 메트릭 및 데이터를 사용하여 목적, 목표 및 이니셔티브에 부합하는 전략적 비즈니스 의사 결정을 내리도록 안내하는 것으로 정의된다. 데이터 기반 의사결정은 크게 Data Driven Decision, Data Informed Decision 로 나눌 수 있다. 데이터란 기본적으로 과거의 기록이기 때문에 이를 바탕으로 한 결정을 내릴 때 데이터를 너무 믿어서는 안된다. 그렇기 때문에 Data Driven Decisi..

카테고리 없음 2023.11.21

데이터 문해력 키우기

데이터가 삶의 전반에 점점 더 많은 영향을 미치고 있다. 데이터 가치가 넓고 중요해 짐에 따라 데이터 문해력은 이제 선택이 아니라 필수적인 영역으로 자리잡고 있다. 데이터 문해력에 대해 알아보자 ! 데이터란 무엇인가? 1. 데이터는 우리 생활 모든 곳에 존재한다. 1) 데이터란 우리가 일상에서 관찰할 수 있는 모든것을 말한다 ex)온도, 풍량, 소리, 움직임 등등.. - 이런 데이터들을 바탕으로 우리가 사회나 기업에서 의미있는 인사이트들을 도출할 수 있다. - 오프라인에서 얻은 데이터들을 온라인으로 데이터화 하는 것을 Digitization 이라고 한다. 2. 데이터의 크기 변화 1) 웹과 모바일 폰의 상용량 증가에 따라 데이터의 크기가 폭발적으로 성장하고 있다. - 그에 때라 큰 데이터를 처리할 수 있..

카테고리 없음 2023.11.20