Data Analysis

전체 글 126

LDA 토픽 모델링 개념

1. LDA 토픽 모델링의 개념 2. LDA 토픽 모델링의 분석 예시 3. LDA 토픽 모델링의 가정 4. LDA 토픽 모델링 프로세스 LDA 토픽 모델링의 개념 토픽 모델링이란 텍스트 기반의 문서 데이터에서 핵심 주제(Topic)를 찾는 데이터 분석 방법론입니다. 특히, 잠재 디리클레 할당(Latent Dirichlet Allocation, LDA)은 토픽 모델링의 가장 대표적인 알고리즘입니다. 구체적으로, LDA 토픽 모델링은 확률 기반의 모델링 기법을 통해 방대한 양의 문서 데이터를 분석함으로써 문서 내에 어떤 토픽이, 어떤 비율로 구성되어 있는지 분석합니다[1]. 또한, 토픽별로 어떤 키워드가 구성되었는지 정보를 제공하기 때문에, 키워드 조합을 통해 인사이트를 도출하는 데 효과적인 장점이 있습니다..

카테고리 없음 2024.03.07

LDA 기본 과정

내용 1. LDA 기본 과정 2. LDA 알고리즘 LDA 기본 과정 LDA의 기본 가정 • LDA란, 문서에 내재되어 있는 토픽을 찾아가는 알고리즘 • 전체 문서는 여러 개별적인 문서들의 집합으로 구성되며, • 하나의 개별 문서는 여러 개의 주제로 구성되고, • 하나의 주제는 여러 단어들로 구성된다는 가정! LDA 예시 문장으로 확인하기 • 아래와 같은 예시 문장 문서 1 : 우리 부모님은 건강을 위해 아침마다 수영을 하시고 저녁에는 산책을 합니다. 문서 2 : 나와 동생은 햄버거를 좋아합니다. 특히 치킨이 들어간 햄버거를 좋아하고, 어제는 피자를 먹었습니다. 문서 3 : 오늘은 나의 생일이라 햄버거를 먹었습니다. 그런데 살이 너무 많이 쪄서 산책과 수영을 시작했습니다. • 문서 내에 몇 개의 토픽이 있..

카테고리 없음 2024.02.29

데이터 웨어하우스

내용 1. 데이터 웨어하우스란? 2. 데이터 웨어하우스의 구조 데이터 웨어하우스란? 큰 대기업의 데이터 관리자 입장에서 생각해보기 • 다양한 부서가 존재 (마케팅, 영업, CS, 연구 개발 등등) • 특정 부서는 데이터가 생성되며, • 임의의 부서는 다른 부서들의 데이터에 접근 • 이때마다 데이터 호출 인터페이스를 각각 따로 만든다면 너무 많은 비용이 필요 • 만약, 데이터를 생성하는 부서가 10개 • 데이터를 소비하는 부서가 5개가 있다면 • 총 50개의 인터페이스가 필요 (곱하기 연산!) • 데이터의 흐름이 엉켜있는 형태 • 이를 거미집 현상(Spider Web)이라고 함 데이터 웨어하우스 (Data Warehouse) • 마치 소/도매 업자들이 소비자에게 바로 물건을 보내는 것이 아니라, • 이들과..

카테고리 없음 2024.02.28

데이터 마이닝

내용 1. 데이터 마이닝 소개 2. 데이터 마이닝 사례 데이터 마이닝 소개 [RECAP] 마이닝(Mining, 채굴) • 광물에서 귀중한 금속이나 광석을 채굴하는 작업 • 대량의 광물에서 소량의 귀중한 자원을 발견하고 추출하기 위해서는 • 광물을 면밀히 살펴봐야 함 • 비슷하게, 대량의 데이터(광물)에서 • 유용한 정보와 패턴(자원)을 찾기 위해 채굴이 필요 • 이렇게 채굴된 정보와 패턴으로 통찰력을 얻고, 의사 결정을 진행 • 정보를 얻고자 하는 원천 데이터로 • 텍스트 데이터가 주어지면 > 텍스트 마이닝 • 이미지 데이터가 주어지면 > 이미지 마이닝 • 특정되지 않은 일반적인 데이터라면 > 데이터 마이닝! 데이터 마이닝이란? • 특정 데이터에 한정하지 않고 • 대용량의 데이터 내에 존재하는 관계, 패..

카테고리 없음 2024.02.23

추천 시스템

내용 1. 추천 시스템이란? 2. 활용 사례 추천 시스템이란 추천 시스템 • 사용자가 관심을 가질 만한 정보(상품, 서비스 등)를 필터링 해서 제공하는 기법 • 사용자의 선호도 및 과거 행동을 기반으로 함 • 이를 통해 사용자 만족감을 높이고, 서비스의 사용 시간 및 매출 증대의 효과를 기대 • 아래의 의미에서 추천 시스템은 오래전부터 중요한 문제로 다뤄져 왔음 • 정보 과부하 문제 해결 • 수많은 옵션 중 가장 관련도 높은 항목을 선택 • 맞춤형 경험 • 사용자 기호 반영 • 사용자의 충성도와 만족도를 증가! • 비지니스 가치 • 구매 유도 및 사용자 참여도 증가 • 데이터 확보 추천 시스템의 기본 원리 • 콘텐츠 기반 필터링 (Content-based Filtering) • “내가 좋아했던 것을 기반..

카테고리 없음 2024.02.23

자연어 처리(NLP) 문장 분류

내용 1. 문장 분류 문제 2. 딥러닝 모델을 활용한 문장 분류 접근 3. 분류 문제를 넘어 문장 분류 문제 문장 분류 (Sentence Classification) • 텍스트 데이터를 활용해 분류 문제를 푸는 것 • 정해진 클래스 중 어떤 클래스에 속하는지를 판단 • 텍스트의 의미를 이해하고 구조화된 방식으로 분류를 하는 것이 목표 • Part4에서 다룬 감정 분석도 문장 분류의 한 종류 • 클래스 : 긍정 / 부정 • ʻ중립’ 감정도 다루는 경우가 있음 • 감정 분석 말고도 다양한 하위 테스크가 존재 • 분류 이외의 다른 복잡한 문제에서 문장 분류에 특화된 기술 모델을 사용 • 분류의 특화된 모델은 문장을 분석하는 능력이 좋고 • 이 능력을 이용해 다른 문제에 활용 세부 문장 분류와 문장 분류를 활용..

카테고리 없음 2024.02.23

자연어 처리(NLP) 주요 프레임워크

내용 1. NLP, 자연어 처리 2. 주요 프레임워크 NLP, 자연어 처리 [RECAP] 자연어 처리 (Natural Language Processing, NLP) • 자연어 처리란, • 컴퓨터가 인간의 언어를 이해하고 해석하는데 사용되는 분야로 • 컴퓨터 과학, 인공 지능, 언어학의 개념이 사용됨 • NLP의 목적은 인간 언어의 구조와 의미 이해를 바탕으로 • 글을 활용한 문제를 해결하고 • 향상된 사용자 경험을 제공하고자 함 • chatGPT와 같은 사용 경험이 해당하겠죠? • 대규모 텍스트 데이터 내의 존재하는 패턴, 관계, 정보를 발견하고 분석하는 텍스트 마이닝과 거리가 있음 • 두 개념의 목표 차이는 • NLP : 언어의 이해 • TM : 언어 속 내포된 정보 파악 자연어 처리의 다양한 문제 텍..

카테고리 없음 2024.02.23

토픽 모델링과 워드 클라우드

내용 1. 토픽 모델링이란 2. 토픽 모델링 사례 토픽 모델링이란 토픽 모델링 (Topic Modeling) • 토픽(Topic) : 문서 집합 안에서 논의되는 주제나 개념을 의미 • 모델링(Modeling) : 통계적인 방법으로 데이터의 패턴을 추출하는 과정을 의미 • 따라서 토픽 모델링이란, • 대규모 텍스트 데이터에 존재하는 다양한 주제를 자동으로 식별하고 분류하는 과정 • 이를 통해 데이터 안에 숨겨진 주제 구조를 발견하고 이해하는 목적 • 텍스트 마이닝, 자연어 처리, 정보 검색 등 다양한 분야에서 활용 토픽 모델링의 주제 • 토픽 모델링의 주제는 일반적으로 단어의 집합으로 표현 • 텍스트 내의 특정 패턴이나 빈도를 기반으로 선택 • 데이터 소스에 따라 주제의 범위가 결정 • 뉴스 기사, 소셜 ..

카테고리 없음 2024.02.21

감정 분석

내용 1. 감정 분석이란? 2. 감정 분석 사례 감정 분석이란? 감정 분석(Sentiment Analysis) • 감정 분석이란 • 텍스트에서 작성자의 감정 상태나 태도를 파악하고 분류하는 과정 • 텍스트 마이닝과 자연어 처리(NLP) 분야에 속함 • 주로 아래와 같은 기본 범주를 갖고 있음 • 긍정적 (Positive) • 부정적 (Negative) • 중립적 (Neutral) • 현업에서는 텍스트를 넘어 다양한 데이터를 활용해 사용자의 감정을 판단 감정 분석의 응용 • 감정 분석은 다양한 분야에서 광범위하게 적용됨 • 소셜 미디어 감성 모니터링 • 소셜 미디어 플랫폼 내 게시글 분석해 대중의 감정과 태도 파악 • 특정 사건, 제품, 브랜드, 정치적 이슈 등에 대한 대중의 반응을 모니터링 • 마케팅의 ..

카테고리 없음 2024.02.21

단어 임베딩과 문장 임베딩

내용 1. 단어와 문장 임베딩의 차이점 2. 원핫 인코딩 3. 학습 기반 임베딩 4. 문장 임베딩 실습 문장과 단어 임베딩의 차이점 단어 임베딩과 문장 임베딩 • 단어 임베딩 • 앞선 수업에서 다룸 • 단어를 숫자의 형태로 변환하는 과정 • 문장 임베딩 • 단어 임베딩과 마찬가지로 • 문장 자체를 숫자의 형태로 변환 • 단어를 넘어 문장 자체가 갖고 있는 의미를 벡터로 표현 • 이를 이용해 전반적인 글의 이해, 문맥 파악, 글 생성 등 다양한 자연어 처리 작업 진행 왜 서로 다른 임베딩이 있을까?? • 문장 임베딩과 단어 임베딩은 서로 다른 목적과 사용 사례를 기반으로 개발됨 • 풀어야 하는 문제를 해결하는 서로 다른 도구임 • 단어 임베딩은 • 단어의 의미, 문맥적 유사성, 동의어 등과 같이 • 단어 ..

카테고리 없음 2024.02.20