Data Analysis

R 34

[텍스트마이닝] 의미망 분석 문제풀이

"news_comment_BTS.csv"에는 2020년 9월 21일 방탄소년단이 '빌보드 핫 100 차트' 1위에 오른 소식을 다룬 기사에 달린 댓글이 들어있습니다. "news_comment_BTS.csv"를 이용해 문제를 해결해 보세요. Q1. "news_comment_BTS.csv"를 불러온 다음 행 번호를 나타낸 변수를 추가하고 분석에 적합하게 전처리하세요. library(readr) library(dplyr) raw_news_comment % mutate(id = row_number(), reply = str_replace_all(reply, "[^가-힣]", " "), reply = str_squish(reply)) news_comment %>% select(id,reply) Q2. 댓글에서 명..

[텍스트마이닝] 상대적으로 중요한 단어 비교하기

빈도 높은 단어를 비교하면 어떤 텍스트든 일반적인 단어 빈도 높아 텍스트 차이 잘 드러나지 않음 ex) 연설문: "우리" , "사회" , "경제" , "일자리" 텍스트의 차이를 알아보려면 특정 텍스트에는 많이 사용되었지만 다른 텍스트에는 적게 사용된 단어를 살펴봐야함 Long form 데이터 살펴보기 df_long % group_by(president) %>% slice_max(n,n=10) %>% filter(word %in% c("국민", "우리", "정치", "행복")) frequency : president가 "moon"인 행과 "park"인 행이 세로로 길게 나열 Long form을 Wide form으로 변형하기 library(tidyr) df_wide % pivot_wider(names_fro..

[텍스트마이닝] 단어 빈도 비교하기

문재인 대통령 연설문 불러오기 library(dplyr) raw_moon % mutate(president = "moon") 박근혜 대통령 연설문 불러오기 raw_park % mutate(president = "park") tibble 구조로 변환하고 연설문 구분 위해 대통령 이름 부여 데이터 합치기 bind_speeches % select(president, value) 두 데이터를 행(세로) 방향으로 결합, 출력 결과 보기 편하게 select()로 변수 순서 바꾸기, 윗부분은 문재인 대통령, 아랫부분은 박근혜 전 대통령 연설문 집단별로 전처리 및 토큰화 library(stringr) speeches % mutate(value = str_replace_all(value, "[^가-힣]", " "), v..

[텍스트마이닝] 형태소 분석 관련 연습문제

박근혜 전 대통령의 대선 출마 선언문이 들어있는 speech_park.txt를 이용해 문제를 해결해 보세요. Q1. speech_park.txt를 불러와 분석에 적합하게 전처리한 다음 연설문에서 명사를 추출하세요. 데이터,라이브러리 불러오기 library(multilinguer) library(KoNLP) library(dplyr) speech % str_squish() %>% as_tibble() speech1 연설문에서 명사만 추출 speech_noun % unnest_tokens(input = value, output = word, token = extractNoun) speech_noun Q2. 가장 자주 사용된 단어 20개를 추출하세요. top20 % count(word, sort = T) %>..

[텍스트마이닝] 단어 빈도 분석 관련 연습문제

Q1. speech_park.txt를 불러와 분석에 적합하게 전처리한 다음 띄어쓰기 기준으로 토큰화하세요. 라이브러리, 데이터 준비 library(dplyr) library(stringr) park % # 연속된 공백 제거 as_tibble() park 띄어쓰기 기준으로 토큰화 하기 library(tidytext) word % unnest_tokens(input = value, output = word, token = 'words') word #Q2. 가장 자주 사용된 단어 20개를 추출하세요. top20 % count(word, sort = T) %>% head(20) top20 #Q3. 가장 자주 사용된 단어 20개의 빈도를 나타낸 막대 그래프를 만드세요. #•그래프의 폰트는 나눔고딕으로 설정하세요...

[텍스트마이닝] 텍스트 마이닝 관련 실습

관련 용어 1) 웹 크롤링 웹 코롤링(web crawling): 웹을 탐색하는 컴퓨터 프로그램(크롤러)를 이용하여 여러 인터넷 사이트의 웹 페이지 자료를 수집해서 분류하는 과정 크롤러(crawler): 자동화된 방법으로 월드와이드 웹(www)을 탐색하는 컴퓨터 프로그램 2) 스크래핑 스크래핑(scraping)이란 웹사이트이 내용을 가져와 원하는 형태로 가공하는 기술. 웹사이트의 데이터를 수집하는 모든 작업. 크롤링도 스크래핑 기술의 일종. 3) 파싱 파싱(parsing): 어떤 페이지(문서, HTML 등)에서 사용자가 원하는 데이터를 특정 패턴이나 순서로 추출하여 정보를 가공하는 것. HTML 소스를 문자열로 수집한 후 실제 HTML 태그로 인식할 수 있도록 문자열을 의미있는 단위로 분해하고, 계층적인 ..

[R] 연관분석 연습문제

1. tranExam.csv 파일을 대상으로 중복된 트랜잭션 없이 1-2컬럼만 single형식으로 트랜잭션 객체를 생성하시오. 1단계: 트랜잭션 객체 생성 및 확인 library(arules) tran {2} 0.6 0.6000000 1.0 1.0000000 3 [3] {} => {3} 0.6 0.6000000 1.0 1.0000000 3 [4] {} => {1} 0.8 0.8000000 1.0 1.0000000 4 [5] {4} => {1} 0.4 1.0000000 0.4 1.2500000 2 [6] {1} => {4} 0.4 0.5000000 0.8 1.2500000 2 [7] {2} => {3} 0.4 0.6666667 0.6 1.1111111 2 [8] {3} => {2} 0.4 0.6666667..

[R] 앙상블 기념 및 실습 (랜덤 포레스트)

랜덤포레스트 - 랜덤포레스트 방식은 기존의 의사결정 트리 방식에 비해서 많은 데이터를 이용하여학습을 수행하기 때문에 비교적 예측력이 뛰어나고, 과적합(overfitting)문제를 해결할 수 있다. - 랜덤포레스트 모델은 기본적으로 원 데이터(raw data)를 대상으로 복원추출 방식으로 데이터의 양을 증가시킨 후 모델을 생성하기 때문에 데이터의 양이 부족해서 발생하는 과적합의 원인을 해결할 수 있다. - 각각의 분류모델에서 예측된 결과를 토대로 투표방식(voting)으로 최적의 예측치 선택 실습 (랜덤포레스트 기본 모델 생성) 1단계: 패키지 설치 및 데이터 셋 가져오기 install.packages("randomForest") library(randomForest) data(iris) 2단계: 랜덤포레..