Data Analysis

R/텍스트마이닝 6

[텍스트마이닝] 의미망 분석 문제풀이

"news_comment_BTS.csv"에는 2020년 9월 21일 방탄소년단이 '빌보드 핫 100 차트' 1위에 오른 소식을 다룬 기사에 달린 댓글이 들어있습니다. "news_comment_BTS.csv"를 이용해 문제를 해결해 보세요. Q1. "news_comment_BTS.csv"를 불러온 다음 행 번호를 나타낸 변수를 추가하고 분석에 적합하게 전처리하세요. library(readr) library(dplyr) raw_news_comment % mutate(id = row_number(), reply = str_replace_all(reply, "[^가-힣]", " "), reply = str_squish(reply)) news_comment %>% select(id,reply) Q2. 댓글에서 명..

[텍스트마이닝] 상대적으로 중요한 단어 비교하기

빈도 높은 단어를 비교하면 어떤 텍스트든 일반적인 단어 빈도 높아 텍스트 차이 잘 드러나지 않음 ex) 연설문: "우리" , "사회" , "경제" , "일자리" 텍스트의 차이를 알아보려면 특정 텍스트에는 많이 사용되었지만 다른 텍스트에는 적게 사용된 단어를 살펴봐야함 Long form 데이터 살펴보기 df_long % group_by(president) %>% slice_max(n,n=10) %>% filter(word %in% c("국민", "우리", "정치", "행복")) frequency : president가 "moon"인 행과 "park"인 행이 세로로 길게 나열 Long form을 Wide form으로 변형하기 library(tidyr) df_wide % pivot_wider(names_fro..

[텍스트마이닝] 단어 빈도 비교하기

문재인 대통령 연설문 불러오기 library(dplyr) raw_moon % mutate(president = "moon") 박근혜 대통령 연설문 불러오기 raw_park % mutate(president = "park") tibble 구조로 변환하고 연설문 구분 위해 대통령 이름 부여 데이터 합치기 bind_speeches % select(president, value) 두 데이터를 행(세로) 방향으로 결합, 출력 결과 보기 편하게 select()로 변수 순서 바꾸기, 윗부분은 문재인 대통령, 아랫부분은 박근혜 전 대통령 연설문 집단별로 전처리 및 토큰화 library(stringr) speeches % mutate(value = str_replace_all(value, "[^가-힣]", " "), v..

[텍스트마이닝] 형태소 분석 관련 연습문제

박근혜 전 대통령의 대선 출마 선언문이 들어있는 speech_park.txt를 이용해 문제를 해결해 보세요. Q1. speech_park.txt를 불러와 분석에 적합하게 전처리한 다음 연설문에서 명사를 추출하세요. 데이터,라이브러리 불러오기 library(multilinguer) library(KoNLP) library(dplyr) speech % str_squish() %>% as_tibble() speech1 연설문에서 명사만 추출 speech_noun % unnest_tokens(input = value, output = word, token = extractNoun) speech_noun Q2. 가장 자주 사용된 단어 20개를 추출하세요. top20 % count(word, sort = T) %>..

[텍스트마이닝] 단어 빈도 분석 관련 연습문제

Q1. speech_park.txt를 불러와 분석에 적합하게 전처리한 다음 띄어쓰기 기준으로 토큰화하세요. 라이브러리, 데이터 준비 library(dplyr) library(stringr) park % # 연속된 공백 제거 as_tibble() park 띄어쓰기 기준으로 토큰화 하기 library(tidytext) word % unnest_tokens(input = value, output = word, token = 'words') word #Q2. 가장 자주 사용된 단어 20개를 추출하세요. top20 % count(word, sort = T) %>% head(20) top20 #Q3. 가장 자주 사용된 단어 20개의 빈도를 나타낸 막대 그래프를 만드세요. #•그래프의 폰트는 나눔고딕으로 설정하세요...

[텍스트마이닝] 텍스트 마이닝 관련 실습

관련 용어 1) 웹 크롤링 웹 코롤링(web crawling): 웹을 탐색하는 컴퓨터 프로그램(크롤러)를 이용하여 여러 인터넷 사이트의 웹 페이지 자료를 수집해서 분류하는 과정 크롤러(crawler): 자동화된 방법으로 월드와이드 웹(www)을 탐색하는 컴퓨터 프로그램 2) 스크래핑 스크래핑(scraping)이란 웹사이트이 내용을 가져와 원하는 형태로 가공하는 기술. 웹사이트의 데이터를 수집하는 모든 작업. 크롤링도 스크래핑 기술의 일종. 3) 파싱 파싱(parsing): 어떤 페이지(문서, HTML 등)에서 사용자가 원하는 데이터를 특정 패턴이나 순서로 추출하여 정보를 가공하는 것. HTML 소스를 문자열로 수집한 후 실제 HTML 태그로 인식할 수 있도록 문자열을 의미있는 단위로 분해하고, 계층적인 ..