Data Analysis

Python

[Python] 따릉이 사용 예측 베이스라인 코드

Holy_Water 2023. 1. 5. 16:01

submission.csv
0.00MB
test.csv
0.03MB
train.csv
0.08MB

라이브러리 로딩해오기

import pandas as pd
from sklearn.ensemble import RandomForestRegressor

 

데이터 로밍 및 확인

train = pd.read_csv('따릉이/train.csv')
test = pd.read_csv('따릉이/test.csv')

train.info()
train.head()

 

결측치 확인 및 0으로 전처리하기

train.isnull().sum()
test.isnull().sum()

train.fillna(0,inplace = True)
test.fillna(0,inplace = True)

 

모델 정의 및 학습시키기

train_x = train.drop(['count'],axis = 1)
train_y = train['count']

model=RandomForestRegressor(n_estimators=100)
model.fit(train_x,train_y)

 

학습된 모델로 예측 데이터 생성

pred = model.predict(test)

 

제출할 파일 생성하기

submission = pd.read_csv('따릉이/submission.csv')
submission
submission['count'] = pred
submission
submission.to_csv('베이스라인.csv',index = False)