팀 이름 캡장
과목명 빅데이터분산컴퓨팅
교수명 조상훈 교수님
조원 강효근, 김주언, 정지훈, 홍상택

1. 프로젝트 요약

주어진 뉴욕 택시 데이터의 EDA를 통해, 비교적 높은 Fare_amount를 갖는 택시 기사를 유심히 살펴본 결과 공항에서 출발하거나 공항에 도착하는 장거리 운행이 비교적 많았다. 공항버스 사업을 통해 이러한 승객들이 공항버스를 이용한다면 좋을 것이라는 생각을 하였다. 이를 배경으로 공항버스 사업을 확대하기 위해, 공항버스 정류장의 위치와 요금에 대한 분석을 진행하기로 한다.

먼저 택시 데이터의 이상치 제거를 위해 데이터 정제 과정을 거친다. 요금이 뉴욕 택시의 기본 요금인 2.5달러 미만인 경우, 승객 수가 0명이거나 지나치게 많은 경우, 승하차 좌표가 뉴욕시를 벗어난 경우, trip_time이 0이거나 지나치게 큰 경우 이상치로 판단하여 데이터 정제를 한다.

다음 과정은 데이터 분석이다. 버스 정류장 예측을 위해 kmeans 클러스터링을 사용한다. kmeans 클러스터링은 클러스터의 개수인 k값을 알아야 하는데, k값을 구하기 위해 silhouette 분석을 사용한다. 공항버스의 노선이 보통 5개 이상인 것을 생각해, 최소 k의 값을 5로 설정하여 가장 큰 silhouette 분석값을 가지는 k값을 사용한다. 이후 3개의 공항(존 F. 케네디 국제 공항, 뉴욕 라과디아 공항,뉴어크 리버티 국제공항)이 승하차 지점인 데이터만을 사용해 클러스터링하여 각 클러스터의 중심점을 버스 정류장으로 정한다.

또한 trip_distance와 fare_amount 선형 회귀 분석 결과와 각 공항의 평균 탑승 인원을 계산하여 버스 요금을 정한다.

2. 서론

가. 주제 선정 배경

세계에서 가장 번화하고 유명한 계획도시이며, 세계 경제, 문화 패션의 중심지로 '세계의 수도'라는 호칭을 가진 뉴욕은 관광객을 비롯하여, 수 많은 사람들이 오고 가는 곳이다.

우리는 주어진 뉴욕 택시 데이터의 EDA를 통해, 비교적 높은 Fare_amou nt를 갖는 택시 기사를 유심히 살펴본 결과 공항에서 출발하거나 도착하는 장거리 운행이 비교적 많았다.

즉 '공항에서 출발하거나 도착하기를 원하는 수요가 많고 장거리 운행과 비교적 높은 금액을 지불하면서 까지도 택시를 타는 이유는 무엇일까?'에 대해 집중해보았다.

뉴욕에 위치한 공항에서 대표 도시 맨해튼으로 이동하는 방법에는 지하철, 버스, 택시의 총 3가지 방식이 있는다. 지하철(에어트레인)은 가장 저렴하고 길 막힘 걱정이 없지만, 공항에서 출입국 하는 사람들의 경우 캐리어를 끌고 이동하기 때문에 힘이 많이 드는 단점이 있다. 또한, 공항 버스가 존재하지만, 한국만큼 많은 지역에 분포되어 있지 않으며 맨해튼 시의 그랜드 센트럴 터미널(Grand Central Terminal), 브라이언트 공원(Bryant Park), 포트 오소리티 버스 터미널(Port Authority Bus Terminal) 이 3개의

터미널에서만 정차를 하기 때문에 옐로캡을 타는 경우가 발생하는 것이다.

이를 배경으로 공항 버스 사업을 더욱이 확대하기 위해, 어느 지역에 정류장이 세워지면 좋을지와 가격을 얼마나 받으면 좋을지에 대해 분석을 진행하기로 하였다.

golden_touch_공항버스.webp

나. 분석 목표

뉴욕 시에 위치한 공항에서 출발하거나 공항으로 도착한 GPS 위치 데이터를 이용하여, RHadoop을 이용한 군집 분석(K-Means)을 통하여, 공항버스의 적절한 정류장의 위치와 개수를 파악하고, Simple Linear Regression을 통해 이동 거리에 따른 가격을 계산해본다.

3. Data Set

가. 사용한 데이터