NYC Yellow Taxi Trip Records ๋ฐ์ดํฐ์ EDA๋ฅผ ํตํด, pickup_datetime์ dropoff_datetime ๋ณ์๋ฅผ ์ดํด๋ณธ ๊ฒฐ๊ณผ, ์ฌ๋๋ค์ด ํ๋ํ๋ ๋ฎ ์๊ฐ์ด ์๋, ๋ฐค์๋ ํ์์ ์์๊ฐ ๋ง๋ค๋ ๊ฒ์ ๋ณผ ์ ์์๋ค. ๊ทธ๋ฌ๋ ๋ฎ์๋ ๋์ค ๊ตํต์ ์ ํ์ง๊ฐ ๋ค์ํ์ง๋ง, ๋ฐค์๋ ๋ค์ ํ์ ์ ์ด์๋ค. ์ฌ์ผ ๋ฒ์ค ์ด์์ ํตํด ์น๊ฐ๋ค์๊ฒ ๋ฐค์๋ ์์ ํ ๊ตํต์๋จ์ ์ ๊ณตํ๊ณ ์ ํ๋ฉฐ, ๋ฒ์ค ์ฌ์ ์ ์งํ ๋ฐ ํ๋ํ๊ธฐ ์ํด ๋ด์ ํ์ ๋ฐ์ดํฐ๋ฅผ ํ์ฉํ์ฌ ์ฌ์ผ ๋ฒ์ค์ ์ ๋ฅ์ฅ ์์น ์ ์ ๊ณผ ์๊ธ์ ์์ธกํ๋ ๋ถ์์ ์งํํ๊ธฐ๋ก ํ๋ค.
๋ณธ ํ๋ก์ ํธ์ ๋ชฉ์ ์
- โ์ฌ์ผ ๋ฒ์ค ์ฌ์ โ์ ์ํด ๋ฐ์ดํฐ๋ฅผ ์ ์ ํ๊ณ
- โ์ฌ์ผ ๋ฒ์ค ๋ ธ์ ์ ์ โ ์ ์ํด, K-Means Clustering ์ ํตํด ๋ฒ์ค ์ ๋ฅ์ฅ์ ์ฐพ๊ณ
- โ์ฌ์ผ ๋ฒ์ค ์๊ธ ์์ธกโ ์ ์ํด, Linear Regression ์ ํตํด ์๊ธ์ ์ฑ ์ ํ๋ค.
โ์ฌ์ผโ ๋ฒ์ค ์ ๋ฅ์ฅ ์์น ์ ์ ์ ์ํด, ๊ธฐ์ค์ ์ธ์ ๋ฐ์ดํฐ ์ ์ ๊ณผ์ ์ ๊ฑฐ์น๋ค.
- ์ด๋ก ์ ์ผ๋ก ์กด์ฌํ๋ฉด ์ ๋๋ ๋ฐ์ดํฐ๋ฅผ ์ ๊ฑฐํ๊ณ
- ๋ฐ์ดํฐ ์ ๋ง์ด ์๋๋ ๋ฐ์ดํฐ๋ฅผ ์ ๊ฑฐํ ํ
- ๋ฐ์ดํฐ ์ฃผ์ ์ ๋ง๊ฒ, ์คํ 11์๋ถํฐ ์ค์ 7์๊น์ง์ ๋ฐ์ดํฐ๋ฅผ ๊ฐ์ ธ์จ๋ค.
๋ค์์ ์ฌ์ผ ๋ฒ์ค ๋ ธ์ ์ ์ ์ ํ๊ธฐ ์ํด K-Means Clusering ์ ์ฌ์ฉํ๋ค.
- K ๊ฐ์ ๊ตฌํ๊ธฐ ์ํด Elbow Method ๋ฅผ ์ฌ์ฉํ๊ณ
- K-Means ํด๋ฌ์คํฐ๋ง ๊ณผ์ ์ ๊ฑฐ์ณ, ๊ฐ ๊ตฌ์ญ์ ์ค์ฌ์ ์ ๋ด์(๋งจํดํผ) ์ ์ฒด๋ฅผ ์ด์ด์ฃผ๋ ๋ ธ์ ์ ๋ฒ์ค ์ ๋ฅ์ฅ์ผ๋ก ์ ํ๋ค.
๋ํ ์๊ธ ์์ธก์ ์ํด Linear Regression ์ ์ฌ์ฉํ๋ค.
- K-Means ๋ฅผ ํตํด ์ ์ ๋ ๋ฒ์ค ์ ๋ฅ์ฅ ์ขํ๋ฅผ ์ด์ด์ฃผ๋ ๋ ธ์ ์ ๋ง๋ค๊ณ
- ํ๊ท๋ถ์์ ํตํด ๋ ธ์ ๊ตฌ๊ฐ๋ณ ์ฌ์ผ ํ์ ์๊ธ์ ์์ธกํ๊ณ
- ํ์ ์๊ธ์ ํ ๋๋ก ์ฌ์ผ ๋ฒ์ค ์๊ธ์ ์์ธกํ๋ค.
- HDFS
- MapReduce
Field Name | Description |
---|---|
VendorID | A code indicating the TPEP provider that provided the record. |
1= Creative Mobile Technologies, LLC | |
2= VeriFone Inc. | |
pickup datetime | The date and time when the meter was engaged. |
dropoff datetime | The date and time when the meter was disengaged. |
Passenger count | The number of passengers in the vehicle. This is a driver-entered value. |
Trip distance | The elapsed trip distance in miles reported by the taximeter. |
Pickup longitude | Longitude where the meter was engaged. |
Pickup latitude | Latitude where the meter was engaged. |
RateCodeID | The final rate code in effect at the end of the trip. |
1= Standard rate | |
2=JFK | |
3=Newark | |
4=Nassau or Westchester | |
5=Negotiated fare | |
6=Group ride | |
Store and fwd flag | This flag indicates whether the trip record was held in vehicle memory before sending to the vendor, aka โstore and forward,โ because the vehicle did not have a connection to the server. |
Y= store and forward trip | |
N= not a store and forward trip | |
Dropoff longitude | Longitude where the meter was disengaged. |
Dropoff latitude | Latitude where the meter was disengaged. |
Payment type | A numeric code signifying how the passenger paid for the trip. |
1= Credit card | |
2= Cash | |
3= No charge | |
4= Dispute | |
5= Unknown | |
6= Voided trip | |
Fare amount | The time-and-distance fare calculated by the meter. |
Extra | Miscellaneous extras and surcharges. Currently, this only includes the $0.50 and $1 rush hour and overnight charges. |
MTA tax | $0.50 MTA tax that is automatically triggered based on the metered rate in use. |
Improvement surcharge | $0.30 improvement surcharge assessed trips at the flag drop. The improvement surcharge began being levied in 2015. |
Tip amount | Tip amount โ This field is automatically populated for credit card tips. Cash tips are not included. |
Tolls amount | Total amount of all tolls paid in trip. |
Total amount | The total amount charged to passengers. Does not include cash tips. |