İşte Uber’in Trafik Sistemi: Kümeleme ve K-Means Algoritması

3 dakika tahmini okuma süresi

Araba trafiği

Gartner’a göre, 2020 yılına kadar çeyrek milyar bağlantılı araç IoT’nin önemli bir unsurunu oluşturacak. Bağlı araçların gerçek zamanlı izleme ve uygulamalar sağlamak için analiz edilebilen ve yeni mobilite ve araç kullanımı kavramlarına yol açacak şekilde saatte 25 GB veri üretmesi öngörülmektedir. Referans: Gartner

Uber ve Makine Öğrenimi Bağlantısı

Uber, kârı en üst düzeye çıkarmak için fiyatlandırmayı hesaplamaktan otomobillerin en uygun şekilde konumlandırılmasına kadar makine öğrenimini kullanır. Araç GPS verilerinin analizi ve izlenmesi için genel uber yolculuk veri kümesi kullanıldı.

Uber tarafından New York’tan üretilen verileri içeren Uber gezi veri kümesi. Veriler FiveThirtyEight üzerinde ücretsiz olarak mevcut.

Beş ilçesi olan New York City’den veriler: Brooklyn, Queens, Manhattan, Bronx ve Staten Island. Uygulama, Uber’e yapılan seyahatleri anlamak ve New York’taki farklı ilçeleri tanımlamak için bu veri kümesinde Kümeleme anlamına gelir.

Kümeleme, veri kümelerini benzer veri noktalarından oluşan gruplara bölme işlemidir. Kümeleme, etiketlenmemiş verileriniz olduğunda kullanılan bir tür denetimsiz makine öğrenimidir.

Burada, ana amacı benzer öğeleri veya veri noktalarını bir kümede gruplamak olan bir K-Means kümeleme algoritması uyguladık. K-ortalamalarındaki “K”, kümelerin sayısını temsil eder. İnternette, K-Means algoritmasının çalışma prensibini aratarak kontrol edebilirsiniz.

Gerekli kütüphaneleri içe aktarma

Gerekli kütüphaneleri içe aktarma

CSV okuma

CSV okuma

Çıktı

Çıktı

Veri kümesinde 829.275 gözlem ve dört sütun var. İşte bulunan dört özellik:

  • Tarih / Saat: Uber toplayıcının tarihi ve saati.
  • Lat (Enlem): Uber alıcısının enlemi
  • Lon (Boylam): Uber alıcısının boylamı.
  • Temel: Uber pikapına bağlı TLC temel şirket kodu.

Özellik seçmek

Özellik seçmek

Çıktı

Çıktı

K-Means kümelenmesi uygulanır. İlk adım K için en uygun değeri bulmaktır. Bu, aşağıda gösterildiği gibi dirsek grafiğinden öğrenilebilir.

Çıktı

Çıktı Çıktı Dirsek metodu

Yukarıdaki dirsek grafiğinden, en yakın küme ağırlık merkezinden gözlemlerin kare mesafesinin toplamının, kümelerin sayısındaki bir artışla azalmaya devam ettiğini görebiliriz. K = 6 sonrası önemli bir azalma olduğunu görebiliriz. 6 veya 7 kümeden birini seçebiliriz. Bu veri kümesi için 6 tane seçildi.

K-Means Kümeleme Yapma

K-Means algoritmasında birkaç küme atama

K-Means Kümeleme Yapma

Küme Ağırlık Merkezlerini Saklama Küme Ağırlık Merkezlerini Saklama

Çıktı

Çıktı

Ağırlık merkezlerini görselleştirmek

Ağırlık merkezlerini görselleştirmek

Enlem ve boylamları ağırlık merkezlerinden almak ve iki ayrı veri çerçevesine dönüştürmek. Hem veri çerçevesini birleştirdi hem de kolay görselleştirme için “clocation” olarak adlandırdı.

Çıktı Çıktı Çıktı

Yukarıdaki dağılım grafiğinde her bir kümeyle ilgili tüm ağırlık merkezlerini görebiliriz. Ancak, bu anlamlı bir bilgi göstermez. Aynı şeyi Google haritasına (enlem ve boylam) çizelim ve görselleştirelim.

Ağırlık merkezlerini seçmek ve yeri haritalamak için bir folium kütüphanesi kullanıldı.

Çıktı

Altı ağırlık merkezinin hepsinin harita üzerinde çizildiğini görebiliriz. Bu ağırlık merkezleri Uber’e nasıl yardımcı olur?

  • Uber bu ağırlık merkezlerini merkez olarak kullanabilir. Uber yeni bir sürüş talebi aldığında, bu ağırlık merkezlerlerinin her birinin yakınlığını kontrol edebilirler. Hangi belirli ağırlık merkezi daha yakınsa, Uber aracı o belirli konumdan müşteri konumuna yönlendirebilir.
  • Uber’in birçok sürücüsü var ve birçok yere hizmet veriyor. Uber hub’ı (belirli ağırlık merkezi) biliyorsa ve çok fazla sürüş isteği alıyorlarsa, stratejik olarak şoförlerini, sürüş isteği alma olasılığının büyük olduğu iyi bir yere yerleştirebilirler. Bu, araçlar konuma daha yakın yerleştirildiğinden Uber’in müşteriye daha hızlı hizmet etmesine yardımcı olacak ve aynı zamanda işlerini büyütmeye yardımcı olacaktır.
  • Uber, bu ağırlık merkezlerini araçlarının en uygun şekilde yerleştirilmesi için kullanabilir. Günün hangi kısmına daha fazla sürüş talebi geldiğini bulabilirler. Örneğin, Uber 11: 00’da ağırlık merkezi 0’dan (küme 1) daha fazla istek alırsa, ancak ağırlık merkezi 3’ten (küme 4) çok daha az talep alırsa, araçları küme 4’ten küme 1’e yönlendirebilir (küme 4’te daha fazla araç varsa).
  • Uber, hangi kümelerin maksimum istekler, yoğun zamanlar vb. İle ilgili olduğunu analiz ederek bu ağırlık merkezlerini en uygun fiyatlandırma için kullanabilir. Varsayalım ki, belirli bir konuma gönderilecek çok fazla araç yoksa (daha fazla talep), en uygun fiyatlandırmayı yapabilirler. çünkü talep yüksek ve arz daha az.

Kümeleri Depolama

Kümeleri Depolama

Hangi küme maksimum sürüş talebi alır?

Hangi küme maksimum sürüş talebi alır?

Çıktı Küme 3, maksimum küme isteğini alır ve ardından küme 1 alır. Uber, daha yüksek talepleri karşılamak için Küme 3’e daha fazla araç yerleştirebilir.

Yeni konum kontrolü

Yeni konum kontrolü

Uber yeni bir sürüş talebi alırsa (yeni konumlarını boylam ve enlem yoluyla alırken) enlem ve boylam değerini geçerse, o zaman araçtan hangi kümenin gitmesi gerektiğini tahmin eder? Yeni lokasyon tahmini

array([2])

Bu durumda, araç küme 2’den gelecektir.

Kaynak: https://towardsdatascience.com/how-does-uber-use-clustering-43b21e3e6b7d

Kategoriler:

Güncelleme tarihi:

Yorum yapın