16 Şubat 2014 Pazar

Sıralı Örüntü Madenciliği (Sequential Pattern Mining)

Eğer veri madenciliği ile ilgileniyorsanız mutlaka adını duymuşsunuzdur. Sıralı örüntü madenciliği veri madenciliğinin bir konusudur ve sıralı bir şekilde ilerleyen değerlerin bulunduğu veri örnekleri arasında, istatiksel olarak uygun örüntüleri bulmayı amaçlar. Örneğin bir mağazada alışveriş yapan müşterilerin 3 ay içerisinde önce bilgisayar, sonraki tarihlerde CD-ROM ve en son dijital kamera satın almaları örüntüsü gibi. Bu alanda birçok önemli bilişimsel problem vardır: verimli veritabanları oluşturmak ve bu veritabanlarında tutulan dizilere erişim için indeksler üretmek, sıklıkla tekrar eden örüntüleri elde etmek, benzerlik için dizileri karşılaştırmak (DNA’daki gibi) ve dizinin kayıp elemanlarını yeniden oluşturmak. Genelde sıra madenciliği problemleri, metin işleme algoritmalarına dayanan karakter dizisi madenciliği (string mining) ve ilişki kuralı öğrenimine (association rule learning) dayanan eleman kümesi madenciliği (itemset mining) olarak iki gruba ayrılır.

Karakter dizisi madenciliği
Karakter dizisi madenciliği, sınırlı sayıda harf bulunan bir alfabenin kullanılarak oluşturulduğu elemanlarda, belirli örüntülerin aranması ile ilgilenir. Fakat örüntünün kendisi çok uzun olabilir. Alfabe olarak günlük hayatta kullandığımız ASCII karakter kümesinden oluşturulan, protein dizilimleri oluşturmak için DNA veya aminoasitlerde kullanılan ‘A’, ‘G’, ‘C’ ve ‘T’ nükleotit isimleri örnek olarak verilebilir. 
Karakter dizilerindeki alfabe düzeninin analizinde kullanılan biyoloji uygulamaları, gen ve protein dizilimlerinin özelliklerinin tespit edilmesi için incelenmesinde kullanılabilir. Amaç sadece, bir proteindeki DNA’da bulunan harflerin dizilimini bilmek değildir. Bunun yerine dizilimin bir anlam ifade etmesi için, yapısının ve hangi biyolojik fonksiyonu ifade ettiğinin bilinmesi gerekir. Bunun için öncelikle her dizilimde bulunan ayrı bölgeler ve yapısal birimler tanımlanır ve devamında her yapısal birime bir fonksiyon atanır. Bunun sağlanması için önceki çalışılan dizilimler ile verilen dizilimin karşılaştırılması gereklidir. Eğer karakter dizisinde eklemeler, silinmeler veya mutasyonlar varsa dizilerdeki benzerliği bulmak oldukça karmaşıklaşır.

Eleman Kümesi Madenciliği
Sıralı örüntü madenciliğinde, eleman kümelerinin oluşma sıklığı ve hangi sıra ile oluştuğu da incelenir. Örneğin, eğer bir müşteri araba almışsa, 1 hafta içerisinde sigorta yaptıracağı öngörülebilir. Veya borsada, Nokia ve Samsung hisseleri yükselişte ise HTC ve IPhone’un da 2 gün içerisinde hisse senetlerinde yükselişi beklenebilir.

Eleman kümesi madenciliği genellikle pazarlama uygulamalarında, sıklıkla birlikte ortaya çıkan ürünlerin düzenliliğinin keşfedilmesinde kullanılır. Örneğin bir süpermarketteki müşterinin alışveriş sepetlerindeki işlemi analiz edelim: Eğer bir müşteri soğan ve patatesi birlikte alıyorsa, aynı alışveriş esnasında kırmızı et de alacağını öngörebiliriz.
Eleman kümelerin madenciliğinde yaygın olarak kullanılan iki teknikten söz edebiliriz: 
  • Etkili ön bilgi algoritması (influential apriori algorithm).
  • FP-Growth tekniği.
Sonraki yazımda görüşmek üzere..

1 yorum: