کشف الگوهای پنهان و ارزشمند از درون حجم وسیعی از دادههای خام، اخیراً توجه بسیاری از محققان را به خود جلب کردهاست. اغلب روشهای کاوش قوانین تداعی در مرحله اول کار خود کلیه اقلام پرتکرار (ساده و ترکیبی) را از بین تمام اقلام موجود در دادهها جستجو میکنند که این امر نیازمند به خواندن مکرر کل دادهها از دیسک است. در مسائل دادهکاوی، حجم پایگاه دادههای تراکنش معمولاً آنقدر زیاد است که قابل بار شدن در حافظه اصلی نمیباشند. اما در برخی موارد مانند پایگاه دادههای تحلیلی مربوط به سبدهای خرید یک فروشگاه، با توجه به تعداد نسبتا زیاد اقلام ممکن (کل اجناس فروشگاه) و نیز محدودیت نسبی اندازه تراکنشها (اقلام خریداری شده در هر سبد)، احتمال رخداد یک قلم داده (خریداری شدن یک کالای خاص) پایین است. در این مقاله با بهرهگیری از این ویژگی، روشی کارا برای کاوش اقلام پرتکرار در مجموعه دادههایی از این قبیل ارائه میدهیم. در روش پیشنهادی، دادهها تنها یک بار از دیسک خوانده میشوند و بعد از آن به یک ساختار رمز شده و خلاصه تبدیل میگردند، بطوریکه اولاً قابل نگهداری در حافظه میباشند و ثانیاً با توجه به ساختار خاصی که دارند، عملیات شمارش به سریعترین نحو ممکن انجام میگردد و زمان شمارش دفعات تکرار اقلام در هر مرحله کمتر از مرحله قبل میشود. پس از ارائه الگوریتم، کارایی آن را با استفاده از دو مجموعه از دادههای ساختگی و واقعی ارزیابی کرده و با چند روش کارا که تاکنون ارائه شدهاند، مقایسه میکنیم.
بازنشر اطلاعات | |
![]() | این مقاله تحت شرایط Creative Commons Attribution-NonCommercial 4.0 International License قابل بازنشر است. |