spark rdd

پیشنهاد کاربران

RDD مخفف Resilient Distributed Dataset است. در واقع، RDD یک ساختار داده پایه ای در Apache Spark است که نمایانگر مجموعه ای تغییرناپذیر ( immutable ) ، توزیع شده ( distributed ) از اشیاء است.
ویژگی های کلیدی RDD:
...
[مشاهده متن کامل]

توزیع شده: داده ها در میان چندین گره در یک خوشه ( cluster ) توزیع می شوند.
تغییرناپذیر: پس از ایجاد، نمی توان RDD را تغییر داد. در عوض، با استفاده از تبدیلات ( transformations ) ، RDD های جدید از RDD های موجود ایجاد می شوند.
مقاوم: RDD ها از تحمل خطا ( fault tolerance ) برخوردارند. اگر یک پارتیشن از RDD از بین برود، Spark می تواند آن را با استفاده از lineage یا تبار RDD، دوباره محاسبه کند.
Lazy Evaluation: محاسبات بر روی RDD ها تا زمانی که یک عمل ( action ) بر روی آن ها فراخوانی نشود، به تعویق می افتد. این امر به Spark اجازه می دهد تا محاسبات را بهینه سازی کند.
در حافظه: به طور معمول RDD ها در حافظه توزیع شده خوشه ذخیره می شوند، که باعث افزایش سرعت دسترسی و پردازش می شود. با این حال، اگر حافظه کافی نباشد، RDD ها می توانند بر روی دیسک نیز ذخیره شوند.

بپرس