هادوپ چیست؟ اجزای هادوپ و نحوه عملکرد آن
به لطف داده های بزرگ، هادوپ به یک اصطلاح آشنا تبدیل شده است و در دنیای دیجیتال امروزی برجسته شده است. زمانی که هر کسی بتواند حجم عظیمی از داده را تنها با یک کلیک تولید کند، چارچوب هادوپ حیاتی است. آیا تا به حال فکر کرده اید که هادوپ چیست و این همه هیاهو برای چیست؟ این مقاله به شما پاسخ خواهد داد! شما همه چیز را در مورد هادوپ و رابطه آن با Big Data خواهید آموخت.
هادوپ چیست؟
هادوپ چارچوبی است که از ذخیره سازی توزیع شده و پردازش موازی برای ذخیره و مدیریت کلان داده ها استفاده می کند. این نرم افزاری است که بیشتر توسط تحلیلگران داده برای مدیریت کلان داده استفاده می شود و اندازه بازار آن همچنان در حال رشد است.
سه جزء هادوپ وجود دارد:
Hadoop HDFS -سیستم فایل توزیع شده Hadoop (HDFS) واحد ذخیره سازی است.
Hadoop MapReduce – Hadoop MapReduce واحد پردازش است.
Hadoop YARN – Yet Another Resource Negotiator (YARN) یک واحد مدیریت منابع است.
هادوپ از طریق قیاس
قبل از اینکه به نکات فنی هادوپ بپردازیم و به شما کمک کنیم که هادوپ چیست، اجازه دهید هادوپ را از طریق یک داستان جالب درک کنیم. در پایان این داستان، هادوپ ، Big Data و ضرورت هادوپ را درک خواهید کرد.
معرفی جک، کشاورز انگور. او انگورها را در پاییز برداشت، در یک انبار نگهداری می کند و در نهایت در شهر مجاور می فروشد. او این مسیر را برای سال ها ادامه داد تا اینکه مردم شروع به تقاضای میوه های دیگر کردند. این افزایش تقاضا باعث شد که او علاوه بر انگور، سیب و پرتقال نیز بکارد.
متأسفانه، کل این فرآیند برای جک به تنهایی زمانبر و دشوار بود
بنابراین، جک دو نفر دیگر را استخدام می کند تا در کنار او کار کنند. کمک اضافی فرآیند برداشت را سرعت می بخشد زیرا سه تا از آنها می توانند به طور همزمان روی محصولات مختلف کار کنند.با این حال، این کار ضررهای زیانباری را بر اتاق انبار وارد می کند، زیرا فضای ذخیره سازی به گلوگاهی برای نگهداری و دسترسی به همه میوه ها تبدیل می شود.
جک به این مشکل فکر کرد و راه حلی پیدا کرد: به هر یک فضای ذخیره سازی جداگانه بدهید. بنابراین، هنگامی که جک سفارش یک سبد میوه را دریافت می کند، می تواند سفارش را به موقع انجام دهد زیرا هر سه می توانند با فضای ذخیره سازی خود کار کنند.
با تشکر از راه حل جک، همه می توانند سفارش خود را به موقع و بدون مشکل تمام کنند. جک حتی با تقاضاهای بسیار زیاد، می تواند سفارشات خود را تکمیل کند.
ظهور داده های بزرگ
بنابراین، اکنون ممکن است تعجب کنید که داستان جک چگونه با Big Data و هادوپ مرتبط است.
بیایید مقایسه ای بین داستان جک و داده های بزرگ انجام دهیم. در آن زمان، تولید اطلاعات محدودی وجود داشت. از این رو، ذخیره و پردازش داده ها به ترتیب با یک واحد ذخیره سازی و یک پردازنده انجام شد. در یک چشم به هم زدن، تولید داده با جهش و مرز افزایش می یابد. نه تنها حجم آن افزایش یافت، بلکه تنوع آن نیز افزایش یافت. بنابراین، یک پردازنده واحد قادر به پردازش حجم بالایی از انواع مختلف داده ها نبود. وقتی صحبت از انواع داده ها شد، می توانید داده های ساختاریافته، نیمه ساختاریافته و بدون ساختار داشته باشید.
این نمودار مشابه این است که چگونه جک برداشت انواع مختلف میوه ها را به تنهایی سخت می دید. بنابراین، درست مانند رویکرد جک، تحلیلگران برای پردازش انواع دادهها به چندین پردازنده نیاز داشتند
شبکه چندین ماشین به پردازش موازی داده ها کمک می کنند. با این حال، واحد ذخیره سازی به یک گلوگاه تبدیل شد که منجر به تولید سربار شبکه شد
برای رفع این مشکل، واحد ذخیره سازی بین هر یک از پردازنده ها توزیع شده است. توزیع منجر به ذخیره سازی و دسترسی به داده ها به طور کارآمد و بدون سربار شبکه شد. همانطور که در زیر مشاهده می شود، این روش پردازش موازی با ذخیره سازی توزیع شده نامیده می شود.
این راهاندازی نحوه مدیریت موثر دادههای بزرگ توسط مهندسان داده و تحلیلگران است. حالا، آیا ارتباط بین داستان جک و مدیریت کلان داده را می بینید؟
کلان داده و چالش های آن
Big Data به حجم عظیمی از داده ها اشاره دارد که با روش های سنتی قابل ذخیره، پردازش و تجزیه و تحلیل نیستند.
عناصر اصلی Big Data عبارتند از:
حجم – حجم عظیمی از داده ها در هر ثانیه تولید می شود.
سرعت – سرعتی که در آن داده ها تولید، جمع آوری و تجزیه و تحلیل می شوند
تنوع – انواع مختلف داده ها: ساختار یافته، نیمه ساختار یافته، بدون ساختار
ارزش – توانایی تبدیل داده ها به بینش مفید برای تجارت شما
صداقت – قابل اعتماد بودن از نظر کیفیت و دقت
چه کسانی از هادوپ استفاده می کنند؟
هادوپ یک ابزار محبوب داده های بزرگ است که توسط بسیاری از شرکت ها در سراسر جهان استفاده می شود. در اینجا نمونه مختصری از کاربران موفق هادوپ آورده شده است:
هواپیمایی بریتانیا
اوبر
بانک اسکاتلند
نتفلیکس
آژانس امنیت ملی (NSA)، ایالات متحده
سیستم پست سلطنتی بریتانیا
Expedia
توییتر
اکنون که تصوری از محبوبیت هادوپ داریم، وقت آن است که نگاهی دقیقتر به اجزای آن داشته باشیم تا درک درستی از هادوپ داشته باشیم.
اجزای هادوپ
هادوپ چارچوبی است که از ذخیره سازی توزیع شده و پردازش موازی برای ذخیره و مدیریت Big Data استفاده می کند. این نرم افزار رایج ترین نرم افزار مورد استفاده برای مدیریت داده های بزرگ است. سه جزء هادوپ وجود دارد.
Hadoop HDFS – Hadoop Distributed File System (HDFS) واحد ذخیره سازی هادوپ است.
Hadoop MapReduce – Hadoop MapReduce واحد پردازش هادوپ است.
Hadoop YARN – Hadoop YARN یک واحد مدیریت منابع هادوپ است.
اجازه دهید در این قسمت از مقاله هادوپ چیست، نگاهی دقیق به Hadoop HDFS بیندازیم.
Hadoop HDFS
داده ها به صورت توزیع شده در HDFS ذخیره می شوند. دو جزء HDFS وجود دارد – گره نام و گره داده. در حالی که تنها یک گره نام وجود دارد، می تواند چندین گره داده وجود داشته باشد.
HDFS به ویژه برای ذخیره مجموعه داده های عظیم در سخت افزار کالا طراحی شده است. یک نسخه سازمانی یک سرور تقریباً 10000 دلار در هر ترابایت برای پردازنده کامل هزینه دارد. در صورت نیاز به خرید 100 عدد از این سرورهای نسخه سازمانی، تا یک میلیون دلار افزایش می یابد. هادوپ شما را قادر می سازد از ماشین های کالا به عنوان گره های داده خود استفاده کنید. به این ترتیب، مجبور نیستید میلیونها دلار را فقط برای گرههای داده خود خرج کنید. با این حال، نام گره همیشه یک سرور سازمانی است.
ویژگی های HDFS
ذخیره سازی توزیع شده را فراهم می کند
قابل اجرا بر روی سخت افزار کالا
امنیت داده ها را فراهم می کند
بسیار مقاوم در برابر خطا – اگر یک ماشین از کار بیفتد، داده های آن ماشین به ماشین بعدی می رود
گره های Master و Slave
گره های Master و Slave خوشه HDFS را تشکیل می دهند. نام گره را master و گره های داده را Slaves می نامند. گره نام مسئول عملکرد گره های داده است. همچنین ابرداده ها را ذخیره می کند.
What-is-Hadoop-inline-image-1.webp
گره های داده داده ها را می خوانند، می نویسند، پردازش می کنند و تکثیر می کنند. آنها همچنین سیگنال هایی را که به عنوان ضربان قلب شناخته می شوند، به گره نام می فرستند. این ضربان قلب وضعیت گره داده را نشان می دهد.
What-is-Hadoop-inline-image-2.webp
در نظر بگیرید که 30 ترابایت داده در گره نام بارگذاری شده است. گره نام آن را در میان گره های داده توزیع می کند و این داده در میان یادداشت های داده تکرار می شود. در تصویر بالا می بینید که داده های آبی، خاکستری و قرمز در بین سه گره داده تکرار شده اند.
تکرار داده ها به طور پیش فرض سه بار انجام می شود. این کار به این صورت انجام می شود، بنابراین اگر ماشین کالایی خراب شد، می توانید آن را با ماشین جدیدی جایگزین کنید که داده های مشابهی دارد.
اجازه دهید در بخش زیر از مقاله هادوپ چیست، روی Hadoop MapReduce تمرکز کنیم
Hadoop MapReduce
Hadoop MapReduce واحد پردازش هادوپ است. در رویکرد MapReduce، پردازش در گره های برده انجام می شود و نتیجه نهایی به گره اصلی ارسال می شود.
یک داده حاوی کد برای پردازش کل داده ها استفاده می شود. این داده های کدگذاری شده معمولاً در مقایسه با خود داده ها بسیار کوچک هستند. شما فقط باید چند کیلوبایت کد ارسال کنید تا یک فرآیند سنگین را روی کامپیوتر انجام دهید. What-is-Hadoop-inline-image-4.webp
مجموعه داده ورودی ابتدا به تکه های داده تقسیم می شود. در این مثال، ورودی دارای سه خط متن با سه موجودیت جداگانه است – “قطار اتوبوس اتوبوس”، “قطار کشتی کشتی،” “اتوبوس کشتی اتوبوس”. سپس مجموعه داده بر اساس این موجودیت ها به سه تکه تقسیم می شود و به صورت موازی پردازش می شود.
در مرحله نقشه به داده ها یک کلید و مقدار 1 اختصاص می یابد. در این حالت یک اتوبوس، یک ماشین، یک کشتی و یک قطار داریم.
سپس این جفتهای کلید-مقدار بر اساس کلیدهایشان به هم ریخته و با هم مرتب میشوند. در مرحله کاهش، تجمع صورت می گیرد و خروجی نهایی به دست می آید.
Hadoop YARN مفهوم بعدی است که در مقاله هادوپ چیست روی آن تمرکز خواهیم کرد.
Hadoop YARN
Hadoop YARN مخفف Yet Another Resource Negotiator است. این واحد مدیریت منابع هادوپ است و به عنوان جزئی از هادوپ نسخه 2 موجود است.
Hadoop YARN مانند یک سیستم عامل برای هادوپ عمل می کند. این یک فایل سیستم است که بر روی HDFS ساخته شده است.
این مسئول مدیریت منابع خوشه ای است تا مطمئن شود که یک دستگاه را بیش از حد بارگذاری نمی کنید.
برنامه ریزی کار را انجام می دهد تا مطمئن شود که کارها در مکان مناسب برنامه ریزی شده اند
What-is-Hadoop-inline-image-3.webp
فرض کنید یک ماشین مشتری می خواهد یک پرس و جو انجام دهد یا کدی را برای تجزیه و تحلیل داده ها واکشی کند. این درخواست شغلی به مدیر منابع (Hadoop Yarn) می رسد که مسئولیت تخصیص و مدیریت منابع را بر عهده دارد.
در بخش گره، هر یک از گره ها، مدیران گره خود را دارند. این مدیران گره گره ها را مدیریت می کنند و استفاده از منابع در گره را نظارت می کنند. کانتینرها حاوی مجموعه ای از منابع فیزیکی هستند که می تواند RAM، CPU یا هارد دیسک باشد. هر زمان که یک درخواست شغلی وارد میشود، برنامه اصلی ظرف را از مدیر گره درخواست میکند. هنگامی که مدیر گره منبع را دریافت کرد، به مدیر منابع باز می گردد.
چگونه هادوپ در پایگاه های داده سنتی بهبود می یابد
درک اینکه هادوپ چیست نیاز به درک بیشتر در مورد تفاوت آن با پایگاه های داده سنتی دارد.
هادوپ از HDFS (سیستم فایل داده هادوپ) برای تقسیم مقادیر انبوه داده به قطعات کوچکتر قابل مدیریت استفاده می کند، سپس در خوشه هایی از سرورهای جامعه ذخیره می شود. این مقیاس پذیری و اقتصادی را ارائه می دهد.
علاوه بر این، هادوپ از MapReduce برای اجرای پردازش های موازی استفاده می کند، که هم داده ها را سریعتر از اطلاعات موجود در یک پایگاه داده سنتی ذخیره و بازیابی می کند. پایگاه داده های سنتی برای مدیریت گردش کار قابل پیش بینی و ثابت عالی هستند. در غیر این صورت، به قدرت زیرساخت مقیاس پذیر هادوپ نیاز دارید.
5 مزیت هادوپ برای داده های بزرگ
هادوپ برای مقابله با کلان داده ها ایجاد شده است، بنابراین تعجب آور نیست که مزایای زیادی ارائه می دهد. پنج مزیت اصلی عبارتند از:
سرعت. پردازش همزمان هادوپ ، مدل MapReduce و HDFS به کاربران اجازه میدهد پرسوجوهای پیچیده را تنها در چند ثانیه اجرا کنند.
تنوع. HDFS Hadoop میتواند فرمتهای مختلف داده مانند ساختار یافته، نیمه ساختاریافته و بدون ساختار را ذخیره کند.
مقرون به صرفه. هادوپ یک چارچوب داده منبع باز است.
ارتجاعی. داده های ذخیره شده در یک گره در سایر گره های خوشه ای تکرار می شود و از تحمل خطا اطمینان می یابد.
مقیاس پذیر. از آنجایی که هادوپ در یک محیط توزیع شده کار می کند، می توانید به راحتی سرورهای بیشتری اضافه کنید.
مورد استفاده هادوپ
در این مطالعه موردی، ما در مورد اینکه هادوپ چگونه می تواند با فعالیت های تقلبی مبارزه کند، بحث خواهیم کرد. اجازه دهید به مورد Zions Bankorporation نگاه کنیم. چالش اصلی آنها در نحوه استفاده از رویکردهای تیم امنیتی Zions برای مبارزه با فعالیت های کلاهبرداری بود. مشکل این بود که آنها از یک مجموعه داده RDBMS استفاده کردند که قادر به ذخیره و تجزیه و تحلیل حجم عظیمی از داده ها نبود.
به عبارت دیگر، آنها تنها قادر به تجزیه و تحلیل مقادیر کمی از داده ها بودند. اما با ورود سیل مشتریان، چیزهای زیادی وجود داشت که آنها نمیتوانستند آنها را ردیابی کنند، که آنها را در برابر فعالیتهای کلاهبرداری آسیبپذیر میکرد.
آنها شروع به استفاده از پردازش موازی کردند. با این حال، داده ها بدون ساختار بودند و تجزیه و تحلیل آن ممکن نبود. آنها نه تنها حجم عظیمی از دادهها را داشتند که نمیتوانستند وارد پایگاههای دادهشان شوند، بلکه دادههای بدون ساختار نیز داشتند.
هادوپ به تیم Zions این امکان را داد که تمام آن حجم عظیم داده را جمع آوری کرده و در یک مکان ذخیره کند. همچنین پردازش و تجزیه و تحلیل حجم عظیمی از داده های بدون ساختاری که در اختیار داشتند امکان پذیر شد. از نظر زمان کارآمدتر بود و تجزیه و تحلیل عمیق فرمت های داده های مختلف از طریق هادوپ آسان تر شد. تیم Zions اکنون میتواند همه چیز را از بدافزار، نیزهها و تلاشهای فیشینگ گرفته تا تصاحب حسابها شناسایی کند.
چالش های استفاده از هادوپ
با وجود شگفتانگیز بودن هادوپ، این همه دلها و گلها نیست. هادوپ مشکلات خاص خود را دارد، مانند:
یک منحنی یادگیری شیب دار وجود دارد. اگر می خواهید پرس و جوی را در سیستم فایل هادوپ اجرا کنید، باید توابع MapReduce را با جاوا بنویسید، فرآیندی که غیر شهودی است. همچنین، اکوسیستم از اجزای زیادی تشکیل شده است.
همه مجموعه داده ها را نمی توان یکسان مدیریت کرد. هادوپ به شما مزیت “یک اندازه متناسب با همه” را نمی دهد. اجزای مختلف کارها را متفاوت اجرا می کنند و شما باید با تجربه آنها را مرتب کنید.
MapReduce محدود است. بله، این یک مدل برنامه نویسی عالی است، اما MapReduce از یک رویکرد فشرده فایل استفاده می کند که برای کارهای تکراری تعاملی یا تجزیه و تحلیل داده در زمان واقعی ایده آل نیست.
امنیت یک مسئله است. داده های زیادی وجود دارد و بسیاری از آنها حساس هستند. هادوپ هنوز باید احراز هویت مناسب، رمزگذاری دادهها، تهیه و شیوههای حسابرسی مکرر را بکار گیرد.
درک واضحی از هادوپ چیست؟ بررسی کنید که در مرحله بعد چه کاری باید انجام دهید.
مشتاقانه منتظر تبدیل شدن به یک توسعه دهنده هادوپ هستید؟ دوره آموزشی گواهینامه Hadoop را بررسی کنید و امروز گواهینامه دریافت کنید.
نتیجه
هادوپ یک فناوری Big Data است که به طور گسترده برای ذخیره، پردازش و تجزیه و تحلیل مجموعه داده های بزرگ استفاده می شود. پس از خواندن این مقاله در مورد هادوپ چیست، متوجه خواهید شد که Big Data چگونه تکامل یافته و چالش هایی که با خود به همراه داشته است. شما اصول هادوپ ، اجزای آن و نحوه کارکرد آنها را درک کردید. آیا سوالی در رابطه با مقاله هادوپ چیست؟ اگر دارید، لطفاً آن را در بخش نظرات این مقاله قرار دهید. تیم ما به شما کمک می کند تا سوالات خود را حل کنید.