Hadoop چیست؟

Hadoop

Hadoop یک چارچوب نرم افزاری منبع باز برای ذخیره داده ها و اجرای برنامه های کاربردی می باشد . Hadoop امکان ذخیره سازی انواع داده ها را با قدرت پردازشی زیاد فراهم می کند و توانایی انجام وظایف مختلف را به صورت هم زمان و بدون محدودیت دارد .
با پیدایش وب در دهه ۹۰ ، موتورهای جستجو از شاخص ها برای یافتن اطلاعات مربوط به محتواها استفاده می کردند . در آن زمان نتایج جستجوها توسط نیروی انسانی کنترل می شد ، اما با رشد وب این وظیفه به سیستم های اتوماسیون و خزنده های وب واگذار شد .
یکی از پروژه های مطرح در زمینه جستجوی وب Nutch نام داشت که در سال ۲۰۰۶ بخش مربوط به پردازش داده های آن به نام Hadoop مستقل گردید . در سال ۲۰۰۸ ، یاهو ؛ Hadoop را به عنوان یک پروژه منبع باز منتشر کرد . امروزه اکوسیستم فناوری Hadoop توسط بنیاد نرم افزار آپاچی مدیریت و نگهداری می شود . در زیر Time Line سیستم Hadoop را مشاهده می کنید :

تاریخچه hadoop

اهمیت Hadoop را می توان در موارد زیر عنوان کرد :
  • توانایی ذخیره و پردازش مقادیر زیادی از داده ها با سرعت قابل قبول که برای حجم عظیمی از داده ها (Big Data) و اینترنت اشیاء می تواند بسیار کاربردی باشد .
  • Hadoop می تواند با قدرت بسیار زیاد مقادیر زیادی از داده های بزرگ(حجیم) را پردازش کند .
  • Hadoop در برابر خرابی سخت افزار و برنامه ها مقاوم است و برای افزایش اطمینان از محاسبات توزیع شده استفاده می کند . به همین دلیل دارای تحمل خطای بسیار بالایی می باشد .
  • برخلاف پایگاه داده های سنتی ، Hadoop نیازی به پردازش اولیه اطلاعات ندارد و پردازش می تواند در هر زمانی انجام شود .
  • Hadoop منبع باز و رایگان است بنابراین هزینه آن به شدت کاهش می یابد .
  • به راحتی می توان گره ها و اطلاعات بیشتری را به سیستم Hadoop اضافه کرد . در واقع Hadoop مقیاس پذیری خوبی دارد .
علیرغم تمامی موارد که در بالا ذکر شد Hadoop با چالش های متعددی مواجه است که در هنگام استفاده از آن باید به این چالش ها به دقت توجه کرد . در ادامه به معرفی مهم ترین چالش ها و نقاط ضعف Hadoop می پردازیم :
  • استفاده از Hadoop در کارهای ساده مناسب است اما در کارهای تحلیلی و تعاملی چندان کارآمد نیست . چرا که الگوریتم های تکرار نیاز به تکمیل فازهای مختلف و مرتب سازی مستمر دارند .
  • برای کار با Hadoop نیاز به مهارت های خاصی می باشد و این یک شکاف بین برنامه نویسان و توسعه دهندگان Hadoop ایجاد می کند . معمولا برنامه نویسان با مهارت های SQL راحت تر ارتباط برقرار می کنند .
  • یکی دیگر از چالش های مطرح در Hadoop مربوط به امنیت اطلاعات و نگهداری امن از داده ها می شود . البته با تکامل پروتکل Kerberous یک گام بزرگ در جهت ایجاد محیط امن در Hadoop برداشته خواهد شد .
  • Hadoop ابزار مناسبی برای مدیریت مناسب بر داده ها و فراداده ها ندارد ، به خصوص که توانایی کنترل کیفیت داده ها را هم ندارد و در حقیقت به وسیله آن نمی توان به مدیریت کامل بر داده ها پرداخت .

نویسنده : مسعود معاونی
منبع :www.sas.com
کد مطلب : ۹۶۰۸۲۱۰۱

https://telegram.me/moaveni_ir

۱۰ موضوع مهم و داغ در فناوری اطلاعات

10topics in IT

مدیران اجرایی در حوزه فناوری اطلاعات باید بر روی ۱۰ موضوع زیر در ماه های آینده متمرکز شوند چراکه این موضوعات از مهم ترین موضوعات مطرحه در زمینه فناوری اطلاعات می باشد :
  1. شبکه های نرم افزاری تعریف شده (SDN) :شبکه های نرم افزاری تعریف شده (SDN) موضوع بزرگ و چالش برانگیزی در سالیان اخیر بوده است . SDN مجموعه ای از ابزارهای مدیریت است که شما را قادر به مجازی سازی زیر ساخت های شبکه بدون توجه به سوئیچ ها و روترها می نماید . در واقع یک لایه در بالای تجهیزات فیزیکی قرار می گیرد با این حال اختلافات بسیاری بر سر این شبکه وجود دارد مثلا مباحثی در مجازی سازی و یا تغییر مقیاس و معماری مطرح می باشد .
  2. مرکز داده نرم افزاری تعریف شده (SDDC) : همراه با شبکه های SDN  ، مباحث دیگری هم چون Software – defined data center (SDDC) نیز مطرح می شوند . SDDC از SDN ها موضوعی مبهم تر است چرا که به استفاده از SDN به همراه تکنولوژی های ابری(Cloud) متمرکز می باشد .
  3. ابر (Cloud) : ابر یک موضوع خیلی مهم در صنعت IT بوده و یک شوک بزرگ به رد وبدل کردن اطلاعات وارد کرده است . از ابرهای خصوصی به ابرهای عمومی ، امکانات و منافع و هم چنین مشکلات و موانع متفاوت هستند . در این زمینه اطلاعات جدید و قابل بحث فراوانی وجود دارد .
  4. نرم افزار های ارائه دهنده سرویس (Software as a Service) :  SaaS موضوع دیگری است که در سالیان اخیر مطرح گردیده است و به همراه PaaS به عنوان یک زیر ساخت برای سرویس دهی مطرح شده اند . فروشندگان SaaS  به دنبال برنامه ریزی های برای تغییرات گسترده در آینده می باشند .
  5. تحرک (Mobility) : با تصویب استاندارد ۸۰۲٫۱۱ac موضوع انتقال اطلاعات به صورت سیار(بی سیم) بار دیگر داغ گردید . انواع شبکه های بی سیم امروزه وجود دارند و این شبکه ها به دنبال افزایش سرعت می باشند . مدیریت زیر ساخت های بی سیم خود دارای مباحث نظارتی و توسعه ای متعدد و متفاوت می باشد که می تواند یک زمینه مناسب برای محققین باشد .
  6. BYOD (Bring your Own Device) : موضوع BYOD مدت ها در مباحث بین محققین مطرح بوده است .در واقع BYOD به کارمندان یک شرکت اجازه می دهد تا از تجهیزات اختصاصی خود در دسترسی به منابع شبکه در محل کار خود بدون آن که اطلاعات حساس و مهم شرکت لو برود ، استفاده کنند .در این تکنولوژی از رمزنگاری و تصدیق هویت کاربر و تصدیق هویت شبکه به صورت گسترده ای استفاده می شود .
  7. اینترنت اشیا (IOT) : همان طور که در  BYOD نگرانی های درباره دسترسی فضای اینترنت به اطلاعات داخلی شرکت ها و افراد وجود دارد در IOT نیز این نگرانی ها وجود دارد . هر دستگاهی که به اینترنت متصل می شود از جمله انواع حسگرها ، تجهیزات پزشکی و …. می توانند به راحتی در خطر تهدیدات امنیتی باشند . داشتن تجهیزات هوشمند باعث کارآیی کاربران آن ها می شود مثلا تصو ر کنید که شما از آچار و یا پیچ گوشتی هوشمند برای بست یک پیچ استفاده کنید و  امکان هرز شدن پیچ به علت فشار پیش از حد وجود نخواهد داشت . پس اینترنت اشیا از مباحث جدید و داغ فضای فناوری اطلاعات می باشد .
  8. IPv6 : همه ما شنیده ایم که در آینده آن خواهد آمد . تقریبا همه ما سالیان سال از آدرس IPv4 استفاده کرده ایم . با این حال بسیاری از سیستم های مدرن از IPv6 پشتیبانی می کنند و برای برقراری ارتباط ترجیح می دهند که از آن استفاده کنند . بنابراین نیاز است که شبکه های خود را به سمت استفاده از IPv6 سوق دهیم و مفاهیم و مباحث مرتبط با آن را فرا گیریم .
  9. داده های حجیم (Big Data) : یکی دیگر از عناوین داغ این روزهای دنیای فناوری اطلاعات مفاهیم داده های بزرگ می باشد . داده های حجیم جمع آوری شده درباره یک موضوع خاص ، می تواند در مدل سازی و پیش بینی مباحث مختلف استفاده شود . داده های بزرگ در نرم افزارهای CRM و سوابق پزشکی (EMR) ها بسیار پر کاربرد خواهد بود .
  10. مدیریت فناوری اطلاعات : کنفرانس های فناوری اطلاعات بدون جلساتی آموزشی برای مدیران ارشد این حوزه بدون هدف خواهد بود . بنابراین مباحث مدیریت فناوری اطلاعات همواره مورد توجه خواهد بود و انتظارات بسیار زیادی درباره این حوزه وجود دارد .

منبع : http://www.techrepublic.com

گردآورنده (با دخل و تصرف) : مسعود معاونی

https://telegram.me/moaveni_ir

داده های حجیم و آنالیز : ابزاری برای ایجاد ارزش افزوده

دسترسی به اطلاعات مختلفی که از طریق دستگاههای مختلف بدست می آیند فرصت بی سابقه ای را برای افزایش بهینه سازی محصولات و خدمات ایجاد می کند . سرمایه گذاری عمیق در جمع آوری داده های حجیم و تجزیه و تحلیل درست آن ها ، ارزش افزوده قابل توجهی برای بینش عملی کسب و کار شرکت های مختلف فراهم می آورد . این ارزش افزوده برای مصرف کنندگان مزایای قابل توجهی را در شیوه زندگی بهتر ایجاد کرده است .

داده های حجیم

تحلیل و جمع آوری داده ها هر چند  که دارای هزینه های قابل توجهی است اما می تواند برای تجارت و کسب وکار نتایج عملیاتی قابل توجهی داشته باشد و در شرایط خاص و رکود به عنوان یکی از امیدهای تاجران به خصوص در بخش تجارت آنلاین به حساب آید .

داده های حجیم ابزاری برای بازاریابی به موقع وهدفمند :

بازاریابی Big Data  روشی برای همکاری شرکت های بزرگ و چند ملیتی با یکدیگر در تجزیه و تحلیل ترافیک بازار می باشد و هدف آن ها ارائه بهترین پیشنهادات در بهترین زمان ها می باشد .

پیش بینی و تجزیه و تحلیل درست بر روی اطلاعات باعث می شود تا تبلیغات هدفمندتری انجام شود و خدمات بهتری ارائه گردد و برنامه های کاری بر اساس روند واقعی پیش بروند . از طریق داده محوری (data-driven) برندها می توانند از فرصت های فروش متقابل و فرصت های تشویقی برای خرید به نحوه مناسبی استفاده کنند ، هم چنین امکان استفاده از دیگر تاکتیک های بازاریابی و فروش شامل ارائه  پیشنهادات هدفدار و به موقع برای جذب مشتری بیشتر و حفظ همزمان مشتریان فعلی استفاده کرد . در بخش خرده فروشی نیز تجزیه و تحلیل مناسب اطلاعات می تواند در تغییر تقاضا ها موثر باشد . فروشگاه می تواند سبدکالا ، قیمت گذاری و پیشنهادات ویژه خود را با توجه به سایر رقبا تنظیم کند .

مهمترین استفاده کنندگان از Big Data

Amazon (شرکت تجارت الکترونیک آمریکایی است، که در سال ۱۹۹۴ توسط جف بزوس، در شهر سیاتل، ایالت واشینگتن تأسیس شد.این شرکت فعالیت جدی خود را در سال ۱۹۹۵ با عنوان فروشگاه آنلاین کتاب، آغاز کرد، سپس اقدام به فروش محصولات نو یا دست‌دوم از طریق اینترنت نمود. شرکت آمازون هم‌اکنون کتاب، سی‌دی، دی‌وی‌دی، بسته‌های نرم‌افزاری و حتی کفش و لباس نیز عرضه می‌کند و امروزه بیشترین درصد فروش را در بین سایر فروشگاه‌های اینترنت دارد.).

Walmart (شرکت خرده‌فروشی آمریکایی است، که دارای بزرگترین شبکه فروشگاه‌های زنجیره‌ای موادغذایی، سوپرمارکت‌ها و هایپرمارکت‌ها در جهان می‌باشد. این شرکت در سال ۲۰۱۲ پس از شرکت‌های رویال داچ شل و اکسان‌موبیل در رتبه سوم از بزرگترین شرکت‌های جهان قرار گرفت. در سال مالی ۲۰۱۳ شرکت والمارت با درآمدی معادل ۴۶۹ میلیارد دلار، به‌عنوان بزرگترین شرکت جهان بر پایه میزان درآمد، شناخته شد.) با استفاده از تجزیه و تحلیل داده های کلان (big data) به بهینه سازی زنجیره تامین خود و در نتیجه دسترس پذیری محصولات و تحویل سریعتر به مشتری دست یافته اند .

پیش بینی های نیاز های مشتریان :

حجم و سرعت کیفیت داده ها به همراه اتصال همیشگی می تواند در بهبود خدمات به مشتریان موثر باشد . اتوماسیون و استفاده از ماشین آلات اتوماتیک پیشرفته مدت زمان انتظار افراد را کاهش داده و امکان ارائه خدمات سریعتر را افزایش می دهد .

انقلابی در مدل های کسب و کار :

در دسترس بودن داده ها باعث حرکت به سمت مدل های کسب و کار جدید مبتنی بر داده می شود .تولید کنند گان تجهیزات اصلی سعی می کنند تا ارتباط مستمری با مشتریان خود داشته باشند و بدین وسیله مشتریان خود را تشویق به خرید بیشتر و دریافت خدمات ماهیانه و سالیانه می کنند . می توان انواع مثال هایی از مدل های داده ای جدید آورد .مثلا :

  • دسترسی به اطلاعات واقعی مثلا در صنعت بیمه اطلاعاتی مانند متوسط سرعت راننده ،میزان فشار به ترمز ،رفتارهای خطرناک راننده و … که می تواند در پروفایل یک راننده در شرکت بیمه ثبت شود و بر اساس آن نرخ بیمه نامه تعیین گردد .
  • سرویس موسیقی Spotify (Spotify از ترکیب دو کلمه Spot و Identify تشکیل شده است و به معنای کشف بهترین موسیقی هاست. Spotify در واقع یک سایت پخش موسیقی آنلاین است که امکانات جالبی دارد و برای دسترسی به این امکانات و ورود به سایت باید یک حساب کاربری داشته باشید.) که به کاربر موسیقی های مختلفی را پیشنهاد می ذهد .

هم چنین خانه های هوشمند در آینده می توانند مقصد مناسبی برای داده های کلان باشند و هم زمان عده ای از این اطلاعات برای ایجاد فرصت های جدید کسب و کار و بازاریابی و خدمات به مشتریان استفاده کنند .

مترجم و گردآورنده : معاونی

منبع :http://www.ecommercetimes.com