Google Cloud BigLake را راه اندازی کرده است، یک موتور ذخیره سازی چند پلتفرمی جدید

Google Cloud BigLake را راه اندازی کرده است، یک موتور ذخیره سازی چند پلتفرمی جدید

در اجلاس داده‌های ابری امروز خود، گوگل از راه‌اندازی پیش‌نمایش BigLake خبر داد، یک مرکز ذخیره‌سازی داده جدید که تجزیه و تحلیل داده‌ها را برای کسب‌وکارها در انبارهای داده و حوضچه‌های داده‌شان آسان‌تر می‌کند.

ایده در اینجا اساساً این است که از تجربه Google در مدیریت و مدیریت انبار داده BigQuery خود استفاده کنیم و آن را به استخرهای داده در Google Cloud Storage گسترش دهیم و بهترین مخزن‌ها و انبارهای داده را در یک سرویس ترکیب کنیم که مخزن اصلی قالب‌ها و سیستم‌ها را خلاصه می‌کند.

شایان ذکر است که این داده ها را می توان در BigQuery یا به صورت زنده در AWS S3 و Azure Data Lake Storage Gen2 یافت. از طریق BigLake، توسعه‌دهندگان به مکانیزم ذخیره‌سازی یکپارچه و توانایی جستجو در انبارهای داده اصلی از طریق یک سیستم واحد بدون نیاز به جابجایی یا تکرار داده‌ها دسترسی خواهند داشت.

گریت کازمایر، معاون رئیس و مدیر کل پایگاه‌های داده، تجزیه و تحلیل داده‌ها و هوش تجاری در Google Cloud توضیح می‌دهد که مدیریت داده‌ها در دریاچه‌ها و انبارهای مختلف سیلو ایجاد می‌کند و ریسک و هزینه را افزایش می‌دهد، به ویژه زمانی که داده‌ها باید جابجا شوند.، در اطلاعیه امروز یادداشت می شود. “BigLake به شرکت‌ها اجازه می‌دهد تا انبارهای داده و حوضچه‌های خود را برای تجزیه و تحلیل داده‌ها بدون نگرانی در مورد قالب اصلی یا سیستم ذخیره‌سازی ترکیب کنند، که نیاز به تکرار یا انتقال داده‌ها از منبع را حذف می‌کند و هزینه‌ها و ناکارآمدی‌ها را کاهش می‌دهد.

اعتبار تصویر: گوگل

BigLake با استفاده از برچسب های خط مشی، به مدیران اجازه می دهد تا سیاست های امنیتی خود را در سطوح جدول، ردیف و ستون پیکربندی کنند. این شامل داده‌های ذخیره‌شده در Google Cloud Storage، و همچنین دو سیستم شخص ثالث پشتیبانی‌شده است که BigQuery Omni، سرویس تحلیلی مبتنی بر ابر Google، این کنترل‌های امنیتی را امکان‌پذیر می‌کند. سپس این کنترل‌های امنیتی تضمین می‌کنند که فقط داده‌های مناسب به ابزارهایی مانند Spark، Presto، Trino و TensorFlow سرازیر می‌شوند. این سرویس همچنین با ابزار Dataplex گوگل ادغام می شود تا قابلیت های مدیریت داده های اضافی را ارائه دهد.

گوگل اشاره می کند که BigLake کنترل های دسترسی دقیق را ارائه می دهد و API آن Google Cloud و همچنین فرمت های فایل مانند Apache Parket ستون گرا و موتورهای پردازش منبع باز مانند Apache Spark را پوشش می دهد.

 

اعتبار تصویر: گوگل

جاستین لواندوسکی، مهندس نرم‌افزار Google Cloud و Gaurav Saxena، مدیر محصول، امروز در بیانیه‌ای گفتند: «مقدار داده‌های ارزشمندی که سازمان‌ها به مدیریت و تجزیه و تحلیل نیاز دارند با سرعت باورنکردنی در حال رشد است. این داده ها به طور فزاینده ای در بسیاری از مکان ها از جمله انبارهای داده، حوضچه های داده و فروشگاه های NoSQL منتشر می شوند. با پیچیده‌تر شدن داده‌های سازمان و انتشار آن در محیط‌های مختلف داده، سیلوها ظاهر می‌شوند که ریسک و هزینه بیشتری را ایجاد می‌کنند، به‌ویژه زمانی که آن داده‌ها باید جابجا شوند. مشتریان ما به صراحت گفته اند؛ آنها به کمک نیاز دارند.»

علاوه بر BigLake، گوگل همچنین امروز اعلام کرد که Spanner، پایگاه داده SQL توزیع شده در سطح جهانی، به زودی یک ویژگی جدید به نام «streams for change» دریافت خواهد کرد. با استفاده از آنها، کاربران می توانند به راحتی هر گونه تغییر در پایگاه داده را در زمان واقعی ردیابی کنند، خواه درج، به روز رسانی یا حذف باشد. این تضمین می‌کند که مشتریان همیشه به به‌روزترین داده‌ها دسترسی دارند، زیرا می‌توانند به راحتی تغییرات را از Spanner به BigQuery برای تجزیه و تحلیل هم‌زمان تکرار کنند، برنامه‌های پایین‌دستی را از طریق Pub/Sub فعال کنند، یا تغییرات را در Google Cloud Storage ذخیره کنند. کازمایر توضیح می دهد که GCS) مطابقت دارد.

Google Cloud همچنین امروز Vertex AI Workbench، ابزار مدیریت چرخه حیات برای یک پروژه علم داده را از نسخه بتا و عمومی منتشر کرد، و Connected Sheets را برای Looker منتشر کرد، و همچنین توانایی دسترسی به مدل‌های داده Looker را در ابزار Data Studio BI خود منتشر کرد.