
در اجلاس دادههای ابری امروز خود، گوگل از راهاندازی پیشنمایش BigLake خبر داد، یک مرکز ذخیرهسازی داده جدید که تجزیه و تحلیل دادهها را برای کسبوکارها در انبارهای داده و حوضچههای دادهشان آسانتر میکند.
ایده در اینجا اساساً این است که از تجربه Google در مدیریت و مدیریت انبار داده BigQuery خود استفاده کنیم و آن را به استخرهای داده در Google Cloud Storage گسترش دهیم و بهترین مخزنها و انبارهای داده را در یک سرویس ترکیب کنیم که مخزن اصلی قالبها و سیستمها را خلاصه میکند.
شایان ذکر است که این داده ها را می توان در BigQuery یا به صورت زنده در AWS S3 و Azure Data Lake Storage Gen2 یافت. از طریق BigLake، توسعهدهندگان به مکانیزم ذخیرهسازی یکپارچه و توانایی جستجو در انبارهای داده اصلی از طریق یک سیستم واحد بدون نیاز به جابجایی یا تکرار دادهها دسترسی خواهند داشت.
“گریت کازمایر، معاون رئیس و مدیر کل پایگاههای داده، تجزیه و تحلیل دادهها و هوش تجاری در Google Cloud توضیح میدهد که مدیریت دادهها در دریاچهها و انبارهای مختلف سیلو ایجاد میکند و ریسک و هزینه را افزایش میدهد، به ویژه زمانی که دادهها باید جابجا شوند.، در اطلاعیه امروز یادداشت می شود. “BigLake به شرکتها اجازه میدهد تا انبارهای داده و حوضچههای خود را برای تجزیه و تحلیل دادهها بدون نگرانی در مورد قالب اصلی یا سیستم ذخیرهسازی ترکیب کنند، که نیاز به تکرار یا انتقال دادهها از منبع را حذف میکند و هزینهها و ناکارآمدیها را کاهش میدهد.

اعتبار تصویر: گوگل
BigLake با استفاده از برچسب های خط مشی، به مدیران اجازه می دهد تا سیاست های امنیتی خود را در سطوح جدول، ردیف و ستون پیکربندی کنند. این شامل دادههای ذخیرهشده در Google Cloud Storage، و همچنین دو سیستم شخص ثالث پشتیبانیشده است که BigQuery Omni، سرویس تحلیلی مبتنی بر ابر Google، این کنترلهای امنیتی را امکانپذیر میکند. سپس این کنترلهای امنیتی تضمین میکنند که فقط دادههای مناسب به ابزارهایی مانند Spark، Presto، Trino و TensorFlow سرازیر میشوند. این سرویس همچنین با ابزار Dataplex گوگل ادغام می شود تا قابلیت های مدیریت داده های اضافی را ارائه دهد.
گوگل اشاره می کند که BigLake کنترل های دسترسی دقیق را ارائه می دهد و API آن Google Cloud و همچنین فرمت های فایل مانند Apache Parket ستون گرا و موتورهای پردازش منبع باز مانند Apache Spark را پوشش می دهد.

اعتبار تصویر: گوگل
جاستین لواندوسکی، مهندس نرمافزار Google Cloud و Gaurav Saxena، مدیر محصول، امروز در بیانیهای گفتند: «مقدار دادههای ارزشمندی که سازمانها به مدیریت و تجزیه و تحلیل نیاز دارند با سرعت باورنکردنی در حال رشد است. این داده ها به طور فزاینده ای در بسیاری از مکان ها از جمله انبارهای داده، حوضچه های داده و فروشگاه های NoSQL منتشر می شوند. با پیچیدهتر شدن دادههای سازمان و انتشار آن در محیطهای مختلف داده، سیلوها ظاهر میشوند که ریسک و هزینه بیشتری را ایجاد میکنند، بهویژه زمانی که آن دادهها باید جابجا شوند. مشتریان ما به صراحت گفته اند؛ آنها به کمک نیاز دارند.»
علاوه بر BigLake، گوگل همچنین امروز اعلام کرد که Spanner، پایگاه داده SQL توزیع شده در سطح جهانی، به زودی یک ویژگی جدید به نام «streams for change» دریافت خواهد کرد. با استفاده از آنها، کاربران می توانند به راحتی هر گونه تغییر در پایگاه داده را در زمان واقعی ردیابی کنند، خواه درج، به روز رسانی یا حذف باشد. این تضمین میکند که مشتریان همیشه به بهروزترین دادهها دسترسی دارند، زیرا میتوانند به راحتی تغییرات را از Spanner به BigQuery برای تجزیه و تحلیل همزمان تکرار کنند، برنامههای پاییندستی را از طریق Pub/Sub فعال کنند، یا تغییرات را در Google Cloud Storage ذخیره کنند. کازمایر توضیح می دهد که GCS) مطابقت دارد.
Google Cloud همچنین امروز Vertex AI Workbench، ابزار مدیریت چرخه حیات برای یک پروژه علم داده را از نسخه بتا و عمومی منتشر کرد، و Connected Sheets را برای Looker منتشر کرد، و همچنین توانایی دسترسی به مدلهای داده Looker را در ابزار Data Studio BI خود منتشر کرد.