منو سایت

از حریم خصوصی متمایز برای افزایش اشتراک گذاری و همکاری داده ها استفاده کنید

 تاریخ انتشار :
/
  اخبار استارتاپ
Log4Shell برای هک سرورهای VMWare استفاده می شود

به‌طور سنتی، شرکت‌ها برای محافظت از حریم خصوصی داده‌ها به پوشاندن داده‌ها، که گاهی اوقات هویت زدایی نامیده می‌شود، تکیه می‌کنند. ایده اصلی حذف تمام اطلاعات شخصی (PII) از هر رکورد است. با این حال، تعدادی از حوادث پرمخاطب نشان داده‌اند که حتی داده‌های ظاهراً شناسایی شده می‌تواند منجر به نشت در حریم خصوصی کاربر شود.

در سال 1996، محققی در مؤسسه فناوری ماساچوست، سوابق بهداشتی فرماندار وقت ماساچوست را در مجموعه داده‌های ظاهراً پنهانی با مقایسه پرونده سلامت با داده‌های ثبت نام عمومی رأی دهندگان شناسایی کرد. در سال 2006، محققان دانشگاه UT Austin، فیلم‌هایی را که هزاران نفر تماشا کرده بودند، در مجموعه داده‌ای ظاهراً ناشناس منتشر شده توسط نتفلیکس، دوباره شناسایی کردند و آن را با داده‌های IMDB ترکیب کردند.

در مقاله‌ای در سال ۲۰۲۲ در نیچر، محققان از هوش مصنوعی برای انگشت نگاری و شناسایی مجدد بیش از نیمی از سوابق تلفن همراه در یک مجموعه داده ظاهراً ناشناس استفاده کردند. همه این مثال‌ها نشان می‌دهند که چگونه اطلاعات «جانبی» می‌تواند توسط مهاجمان برای شناسایی مجدد داده‌های ظاهراً پنهان شده استفاده شود.

این شکست ها به درجات مختلفی از حریم خصوصی منجر شده است. به جای اشتراک گذاری داده ها، شرکت ها نتایج پردازش داده ها را همراه با نویز تصادفی به اشتراک خواهند گذاشت. سطح نویز به گونه ای تنظیم می شود که خروجی به مهاجم احتمالی چیزی از نظر آماری قابل توجه در مورد هدف نگوید: همان خروجی می تواند از پایگاه داده هدف یا دقیقاً از همان پایگاه داده باشد، اما بدون هدف. نتایج پردازش داده های به اشتراک گذاشته شده، اطلاعاتی را در مورد کسی فاش نمی کند، بنابراین محرمانه بودن برای همه حفظ می شود.

برای اعمال حریم خصوصی دیفرانسیل، لازم نیست از ابتدا شروع کنید، زیرا هر گونه خطای پیاده سازی می تواند برای تضمین حریم خصوصی فاجعه بار باشد.

عملیاتی کردن محرمانگی متمایز یک چالش مهم در روزهای اولیه بود. اولین برنامه‌ها بیشتر از سازمان‌هایی با تیم‌های مهندسی و علم داده بزرگ مانند اپل، گوگل یا مایکروسافت بودند. همانطور که فناوری بالغ‌تر می‌شود و هزینه کمتری دارد، چگونه همه سازمان‌ها با زیرساخت‌های داده مدرن می‌توانند از حریم خصوصی متمایز در برنامه‌های کاربردی واقعی استفاده کنند؟

محرمانگی افتراقی هم برای داده های انبوه و هم در سطح خط اعمال می شود

زمانی که تحلیلگر به داده ها دسترسی ندارد، استفاده از حریم خصوصی دیفرانسیل برای ایجاد مجموعه های خصوصی متفاوت معمول است. داده های حساس از طریق یک API قابل دسترسی هستند که فقط نتایج پر سر و صدا را نشان می دهد که حریم خصوصی را حفظ می کند. این API می تواند کل مجموعه داده، از پرس و جوهای ساده SQL تا وظایف پیچیده یادگیری ماشین را جمع آوری کند.

تنظیمات معمولی برای استفاده از داده های شخصی با تضمین های مختلف حریم خصوصی

تنظیمات معمولی برای استفاده از داده های شخصی با تضمین های مختلف حریم خصوصی. اعتبار تصویر: ساروس

یکی از معایب این تنظیم این است که بر خلاف تکنیک های پوشاندن داده ها، تحلیلگران دیگر رکوردهای فردی را نمی بینند تا “احساس داده ها” را دریافت کنند. یکی از راه‌های کاهش این محدودیت، ارائه داده‌های مصنوعی خصوصی مختلف است که در آن مالک داده‌ها داده‌های نادرستی تولید می‌کند که ویژگی‌های آماری مجموعه داده اصلی را تقلید می‌کند.