
Heartex، استارتآپی که به عنوان یک پلتفرم منبع باز برای برچسبگذاری دادهها شارژ میشود، امروز اعلام کرد که 25 میلیون دلار در یک سری بودجه از سری A به رهبری Redpoint Ventures دریافت کرده است. Ventures غیر معمول، Bow Capital و Swift Ventures نیز مشارکت داشتند و کل سرمایه Heartex را به 30 میلیون دلار رساندند.
مایکل مالیوک، یکی از بنیانگذاران و مدیرعامل این شرکت، گفت که پول جدید برای بهبود محصول Heartex و افزایش نیروی کار این شرکت از 28 به 68 تا پایان سال سرمایه گذاری خواهد شد.
“برگرفته از مهندسی و یادگیری ماشین، [Heartex’s founding team] مالیوک از طریق ایمیل به TechCrunch گفت: او ارزشی را که یادگیری ماشین و هوش مصنوعی می تواند برای یک سازمان به ارمغان بیاورد، می داند. «در آن زمان، همه ما در شرکتهای مختلف و در صنایع مختلف کار میکردیم، اما به دلیل کیفیت پایین دادههای آموزشی، با دقت مدل مبارزه مشابهی داشتیم. ما توافق کردیم که تنها راه حل قابل اجرا این است که تیم های داخلی با تجربه در این زمینه مسئولیت حاشیه نویسی و مدیریت داده های آموزشی را بر عهده بگیرند. چه کسی می تواند بهترین نتایج را به جز متخصصان خود ارائه دهد؟
Malyuk، Maxim Tkachenko و Nikolai Lyubimov توسعه دهندگان نرم افزار Heartex را در سال 2019 تأسیس کردند. لیوبیموف قبل از نقل مکان به Yandex، مهندس ارشد هوآوی بود و در آنجا به عنوان یک توسعه دهنده در زمینه فناوری گفتار و گفتگو کار می کرد.

داشبورد Heartex.
روابط با Yandex، شرکتی که گاهی اوقات به عنوان Google of Russia شناخته می شود، ممکن است برخی را ناراحت کند، به ویژه با توجه به اتهامات اتحادیه اروپا مبنی بر اینکه بخش خبری Yandex نقش مهمی در گسترش تبلیغات کرملین ایفا می کند. Heartex یک دفتر در سانفرانسیسکو، کالیفرنیا دارد، اما تعدادی از مهندسان این شرکت در جمهوری شوروی سابق جورجیا مستقر هستند.
وقتی از Heartex پرسیده شد، میگوید هیچ دادهای از مشتری را جمعآوری نمیکند و هسته پلت فرم برچسبگذاری خود را برای تأیید باز میکند. مالیوک افزود: «ما یک معماری داده ساختهایم که دادهها را در مخزن مشتری محرمانه نگه میدارد و صفحه داده و صفحه مدیریت را از هم جدا میکند». از نظر تیم و مکان آنها، ما یک تیم بسیار بین المللی بدون اعضای فعلی مستقر در روسیه هستیم.”
با کنار گذاشتن ارتباطات ژئوپلیتیکی خود، Heartex به دنبال مقابله با چیزی است که کید به عنوان یک مانع بزرگ در شرکت میداند: استخراج ارزش از دادهها با استفاده از هوش مصنوعی. موج فزاینده ای از کسب و کارهایی وجود دارد که به دنبال تبدیل شدن به “داده محور” هستند – گارتنر اخیراً اعلام کرد که استفاده شرکتی از هوش مصنوعی در چند سال گذشته 270 درصد رشد کرده است. اما بسیاری از سازمان ها برای استفاده کامل از هوش مصنوعی تلاش می کنند.
مالیوک گفت: زمانی که شرکتها در توسعه الگوریتمهای خاص به نقطه کاهش بازدهی رسیدند، روی بهبود برچسبگذاری دادهها به عنوان بخشی از ابتکارات استراتژیک مبتنی بر داده سرمایهگذاری میکنند. این پیشرفت از رویههای توسعه قبلی است که تقریباً منحصراً بر روی توسعه و تنظیم الگوریتمها متمرکز بود.»
اگر همانطور که Maluk ادعا میکند، برچسبگذاری دادهها مورد توجه بیشتر شرکتهایی است که به دنبال هوش مصنوعی هستند، به این دلیل است که برچسبگذاری بخشی کلیدی از فرآیند توسعه هوش مصنوعی است. بسیاری از سیستمهای هوش مصنوعی «یاد میگیرند» که تصاویر، ویدیوها، متن و صدا را از نمونههایی که توسط تیمهای حاشیهنویس شناسایی شدهاند، درک کنند. برچسبها به سیستمها اجازه میدهند تا روابط بین مثالها را برونیابی کنند (مثلاً رابطه بین «سینک آشپزخانه»: و عکس سینک آشپزخانه) به دادههایی که سیستمها قبلاً ندیدهاند (مثلاً عکسهای سینک آشپزخانه که در دادهها گنجانده نشدهاند). ، برای “آموزش” مدل استفاده می شود).
مشکل این است که همه برچسب ها یکسان ایجاد نمی شوند. برچسب زدن به داده هایی مانند قراردادهای قانونی، تصاویر پزشکی و ادبیات علمی به تجربه ای در زمینه ای نیاز دارد که هر حاشیه نویسی آن را ندارد. و – به عنوان انسان – حاشیه نویسان اشتباه می کنند. در تجزیه و تحلیل MIT از مجموعه دادههای مشهور هوش مصنوعی، محققان دادههای برچسبگذاری نادرست مانند اشتباه گرفتن یک نژاد سگ با نژاد دیگر و نت بلند آریانا گرانده را که به عنوان سوت طبقهبندی شده بود، پیدا کردند.
کید ادعا نمی کند که هارتکس این مشکلات را به طور کامل حل می کند. اما در مصاحبهای، او توضیح داد که این پلتفرم برای پشتیبانی از گردشهای کاری برچسبگذاری برای کاربردهای مختلف هوش مصنوعی با ویژگیهایی طراحی شده است که بر مدیریت کیفیت داده، گزارشدهی و تجزیه و تحلیل تأثیر میگذارد. برای مثال، مهندسان داده با استفاده از Heartex میتوانند نام و آدرس ایمیل حاشیهنویسها و بررسیکنندگان دادههایی را که برچسبگذاری شدهاند را ببینند. این به نظارت بر کیفیت برچسب و – در حالت ایده آل – برای از بین بردن مشکلات قبل از تأثیرگذاری بر داده های آموزشی کمک می کند.
“زاویه برای C-suite بسیار ساده است. مالیوک گفت: همه چیز برای بهبود دقت مدل هوش مصنوعی تولیدی در خدمت دستیابی به هدف تجاری پروژه است. ما متوجه شدیم که اکثر مدیران C-suite که مسئولیتهایی در زمینه هوش مصنوعی، یادگیری ماشین و/یا علم داده دارند، از طریق تجربه تأیید کردهاند که با سرمایهگذاری استراتژیک بیشتر در افراد، فرآیندها، فناوری و دادهها، هوش مصنوعی میتواند ارزش تجاری استثنایی را در کاربردهای مختلف ارائه دهد. همچنین می بینیم که موفقیت اثر یک گلوله برفی دارد. تیمهایی که زودتر به موفقیت دست پیدا میکنند، میتوانند مدلهای با ارزش اضافی را سریعتر ایجاد کنند، نه تنها بر اساس دانش اولیهشان، بلکه بر اساس دادههای اضافی تولید شده با استفاده از مدلهای تولید.
در عرصه ابزارهای برچسبگذاری داده، Heartex با استارتآپهایی از جمله AIMMO، Labelbox، Scale AI و Snorkel AI و همچنین گوگل و آمازون (که محصولات برچسبگذاری دادهها را به ترتیب از طریق Google Cloud و SageMaker ارائه میکنند) رقابت میکند. اما کید معتقد است تمرکز Heartex بر نرم افزار، نه خدمات، آن را متمایز می کند. برخلاف بسیاری از رقبای خود، این استارتاپ خدمات برچسب زدن را از طریق پلتفرم خود نمی فروشد.
“از آنجایی که ما یک راه حل واقعا افقی ایجاد کرده ایم، مشتریان ما از صنایع مختلف هستند. ما استارتآپهای کوچک و همچنین چندین شرکت فورچون 100 مشتری داریم. [Our platform] مالیوک با امتناع از افشای ارقام درآمد گفت: «بیش از 100000 دانشمند در سراسر جهان آن را پذیرفته اند. “[Our customers] تیم های حاشیه نویسی داده های داخلی را راه اندازی کنید و خرید کنید [our product] زیرا مدلهای هوش مصنوعی تولیدی آنها عملکرد خوبی ندارند و میدانند که کیفیت پایین دادههای آموزشی دلیل اصلی آن است.