چرا سازندگان هارد دیسک در ذخیره سازی داده های DNA سرمایه گذاری می کنند؟



جامعه تحقیقاتی در مورد پتانسیل DNA برای خدمت به عنوان ابزاری برای ذخیره سازی آرشیوی طولانی مدت هیجان زده هستند، تا حد زیادی به این دلیل که DNA بسیار متراکم است، از نظر شیمیایی برای ده ها هزار سال پایدار است، و الگویی دارد که بعید است فراموش کنیم که چگونه آن را انجام دهیم. خواندن. در حالی که پیشرفت های جالبی رخ داده است، به دلیل هزینه های بالا و سرعت بسیار پایین خواندن و نوشتن، تلاش ها عمدتاً محدود به جامعه پژوهشی بوده است. اینها مشکلاتی هستند که باید قبل از عملی شدن ذخیره سازی مبتنی بر DNA حل شوند. بنابراین شگفت آور است که بشنویم که غول ذخیره سازی داده سیگیت با یک شرکت ذخیره سازی مبتنی بر DNA به نام کاتالوگ همکاری کرده است. تکنیکا با Hyunjoon Park تماس گرفت تا بفهمد که فناوری این شرکت چقدر به استفاده عملی نزدیک است. مدیر عامل شرکت کاتالوگ صحبت کرد. پارک اشاره کرد که رویکرد کاتالوگ در دو سطح غیرمنتظره است: داده‌ها را آنطور که انتظار دارید ذخیره نمی‌کند و اصلاً روی ذخیره‌سازی بایگانی تمرکز نمی‌کند. ذخیره سازی دیفرانسیل DNA مولکولی است که می توان آن را به عنوان یک آرایه خطی از بازها در نظر گرفت که هر پایه یکی از چهار پایه است. ماده شیمیایی متمایز است: A، T، C و G. به طور معمول، هر پایه DNA برای نگهداری دو بیت از اطلاعات استفاده می‌شود و مقادیر بیت‌ها بر اساس پایگاه خاص موجود تعیین می‌شود. بنابراین، A می تواند 00، T می تواند 01، C می تواند 11، و G می تواند 11 را رمز کند. به این ترتیب، مولکول AA توانایی رمزگذاری 0000 را دارد، در حالی که AA می تواند 0010 و غیره را رمزگذاری کند. ما می‌توانیم مولکول‌های DNA صدها پایه را با کارایی بالا سنتز کنیم و می‌توانیم توالی‌های جانبی را که معادل اطلاعات سیستم هستند اضافه کنیم. این فرمت فایل است که به ما می گوید یک قطعه DNA منفرد کدام بخش از داده های دودویی را نشان می دهد. مشکل این رویکرد این است که هر چه رشته بیت‌هایی که می‌خواهید ذخیره کنید طولانی‌تر باشد، زمان و هزینه بیشتری می‌برد. سخت افزار رباتیک واکنش های سانتریفیوژ را انجام می دهد و هر واحد سخت افزاری می تواند تنها یک مولکول DNA را در یک زمان سنتز کند. مواد خام مورد استفاده توسط سخت افزار برای سنتز نیز هزینه ای را به هر مولکول ذخیره شده اضافه می کند. در حالی که این موضوع برای پروژه های کوچک نگران کننده نیست، اما اگر شروع به ذخیره حجم عظیمی از داده ها کنید، هزینه ها می تواند به سرعت افزایش یابد. به گفته پارک، با فرض اینکه هزینه این مرکز 0.03 سنت برای هر باز باشد و با توجه به حجم گیگابایت، هزینه آن به چند میلیون دلار می رسد که مبلغ زیادی است. درباره فرآیند رمزگذاری برای دور زدن این مانع راه اندازی شد. فرآیند کدگذاری این شرکت با کتابخانه ای متشکل از ده ها تا صدها قطعه کوتاه DNA به نام اولیگوس (مخفف الیگونوکلئوتیدها) شروع می شود. سپس به هر بیت داده ترکیبی منحصر به فرد از oligos اختصاص داده می شود. شما می توانید این فرآیند را به عنوان یک پردازنده سیلیکونی در نظر بگیرید که یک بیت از حافظه را به یک آدرس منحصر به فرد 64 بیتی اختصاص می دهد. اگر آن بیت 1 باشد، ربات می تواند نمونه های کوچکی از محلول های حاوی هر یک از الیگوس های مورد نیاز برای نمایش آن را جمع آوری کند. و آنها را با آنزیمی ترکیب کنید که می تواند همه اولیگوها را به هم متصل کند. این آنزیم الیگوها را در یک مولکول DNA منفرد و طولانی تر که حاوی ترکیب منحصر به فرد یک بیتی خود است، جمع می کند. برعکس، اگر بیت صفر باشد، DNA مربوط به آدرس آن ساخته نمی شود. سپس تمام مولکول‌هایی که تولید می‌شوند را می‌توان در یک محلول (که می‌توان برای نگهداری طولانی مدت خشک کرد) ترکیب کرد. برای خواندن آن داده ها، جمعیتی از مولکول های DNA توالی یابی می شود و یک الگوریتم ترکیب منحصر به فرد اولیگوهای موجود در هر مولکول را تشخیص می دهد. آدرس های شناسایی شده 1 و بقیه 0 اختصاص داده می شوند. این داده های رمزگذاری شده را به شکل دیجیتال بازیابی می کند. این سیستم از نظر داده در هر DNA کارایی کمتری نسبت به ذخیره دو بیت در هر شکاف دارد. اما تک تک مولکول‌ها به اندازه‌ای کوچک باقی می‌مانند که همچنان یک محیط ذخیره‌سازی پایدار و فشرده باشند. به دلیل عدم تقارن، این سیستم در زمان و هزینه قابل توجهی صرفه جویی می کند: سنتز مقادیر زیادی از یک توالی DNA خاص ارزان تر از سنتز مقادیر کمی از بسیاری از توالی های مختلف DNA است. بنابراین، با مونتاژ DNA با استفاده از مقادیر کم، حجم بالای DNA از پیش ساخته شده، هزینه سنتز را به طور چشمگیری کاهش می دهد. هر واکنش مونتاژی نیز می تواند به صورت موازی اجرا شود. از طرفی در روش سنتز سکانس ها به صورت جداگانه، دستگاه تا زمانی که سنتز کامل شود درگیر است و نمی تواند همزمان کار دیگری انجام دهد. پارک گفت: در جدیدترین طراحی این کانسپت، شرکت کاتالوگ دستگاهی بر اساس فناوری جوهرافشان ساخته است. دستگاه مذکور شانون نام دارد که از نام کلود شانون نظریه پرداز اطلاعات گرفته شده است. هر جت می تواند یک الیگو را در یک قطره روی یک صفحه پیوسته از فیلم چاپ کند. الیگوهای مختلف روی یک نقطه واکنش فرود می آیند و یک قطره آنزیم به آن اضافه می شود. سپس فیلم در انکوباتور قرار می گیرد و آنزیم آنها را به شکل یک مولکول DNA جمع می کند. هنگامی که واکنش ها کامل شد، قطرات را می توان در یک محلول واحد که شامل تمام داده های رمزگذاری شده است، ترکیب کرد. بخشی از مشارکت کاتالوگ با سیگیت شامل آزمایش این است که آیا برخی از سخت افزارهای مایع کار شرکت هارد دیسک توسعه داده است یا خیر. داده‌ها می‌توانند به کوچک‌سازی و خودکارسازی بیشتر فرآیند، کاهش مصرف انرژی و منابع کمک کنند (پارک می‌گوید شانون به اندازه یک آشپزخانه معمولی است). خروجی شانون برای بایگانی تنظیم شده است، اما شرکت متوجه شده است که مشتریان بالقوه آنها کمتر از آنچه که انتظار داشتند به آرشیو کردن علاقه دارند. می‌گوید: «ما با شرکت‌هایی مانند سیگیت، شرکت‌های دیگر در صنایع سرگرمی، گاز یا فناوری که مشکلات و چالش‌های بزرگ داده‌ها را دارند صحبت کرده‌ایم و دیدیم که فقط جنبه ذخیره‌سازی سرد آن برای آنها جالب نیست. پارک پارک دریافت که مردم مجذوب این چشم انداز شده اند که DNA می تواند عملیات موازی گسترده روی داده های ذخیره شده را بدون نیاز به تبدیل آن به شکل دیجیتال فعال کند. پارک می‌گوید: «ما می‌خواهیم سطح جدیدی از ذخیره‌سازی محاسباتی ایجاد کنیم که از حجم عظیمی از داده‌ها پشتیبانی می‌کند، اما همچنین بسیار قابل جستجو و محاسبه است». این روش رمزگذاری می تواند مزیتی برای برخی از عملیات مبتنی بر DND ایجاد کند، تا حدی به این دلیل که ما قبلاً در مورد ساختار داده می دانیم. با طرح های رمزگذاری که در آن ترتیب کلیدها بر اساس داده های ذخیره شده متفاوت است، این امکان وجود ندارد. به طور مشابه، عدم وجود توالی های خاص در این طرح رمزگذاری می تواند مفید باشد. با این حال، در این مرحله پارک و کاتالوگ هنوز در حال بررسی چگونگی اجرای برخی از این ایده‌ها هستند. برخی از مزایای محاسباتی ممکن است دورتر باشند، زیرا برخی از مزایا فقط در مقیاس های بسیار بزرگ به دست می آیند. ذخیره سازی مبتنی بر DND در نهایت وارد خواهد شد، زیرا می تواند محاسبات موازی گسترده را بهتر انجام دهد. به عنوان مثال، اگر می خواهید محاسبه ای را روی یک مگابایت داده ذخیره شده در DNA انجام دهید، زمان یا منبع مورد نیاز برای انجام این کار مشابه، مثلاً، زمان لازم برای انجام یک محاسبه روی یک پتابایت است (هر پتابایت برابر است با پارک گفت: 1000 ترابایت) داده در DNA ذخیره شده است. در حالی که استارتاپی مانند کاتالوگ به وضوح بر شرکت های انتفاعی که با مجموعه داده های عظیم سر و کار دارند متمرکز است، برخی از اولین برنامه های کاربردی ممکن است از جامعه دانشگاهی ظهور کنند. پارک به حجم عظیم داده های تولید شده توسط برخورد دهنده بزرگ هادرون به عنوان یک هدف احتمالی اشاره می کند و می گوید که شرکت کاتالوگ یکی از امضاکنندگان چارچوب توسعه فناوری آزمایشگاه های باز است که توسط سازمان اروپایی تحقیقات هسته ای اجرا می شود. پارک می‌گوید: «من فکر می‌کنم DNA یک راه عالی برای ذخیره حجم عظیمی از داده‌ها است. هنگامی که یک نظریه جدید ارائه می شود، می خواهید بتوانید تمام آزمایش های قبلی را به طور موثر جستجو و بررسی کنید. در حال حاضر هیچ راهی برای انجام این کار وجود ندارد. من فکر می کنم یک سیستم مبتنی بر DNA راه حلی عالی برای این مشکل خواهد بود.

دیدگاهتان را بنویسید