ون شاٹ کی مشابہت سیکھنے کے ل Open اوپنAIی کا نیا نقط AI نظر ، اے آئی کے مستقبل کا جھانکنا

ون شاٹ امیٹیٹیشن لرننگ یان ڈوآن ، مارکسین اینڈریوچیکز ، بریڈلی سی اسٹڈی ، جوناتھن ہو ، جوناس سنائیڈر ، الیا سوٹسکور ، پیٹر ایبیئل ، ووزیک زارمبا

16 مئی کو ، اوپن اے آئی کے محققین نے اپنے ایک پروجیکٹ کی ایک ویڈیو شیئر کی اور اس کی اہمیت کے دو مقالے کے ساتھ موجودہ AI ترقی کے تین اہم رکاوٹوں کے حل کی تلاش کی: میٹا لرننگ ، ایک شاٹ لرننگ ، اور خود کار طریقے سے ڈیٹا جنریشن۔ اپنی پچھلی پوسٹ میں ، میں نے ایک شاٹ سیکھنے کے دلچسپ مسئلے سے وابستہ ایک مضمون کا وعدہ کیا تھا ، لہذا یہاں جاری ہے۔ آپ اپنے جاری کردہ ویڈیو پر ایک نظر ڈال کر شروعات کرسکتے ہیں جو ان کے حیرت انگیز کام کی وضاحت کرتا ہے:

اس ویڈیو میں آپ کو ایک بازو جسمانی روبوٹ ایک دوسرے کے سب سے اوپر کیوب اسٹیک کرتے ہوئے نظر آرہا ہے۔ اس پیچیدہ کاموں کو جاننا جو صنعتی روبوٹ فی الحال انجام دینے کے قابل ہیں ، اگر محقق یہ بتانے کی کوشش نہیں کررہا تھا کہ کیا ہو رہا ہے تو ، بہت سے کھاتوں پر یہ بہت نقصان دہ ہوگا۔ کنٹرول ماحول میں یہ کام آسان ہے ، طریقہ کار (سخت کوڈڈ) طریقوں نے اس مسئلے کو پہلے ہی حل کرلیا ہے ، کیا امید افزا اور انقلابی ہے کہ شور کے ماحول میں عام فریم ورک متعدد ، زیادہ پیچیدہ اور انکولی رویوں تک کتنا بڑھ سکتا ہے۔

انسان اور اعلی جانوروں کے مابین ذہن میں فرق ، جیسا کہ یہ ہے ، یقینا degree ایک درجہ کی ہے نہ کہ قسم کی۔
- چارلس ڈارون

تشبیہ سے ، یہ مضمون اس بات کا پختہ ثبوت ہے کہ حالیہ مجسم AI (جسمانی نظام کی مصنوعی ذہانت) اور 22 ویں صدی کے روبوٹ کے مابین علمی نظام میں پائے جانے والے اختلافات پیمانے پر ہوں گے نہ کہ کسی نوع کے۔ 2012 امیج نٹ مقابلہ * کے بعد سے ، گہری سیکھنے والی تحقیق عروج پر ہے ، اعصابی نیٹ ورک کے ذریعہ تقسیم شدہ حساب کتاب کی نوعیت کو تبدیل کرنے کے ل. ، لیکن نیٹ ورکس کو تشکیل دینے کے ل ways نئے طریقے ڈھونڈ کر تاکہ وہ کسی خاص کام کو سیکھیں۔ اعصابی نیٹ ورک کا کام اسٹرکچر کے لئے ہوتا ہے ، اس ڈھانچے کو سخت کوڈ (ہاتھ سے ڈیزائن نہیں کیا گیا) نہیں ہے بلکہ یہ ابتدائی طور پر آدانوں اور آؤٹ پٹ کے مابین جڑے ہوئے ایٹم کمپیوٹیشنل یونٹس کے نتائج ہیں جو ان کی ساخت اور رابطوں میں ترمیم کرنے کے قابل ہیں۔ اس نیٹ ورک کے مجموعی ڈھانچے میں ترمیم کرکے ہی یہ ایک خاص کام سیکھتا ہے۔

اس مضمون میں انہوں نے ایک عمومی فریم ورک بنایا جس میں کسی ایجنٹ کو خلاصہ طریقے سے کاموں کی نمائندگی کرنے کی تربیت دی جاسکے ، اور ناول ٹاسک کے صرف ایک مظاہرے (ایک شاٹ مشابہت سیکھنے) کے بعد اس علم کو نادیدہ کاموں (منتقلی سیکھنے) میں منتقل کرنا سیکھا گیا۔

کام

اگرچہ عین ساختی عمل درآمد مختلف ہے ، وہ عام نقطہ نظر کی کارکردگی کو ظاہر کرنے کے لئے دو کام بطور مثال لیتا ہے۔

ذرہ تک پہنچنا

پہلی مثال میں یہ سسٹم ہوائی جہاز میں رنگین ہدف کی پوزیشنوں کے آدانوں اور مخصوص نشانے پر جانے والے انکار ایجنٹ کا ایک ویڈیو مظاہرہ وصول کرتا ہے۔

چترا 2. روبوٹ ایک جہتی طاقت ہے جس میں 2 جہتی طاقت ہوتی ہے۔ کاموں کا کنبہ ایک نشانہ کی منزل تک پہنچنا ہے۔ اس نشان کی شناخت کام سے مختلف ہوتی ہے اور ماڈل کو یہ معلوم کرنا ہوتا ہے کہ مظاہرے کی بنیاد پر کون سا نشانہ بنانا ہے۔ (بائیں) روبوٹ کی مثال؛ (درمیان) کام سنتری والے خانے تک پہنچنا ہے ، (دائیں) کام سبز مثلث تک پہنچنا ہے۔

تربیت کے دوران سسٹم کو ایک ہی کام (سنتری تک پہنچنے) کو دوبارہ تیار کرنا ہوتا ہے لیکن ایک اور ترتیب سے ، روبوٹ اور اہداف کے ل starting مختلف ابتدائی پوزیشنوں کے ساتھ۔ یہ واضح نہیں ہے کہ آیا ایجنٹ کی جانچ کے دوران اس کام پر جانچ کی جاتی ہے جس کی تربیت (سنتری تک پہنچنے) پر کی گئی تھی یا اس کام پر جس نے اس سے پہلے کبھی نہیں دیکھا تھا (مثال کے طور پر سبز تک پہنچنا) یا دونوں۔

تربیت یافتہ پالیسی کا اندازہ نئے منظرناموں پر کیا جاتا ہے اور تربیت کے دوران نہ دیکھے جانے والے نئے مظاہرے کی رفتار پر مشروط کیا جاتا ہے۔

یہ یقینی ہے کہ ایجنٹ کو مطلوبہ ہدف کا انوکھا مظاہرہ کرنا ہوگا اور پھر اسے کسی اور ترتیب سے شروع کرنا ہوگا۔ اس سے یہ ظاہر ہوتا ہے کہ عین مطابق موٹر ترتیب کو جانچنے سے پہلے نہیں سیکھا جاسکتا تھا اور اس کو ٹاسک اور موٹر پلاننگ کے خلاصہ (اعلی سطحی ڈھانچے کی نمائندگی) کے ذریعے اندازہ لگایا جانا تھا۔

اسٹیکنگ کو مسدود کریں

دوسری مثال میں ایجنٹ کو کیوب (اسی طرح مختلف رنگوں کی نشاندہی کی گئی) کو اسی ترتیب میں اسٹیک کرنا سیکھنا ہے جس طرح ایک ہی مصنوعی مظاہرے میں دکھایا گیا ہے۔ یہ مصنوعی مظاہرہ 3D طبیعیات کے انجن کے ذریعہ تیار کردہ 2D امیجز کا ایک سلسلہ ہے جس میں روبوٹس کی موٹر اور حسی آلات کی خصوصیات کو نمونہ بنایا گیا ہے۔

ون شاٹ پالیسی۔ ایک ہی پالیسی میں بہت سے کاموں کو حل کرنے کی تربیت دی گئی ہے۔ ٹاپ ٹاسک: {abc، def}، نیچے کام: {ab، cd، ef

دونوں مثالوں میں مظاہرے میں کیوب کی ابتدائی پوزیشن اور اصلی امتحان مختلف ہے ، ہر کام ایک ابتدائی پوزیشن سے شروع ہو رہا ہے۔ روبوٹ مظاہرے کی ابتدائی حیثیت سے مطابقت پانے کے لئے کیوب کو تبدیل کرنے کی کوشش نہیں کرتا ہے ، یہ کیوب کو ڈھیر لگانے کا اعلی سطح کا کام منتقل کرتا ہے جس حالت میں وہ شروع کرتا ہے۔

ڈومین بے ترتیب استعمال کرنے کی تربیت

دونوں ہی صورتوں میں تربیت کے دوران استعمال ہونے والی تمام تصاویر ڈومین کی بے ترتیب اشیا کا استعمال کرتے ہوئے تخروپن کے ذریعہ حاصل کی جاتی ہیں جس میں وہ نمونے کے مندرجہ ذیل پہلوؤں کو بے ترتیب بنائیں گے۔

میز پر مشغول اشیاء کی تعداد اور شکل میز پر موجود تمام اشیاء کی پوزیشن اور بناوٹ ، میز ، فرش ، اسکائی بکس ، اور روبوٹ کی پوزیشن ، واقفیت ، اور کیمرہ کے نظارے کا منظر منظر میں لائٹس کی تعداد مقام ، واقفیت ، اور لائٹس کی نمایاں خصوصیات خصوصیات میں شامل اور بے ترتیب شور کی مقدار

ذرہ تک پہنچنے کے لئے تربیت کا اہتمام

ہم ٹاسک فیملیز کے مشکل سے بڑھتے ہوئے سیٹ پر غور کرتے ہیں ، جہاں نشانیوں کی تعداد 2 سے 10 تک بڑھ جاتی ہے ، ہر ٹاسک فیملی کے ل we ، ہم تربیت کے لئے 10000 پرکشش مقامات جمع کرتے ہیں ، جہاں مقامات کی پوزیشن اور نقطہ روبوٹ کی ابتدائی پوزیشن بے ترتیب ہو جاتی ہے۔ مظاہرے موثر انداز میں پیدا کرنے کے لئے ہم ہارڈ کوڈڈ ماہر پالیسی استعمال کرتے ہیں۔ ہم محرک عملوں کو ماحول میں لاگو کرنے سے پہلے مشغول حرکتوں پر روشنی ڈالتے ہیں ، اور ہم عصبی نیٹ ورک کی پالیسی کی تربیت کے ل simple آسان سلوک کے کلوننگ کا استعمال کرتے ہیں۔

بلاک اسٹیکنگ کے لئے تربیت کا اہتمام

کنکریٹ کے ساتھ ، ہم 140 تربیتی کاموں اور 43 ٹیسٹ ٹاسکس کو جمع کرتے ہیں ، جن میں سے ہر ایک بلاکس کی ایک مختلف مطلوبہ ترتیب ہے۔ ہر کام میں بلاکس کی تعداد 2 اور 10 کے درمیان مختلف ہوسکتی ہے۔ ہم تربیت کے لئے ہر کام میں 1000 ٹریجیکوروری جمع کرتے ہیں ، اور تشخیص کے لئے استعمال ہونے والی ٹریکیکوروریجز اور ابتدائی ترتیب کا ایک الگ سیٹ برقرار رکھتے ہیں۔ ذر reachingہ تک پہنچنے والے کام کی طرح ، ہم بھی چوراہے جمع کرنے کے عمل میں شور لگاتے ہیں۔ چکروں کو سخت کوڈ کی پالیسی کے ذریعے جمع کیا جاتا ہے۔

ہارڈ کوڈ کی پالیسی کا استعمال کرتے ہوئے کامیاب مظاہرے جمع کیے جاتے ہیں

نوٹ کریں کہ سیکھنے کے دوران ایک صحیح طریقہ کار "سخت کوڈ والی" پالیسی کے ذریعہ تیار کیا گیا ہے ، اور مجھے یقین ہے کہ سسٹم کی شناخت اور کنٹرول کی کلاسیکی تکنیکوں پر انحصار کرتا ہے۔ لہذا تربیت اور جانچ کے دوران ایجنٹ کے دو آدان ہوتے ہیں: الف) ترتیب اے میں ایک مظاہرے ، اور ب) ایک ابتدائی ترتیب بی۔ صرف تربیت کے دوران ، سیکھنے الگورتھم کو بھی ایک مثالی ردعمل تک رسائی حاصل ہوتی ہے: ترتیب بی سے شروع ہونے والا ایک راستہ اس مسئلے کا جواب دیتا ہے اور سیکھنے کے دوران ایجنٹ کے ردعمل کا موازنہ کیا جائے گا - اور اسے نگرانی سیکھنے کا مسئلہ بنائے گا۔

ہر تربیتی کام کے لئے ہم کامیاب مظاہروں کے ایک سیٹ کی دستیابی کو فرض کرتے ہیں۔

اگر یہ واضح نہیں ہے تو ، میں اگلے حصے میں سیکھنے کے مختلف نمونوں کی مختلف اقسام کے مابین فرق کو ختم کروں گا۔

اصلاح الگورتھم اور نقصان کی تقریب

زیر نگرانی سیکھنے سے مراد تربیت کی تمثیلیں ہیں جس میں ہر فیصلے میں نیٹ ورک کو اپنی صحیح انتخاب تک رسائی حاصل ہوتی ہے جس کی اسے انتخاب کرنا چاہئے تھا ، اور اسی وجہ سے غلطی کے تصور میں۔ مثال کے طور پر کتوں اور بلیوں کے مابین درجہ بندی کے کام میں ، تربیت کے دوران کتوں اور بلیوں کی تصاویر کا لیبل پہلے ہی معلوم ہوتا ہے اور غلطیوں کا فوری پتہ چل جاتا ہے۔ اس لحاظ سے یہ غیر معاشرتی تعلیم سے مختلف ہے جہاں عام طور پر ایجنٹ سے کہا جاتا ہے کہ وہ ان پٹس میں پچھلے نامعلوم ڈھانچے کو تلاش کرے جو اسے ملتا ہے ، اور بلیوں اور کتوں کے لیبلوں کے بغیر یہ دریافت کرنا پڑے گا کہ صرف مختلف اشیا کے دو جھرمٹ موجود ہیں جس کی بنیاد پر اعداد و شمار میں شامل معلومات. یہ انفورسمنٹ لرننگ سے بھی مختلف ہے جو اکثر اوقات ریئل ٹائم سسٹم پر لاگو ہوتا ہے جس میں کسی فیصلے کا قطعی تسلسل نامعلوم ہوتا ہے لیکن صرف آخری "انعام" ہی فیصلہ کرے گا کہ یہ ترتیب صحیح تھا یا نہیں۔ مشابہت سیکھنے کا استعمال کرتے ہوئے وہ کلاسیکی کمک سیکھنے کے مسئلے کو ایک زیر نگرانی سیکھنے کے مسئلے میں تبدیل کرتے ہیں ، جس میں غلطی کا ایک فاصلے سے مشاہدہ کرنے والے راستے میں حساب کیا جاتا ہے۔

چونکہ کسی بھی زیر نگرانی ٹریننگ سیٹ اپ کا معاملہ ہے ، تو کام کو مکمل طور پر نقصان کے فنکشن سے تعبیر کیا گیا ہے ، جس کا مقصد یہ طے کرنا ہے کہ ایجنٹ مطلوبہ سلوک سے کتنا دور تھا۔ اس فنکشن کی وضاحت اکثر ایک اہم مرحلہ ہوتا ہے ، کیونکہ یہ طے کرتا ہے کہ کس طرح اصلاح کے الگورتھم ماڈل کے پیرامیٹرز کو اپ ڈیٹ کرتے ہیں۔ وہ الگورتھم حساب کے وقت کی اصطلاح میں اہمیت کے حامل ہوتے ہیں ، اور اکثر تبادلہ کرنے کے قابل ہونے کے لئے کچھ موافقت پذیری کی ضرورت ہوتی ہے ، اگر بالکل نہیں۔ درحقیقت جو حل بہت زیادہ طول و عرض میں فنکشن کو کم سے کم کردیں گے وہ پیرامیٹر اسپیس کے ایک بہت چھوٹے خول میں رہتا ہے ، جس میں ان کے مابین ایک چھوٹی سی ہامنگ فاصلہ ہوتا ہے ، جیسے ہی آپ اس چھوٹے ڈومین سے دور ہوتے ہی حلوں کے مابین فاصلہ بڑھتا جاتا ہے۔ دوسروں کے درمیان بہت ہی حیرت انگیز کام جینیفر چیائس نے بہت ہی حیرت انگیز طور پر کیا ہے ، وہ ٹاکنگ مشینوں کی آخری قسط کے ایک انتہائی دلچسپ انٹرویو میں اس موضوع کو برش کرتی ہیں۔

پالیسی نیٹ ورکس کی تربیت کے دوران (پورا نیٹ ورک ، ان پٹ سے فیصلہ کرنے میں کامیاب ہوتا ہے کہ کون سا کارروائی کرے گی) وہ پہلے مظاہرے کے کامیاب راستہ پر کارروائی کرتے ہیں۔ اس حصے کے لئے وہ دو نقطہ نظر ، کلاسک سلوک کلوننگ (جو وہ استعمال کرتے تھے اس پر عمل درآمد کے بارے میں قطعی طور پر یقین نہیں رکھتے ہیں) اور ڈی اے جی جی جی الگورتھم کا موازنہ کریں گے۔ اس کے بعد نقصان کے فنکشن میں دوبارہ توثیق کو کم سے کم کرنے کی اجازت دی جائے گی یا تو L2 کے ذریعے یا کراس اینٹروپی نقصان کے ذریعہ کہ عمل مستقل یا مجرد ہیں (ترتیب میں واقعات کی تقسیم پر مبنی)۔ تمام تجربات میں ، انہوں نے 0.001 کی شرح شرح کے ساتھ اصلاح کو انجام دینے کے لئے اڈامیکس الگورتھم کا استعمال کیا۔

قدم کا سائز چھوٹا شروع ہوتا ہے اور تیزی سے زوال پذیر ہوتا ہے۔

خود الگورتھم منتقلی کی اجازت نہیں دیتا ہے ، یہ آپ اپنے ٹریننگ سیٹ اور اپنے نقصان کے فنکشن کو تشکیل دیتے ہیں جو منتقلی کی اجازت دیتا ہے۔

کاموں میں دو طرح کی منتقلی موجود ہے۔ پہلی قسم کو "حقیقت کے فرق کو ختم کرنے" کے طور پر جانا جاتا ہے ، یہ قدرتی محرکات پر جانچنے کے لئے مصنوعی آدانوں کی تربیت کے درمیان تبادلہ کرنے کی اجازت دینے میں سیکھنے میں ایک عام حیثیت ہے۔ نقلی اعداد و شمار اکثر حقیقی دنیا کا ایک غریب اندازہ ہوتا ہے ، بالکل درست اور حقیقی چیز کی پیچیدگی کا فقدان ہوتا ہے۔ حقیقی دنیا میں کیمرا ناقص اور شور کا شکار ہوسکتا ہے ، موٹر کنٹرول کم درست ہوگا ، رنگ بدلیں گے ، بناوٹ زیادہ تر ہوگی۔ اس پہلی منتقلی کی اجازت کے ل To وہ ایک ایسا طریقہ استعمال کرتے ہیں جس کو وہ "ڈومین رینڈیمائزیشن" کہتے ہیں۔ : یہ ان پٹ میں شور شامل کرکے ہے کہ نیٹ ورک مشترکہ متعلقہ ڈھانچے کو سیکھ سکتا ہے جو اسے حقیقی دنیا میں مناسب طور پر عام کرنے کی اجازت دے گا۔ وہ مثال کے طور پر تربیتی مثالوں کے درمیان کیمرے کے زاویہ کو تبدیل کریں گے ، بناوٹ کو تبدیل کریں گے ، یا چالوں کو کم کامل بنائیں گے۔ تربیت کے دوران شور کو جوڑ کر ہم مضبوطی کا اضافہ کرتے ہیں۔

دوسرا منتقلی یہاں جانچا گیا جو ترتیب اور اہداف کے پہلے نظر نہ آنے والے سیٹ میں ، کسی اور ابتدائی ترتیب میں شروع ہونے والے کسی ایک مظاہرے کی بنیاد پر لیکن اسی طرح کے حتمی مقصد کے ساتھ متعلقہ موٹر ترتیب پیدا کرنے کی صلاحیت ہے۔ ایک بار پھر یہاں منتقلی ممکن ہو گی کہ ہم تربیت کا سیٹ کس طرح تیار کرتے ہیں ، اور نقصان کے فنکشن کو ماڈل بناتے ہیں۔ تربیت کے دوران ایسے مظاہرے پیش کرکے جو ایک ہی ابتدائی حالت سے شروع نہیں ہوتے اسی طرح کے مقصد تک پہنچ جاتے ہیں ، آپ نیٹ ورک کو مطلق پوزیشنوں کے استعمال کے بغیر مقصد کی اعلی سطحی نمائندگی کو سراغ لگانے کی اجازت دیتے ہیں ، اسی طرح اعلی ترتیب کی نمائندگی بھی کرتے ہیں موٹر تسلسل جو ایک سادہ سی تقلید نہیں ہے۔ بولی ابتدائی فن تعمیر تربیت کو متعلقہ انداز میں ڈھانچے میں ترمیم کرنے کی اجازت دیتا ہے ، اور یہ تربیت یافتہ ڈھانچہ حتمی فنکشن کا مطلب ہے۔

مقاصد

بلاک اسٹیکنگ نمونہ کے لئے ان کے پاس بہت سی رکاوٹیں تھیں وہ چاہتے تھے کہ ان کا سیکھنے کا ایجنٹ مل سکے۔

ٹاسک مثالوں پر اطلاق کرنا آسان ہونا چاہئے جس میں مختلف بلاکس کی تعداد موجود ہے۔
اسے فطری طور پر ایک ہی کام کے مختلف اجازتوں کو عام کرنا چاہئے۔ مثال کے طور پر ، پالیسی کو ٹاسک c dcba on پر اچھی کارکردگی کا مظاہرہ کرنا چاہئے ، چاہے اس کو صرف ٹاسک {abcd on پر ہی تربیت دی جائے۔
اس میں متغیر لمبائی کے مظاہروں کو ایڈجسٹ کرنا چاہئے۔

ان کے پاس متعدد سوالات تھے جو وہ اس کام کے لئے جواب چاہتے ہیں۔

سلوک کی کلوننگ کی تربیت DAGGER سے کیسے موازنہ کرتی ہے ، بشرطیکہ کافی ڈیٹا آف لائن جمع کیا جاسکے۔
حتمی ترتیب میں کام کو مکمل طور پر واضح کرنے کے ل enough کافی معلومات کے باوجود بھی حتمی مطلوبہ ترتیب کے کنڈیشنگ کا موازنہ پورے مظاہرے میں کنڈیشنگ سے کیا ہوتا ہے؟
پورے مظاہرے پر کنڈیشنگ کا استعمال کس طرح رفتار کے ایک "اسنیپ شاٹ" کنڈیشنگ سے کیا جاتا ہے ، جو فریموں کا ایک چھوٹا ذیلی سیٹ ہے جو انتہائی معلوماتی ہے
کیا ہمارا فریم ورک اس قسم کے کاموں کو کامیابی کے ساتھ عام کرسکتا ہے جو اس نے تربیت کے دوران کبھی نہیں دیکھا تھا؟ (++)
اس طریقہ کار کی موجودہ حدود کیا ہیں؟

فن تعمیر

ذرہ تک پہنچنا

اس پہلی مثال کے ل they انہوں نے لانگ شارٹ ٹرم میموری (LSTM) نیورل نیٹ ورکس پر مبنی تین فن تعمیروں کا موازنہ کیا۔ ان نیٹ ورک کی تفصیل مستقبل میں میموری اور توجہ کے بارے میں ایک پوسٹ میں جائے گی ، جو علمی اور کمپیوٹیشنل علوم میں بالکل دلچسپ مضامین ہیں۔ خلاصہ یہ ہے کہ ایل ایس ٹی ایم نے ہر نئے وقت پر نیٹ ورک کے ان پٹ کے حصے کے طور پر پچھلے نیٹ ورک کے آؤٹ پٹس (وقت کے ساتھ) کو کھانا کھلانا ، جس کی وجہ سے ماضی کی ریاستوں کی معلومات موجودہ کو مطلع کرسکتی ہیں (لہذا ان کا نام مختصر مدتی میموری نیٹ ورک ہے)۔ وہ ٹائم سیریز (الیکسا ، سری وغیرہ) سے نمٹنے والی بہت سی جدید ترین ٹکنالوجیوں کی جڑ میں ہیں۔

یہاں وہ وہ تین مخصوص شرائط استعمال کرتے ہیں۔

  1. سادہ ایل ایس ٹی ایم: رفتار اور موجودہ حالت کو ایمبیڈ کرنا سیکھتا ہے تاکہ اسے ملٹی لیئر پرسیٹرون کو کھلایا جائے جو موٹر ایکشن تیار کرے گا۔
  2. LSTM توجہ کے ساتھ: رفتار کے مقامات پر ایک اونچی نمائندگی پیش کریں
  3. توجہ کے ساتھ حتمی حالت: صرف آخری ریاست کی تربیت میں استعمال کریں تاکہ نشانات سے زیادہ وزن پیدا ہوسکے ، پچھلے فن تعمیر کی طرح

اسٹیکنگ کو مسدود کریں

اگرچہ ، اصولی طور پر ، ایک عمومی اعصابی نیٹ ورک مظاہرے اور موجودہ مشاہدے سے لے کر مناسب کارروائی تک کی تعریفیں سیکھ سکتا ہے ، ہمیں ایک مناسب فن تعمیر کا استعمال ضروری معلوم ہوا۔ سیکھنے کے لئے ہماری فن تعمیر اسٹیکنگ اس مقالے کی ایک اہم شراکت ہے ، اور ہمیں یقین ہے کہ یہ اس نمائندے کی نمائندگی کرتا ہے کہ مستقبل میں اس سے زیادہ پیچیدہ کاموں کی مشابہت سیکھنے کے لئے کیا نمونہ مل سکتا ہے۔

توجہ کے ماڈیولز

اس کام کو سیکھنے کے ل used استعمال کیے جانے والے نیٹ ورک کی ساخت کو بیان کرنے میں مضمون نسبتا high اعلی سطح پر ہے۔ فن تعمیر کا ایک اہم جزو ان کی توجہ کا ماڈیول ہے ، لیکن مجھے یقین ہے کہ اس مضمون کو اس کے ضروری کردار کے بارے میں تفصیل سے ڈیل کرنے کے لئے ایک خاص پوسٹ کی ضرورت ہے۔ روانی توجہ کے علمی سائنس کے تصور سے مشابہت کے ذریعہ ، توجہ کے ماڈیولز جگہ اور وقت کے مختلف حص .وں میں موجود متعلقہ معلومات پر قائم رکھنے اور فوکس کرنے کے لئے استعمال ہوتے ہیں۔ یہ ایک مقررہ سائز کی پیداوار تیار کرتا ہے جس میں معلوماتی مواد کا سرایت ہوتا ہے جس میں وقت اور جگہ میں پھیلا ہوا ہوتا ہے۔ ٹوپوالوجی سے مشابہت کے ذریعہ ، ریاضی کی ایک شاخ جس کا مجھے یقین ہے کہ مستقبل میں ہم تقسیم شدہ نمائندگی کو کس طرح سمجھتے ہیں اسے بڑی حد تک آگاہ کرے گا ، ایک توجہ کا نیٹ ورک معلومات ، ایک ہی گھماؤ ، مختلف شکل کی ایک ٹاپولوجیکل آئسومورفزم کو انجام دیتا ہے۔ نوٹ کریں کہ یہ نیٹ ورک غیر متوقع یا غیر معمولی واقعات پر توجہ مرکوز کرنے کے قابل نمایاں سراغ رساں کا کردار ادا نہیں کرتا ہے ، جو نیورو سائنس میں توجہ کے تصور سے وابستہ ایک فنکشن ہے۔

یہاں وہ دو طرح کے توجہ دینے والے نیٹ ورک کا استعمال کرتے ہیں: الف) ایک دنیاوی توجہ کا نیٹ ورک جو میموری میں محفوظ کردہ مواد (سوال ، سیاق و سباق اور میموری ویکٹر) سے زیادہ وزن پیدا کرتا ہے ، اور ب) پڑوس کی توجہ کا نیٹ ورک جو بلاک سے متعلق معلومات کو بازیافت کرنے کے قابل ہے ایجنٹ کی موجودہ استفسار پر منحصر مقامات۔

عارضی توجہ نیٹ ورک ، c کے ساتھ: سیاق و سبق ، م: میموری ویکٹر ، ق: استفسار ویکٹر ، v: سیکھا ہوا ویکٹر وزن۔ آؤٹ پٹ میموری ویکٹر کی طرح ہی سائز کا ہے۔ یہ ان ویکٹر کا ایک خط کا مجموعہ ہے جو کچھ میموری ویکٹر کو سیاق و سباق اور استفسار ویکٹر کی بنیاد پر آؤٹ پٹ پر زیادہ اثر ڈالنے کی اجازت دیتا ہے۔یہاں ایک ہی نظریہ ، مقامی معلومات کے مابین مقابلہ توجہ نظام کے ذریعہ متحرک برقرار رکھا جاتا ہے۔

پالیسی نیٹ ورک

مکمل نیٹ ورک تین مختلف ذیلی نیٹ ورکس پر مشتمل ہے: مظاہرہ نیٹ ورک ، سیاق و سباق کے نیٹ ورک ، اور ہیرا پھیری نیٹ ورک۔

مظاہرے کا نیٹ ورک ایک مظاہرے کا راستہ ان پٹ کے بطور وصول کرتا ہے ، اور پالیسی کے ذریعہ استعمال ہونے والے مظاہرے کی ایک سرایت تیار کرتا ہے۔ مظاہر کی لمبائی کے ساتھ ساتھ ماحول میں بلاکس کی تعداد کے طور پر اس سرایت کرنے کا سائز خطوط سے بڑھتا ہے۔

جیسا کہ یہاں دکھایا گیا ہے کہ مظاہرہ نیٹ ورک مختلف پیچیدگیوں اور سائز کے مظاہرے کو ایک عام شکل میں شامل کرنے کے قابل ہے جسے سیاق و سباق کے نیٹ ورک کے ذریعہ کام کی نمائندگی کرنے کے لئے استعمال کیا جائے گا۔ یہ شاید اس سطح پر ہی ہے کہ پہلے سے ہی عمومیتا پیدا ہوتا ہے ، مظاہرے میں سراغ لگانے والے مکعب اور مکعب مطلق پوزیشنوں کے بارے میں معلومات چھوڑ دینا چاہئے۔

سیاق و سباق کے نیٹ ورک کی ساخت کو دیکھتے ہوئے ، اگرچہ بہت ہی اعلی سطح سے ، ہم مظاہرے کے نیٹ ورک کے ساتھ انٹرفیس دیکھتے ہیں جس نے مرکزی عارضی توجہ کے ماڈیولز میں مظاہرے کو سرایت میں کھڑا کیا ہے۔ ہم یہ بھی دیکھتے ہیں کہ پچھلے اقدامات (LSTM) اور موجودہ حالت کو موٹر نیٹ ورک کو بھیجے جانے والے عالمی تناظر میں پیدا کرنے کے ل the مظاہرے کے ساتھ سودے ہوئے ان پٹ کو کھلایا جاتا ہے۔

نیٹ ورکس کے فنکشن کے بارے میں ان کی تفصیل کاغذ کا سب سے اہم حصہ میری رائے میں ہے۔

سیاق و سباق کا نیٹ ورک موجودہ سوال کی حیثیت سے کوئوری ویکٹر کی گنتی کرتے ہوئے شروع ہوتا ہے ، جو اس کے بعد مظاہرے میں سرایت کرنے والے مختلف وقت کے مراحل میں شرکت کے لئے استعمال ہوتا ہے۔ ایک ہی وقت میں مختلف بلاکس پر زیادہ توجہ دینے کا وزن ایک ساتھ جوڑا جاتا ہے ، تاکہ ہر وزن میں ایک مرتبہ وزن پیدا ہوسکے۔ اس دنیاوی توجہ کا نتیجہ ایک ویکٹر ہے جس کا سائز ماحولیات میں موجود بلاکس کی تعداد کے متناسب ہے۔ اس کے بعد ہم ہر بلاک کے سرایت سے متعلق معلومات کو پھیلانے کے لئے محلے کی توجہ کا استعمال کرتے ہیں۔ اس عمل کو متعدد بار دہرایا جاتا ہے ، جہاں ریاست ایل ایس ٹی ایم سیل کا استعمال کرتے ہوئے بغیر وزن کے ساتھ ترقی کرتی ہے۔
کارروائیوں کا پچھلا تسلسل ایک سرایت پیدا کرتا ہے جس کا سائز مظاہرے کی لمبائی سے آزاد ہے ، لیکن اس کے باوجود بلاکس کی تعداد پر منحصر ہے۔ اس کے بعد ہم طے شدہ جہتی ویکٹر تیار کرنے کے لئے معیاری نرم توجہ کا اطلاق کرتے ہیں ، جہاں میموری کا مواد صرف ہر بلاک کی پوزیشن پر مشتمل ہوتا ہے ، جو روبوٹ کی ریاست کے ساتھ مل کر ہیرا پھیری کے نیٹ ورک کو منتقل کردہ ان پٹ کو تشکیل دیتا ہے۔
بدیہی طور پر ، اگرچہ ہیرا پھیری کے عمل کے ہر مرحلے پر ماحول میں موجود اشیاء کی تعداد مختلف ہوسکتی ہے ، متعلقہ اشیاء کی تعداد کم اور عام طور پر طے ہوتی ہے۔ خاص طور پر بلاک کو ذخیرہ کرنے والے ماحول کے ل the ، روبوٹ کو صرف اس بلاک کی پوزیشن پر توجہ دینے کی ضرورت ہوگی جو وہ (سورس بلاک) لینے کی کوشش کر رہا ہے ، اور ساتھ ہی اس بلاک کی پوزیشن بھی جس پر وہ اوپر رکھنے کی کوشش کر رہی ہے۔ ہدف بلاک)۔ لہذا ، مناسب طریقے سے تربیت یافتہ نیٹ ورک مظاہرے میں اسی مرحلے کے ساتھ موجودہ حالت سے مماثلت لینا سیکھ سکتا ہے ، اور منبع کی شناخت اور ٹارگٹ بلاکس کا اظہار مختلف بلاکس پر نرم توجہ کے طور پر کیا جاتا ہے ، جو اس کے بعد اسی پوزیشن کو نکالنے کے لئے استعمال ہوتا ہے۔ ہیرا پھیری نیٹ ورک پر منتقل کیا جائے۔

جس طرح سے وہ اپنی تفصیل ختم کرتے ہیں وہی ایک ماہر سسٹم اپروچ سے سیکھنے کے نظام کے نقطہ نظر سے اے آئی ریسرچ کے موجودہ بہاؤ کی ایک عمدہ مثال ہے ، اور یہ اس بات پر بھی اشارہ کرتا ہے کہ دماغ نیچے کیسے تیار ہوا۔

اگرچہ ہم اس تشریح کو تربیت میں نافذ نہیں کرتے ہیں ، لیکن ہمارا تجربہ تجزیہ اس ترجمانی کی تائید کرتا ہے کہ سیکھی ہوئی پالیسی داخلی طور پر کیسے کام کرتی ہے۔

وہ نہیں جانتے کہ یہ کیسے کام کرتا ہے! وہ ایک ایسا ڈھانچہ تیار کرتے ہیں جو کچھ خاص کارکردگی کا مظاہرہ کرسکتے ہیں اور کچھ معلومات کو محفوظ کرنے کے ل that جو ہمارے خیال میں پہلے سے مفید ہیں ، اور اس کو تربیت فراہم کرتے ہیں جس کی امید ہے کہ پورا ڈھانچہ سیکھ جائے گا! مصنوعی ذہانت کی تحقیقات کا ایک قسم ہے جس میں عروج ہے ، ایک فن ہے ، اور یہ بھی ہے کہ علمی تلاش کو صحیح سمت میں لے جانے کا ایک طریقہ ہے۔ اور ایسا لگتا ہے کہ ان تمام جادوگروں نے اوپن اے ای کے لئے کام کر رہے ہیں۔

ان کے اپنے الفاظ میں ہیرا پھیری کا نیٹ ورک ایک آسان ترین ڈھانچہ ہے ، جس میں ملٹی لیر پیسیپٹرون کو کھلایا ہوا سیاق و سباق سے لے کر ، ایک موٹر ایکشن تیار کیا جاتا ہے۔

نتائج

نتائج اکثر ایسا حصہ ہوتے ہیں جس کے ل I مجھے خاصی دلچسپی نہیں ہے ، خاص طور پر حیرت انگیز طور پر شاندار تکنیکی کاغذات ان قسم کے لئے۔ میں تیزی سے آگے جاؤں گا ، اس لئے کہ یہ نقطہ نظر کام کرتا ہے ، یہ سخت کوڈڈ ماہر پالیسیوں کی طرح ایک درستگی کے ساتھ انجام دیتا ہے اور ، ان مخصوص طریقہ کار کے برخلاف ، کاموں کی ایک بڑی صف میں عام ہے۔

ذرہ تک پہنچنا

بلاک اسٹیکنگ

ان تجربات میں انہوں نے مختلف حالتوں کا بھی تجربہ کیا۔ ڈاجر کا استعمال کرتے ہوئے انہوں نے مظاہرہ کردہ رفتار کو نیچے نمونے کے ذریعہ تین مختلف آدانوں کی حالت کا موازنہ کیا: مکمل ٹریکیکلسوری ، ٹریجوریٹری کا سنیپ شاٹ ، یا صرف حتمی حالت استعمال کرکے۔ انہوں نے مظاہرے کی مکمل رفتار کے ساتھ سلوک کلوننگ الگورتھم کا موازنہ بھی کیا۔

مکعب شناخت پر عام کرنے کی نظام کی قابلیت کا ایک مضبوط ثبوت

بحث

پچھلے مہینوں میں اوپنAIی کے ذریعہ کی جانے والی تیز رفتار پیشرفتوں کو پڑھتے ہوئے ، مجھے ان کے کام کے بارے میں بات کرنے اور ان کے کام پر کیا یقین ہے ، اور مجموعی طور پر اے آئی کے میدان میں ہونے والی پیشرفت کے بارے میں اپنے خیالات شیئر کرنے کی ایک بڑھتی ہوئی خواہش کو محسوس کرتا ہوں ، اور ہماری سمجھ سے آگاہ کریں کہ حیاتیاتی دماغ کام کرتے ہیں۔ خاص طور پر یہ بڑھتا ہوا خیال کہ انسانوں کے مابین بظاہر مشترکہ علمی افعال مشترکہ ڈھانچے کی وجہ سے اتنے زیادہ نہیں ہیں جو کسی کام کو انجام دینے کا تجربہ جانتا ہے ، بلکہ اس کی بجائے نسبتا similar اسی طرح کے بولی ڈھانچے کا نتیجہ ہے ، جو اسی ماحول کا سامنا ہے۔ اسی طرح کے کام انجام دینا سیکھیں۔ یہ فنکشن ایک بے کار ڈھانچے کا نتیجہ ہے جو کسی خاص ماحول کی بنا پر صرف کسی خاص کام کو سیکھنے کے قابل ہوتا ہے بجائے اس کے کہ وہ اس ڈھانچے کے بجائے جو کام کو گھریلو طور پر انجام دینے کے قابل ہو ، ماحول کو اپنانے کے لئے صرف پیرامیٹرز کے ایک جوڑے کو ٹویٹ کر رہا ہو۔

کام کے مقابلے میں تشکیلات: ایک بظاہر صوابدیدی تعریف

مجھے اعتراف کرنا ہوگا کہ مجھے سمجھ نہیں آرہا ہے کہ انہوں نے مختلف کاموں کے بارے میں جس طرح انھوں نے بات کی اس کا انتخاب کیوں کیا۔ بلاک اسٹیکنگ کے تجربے میں کسی کام کی تعریف تار کے ایک سیٹ کے طور پر ہوتی ہے جس میں ایک دوسرے سے نسبت والے بلاکس کی پوزیشن کی نمائندگی ہوتی ہے ، سیٹ میں عناصر کی تعداد اسٹیک کی تعداد اور کرداروں کی تعداد کی وضاحت کرتی ہے جس کو ترتیب دینے کی ضرورت ہے . اس کے بعد اسٹیک کی مطلق پوزیشن سے قطع نظر ، اسٹیکس میں بلاکس کا انتظام ایک کام ہے۔

کچھ بلاکس میز پر ہوسکتے ہیں لیکن اس کام کا حصہ نہیں ہیں

علیحدہ کام کے معیار کے مطابق نسبتہ پوزیشن اور ڈھیروں کی تعداد کی وضاحت کرنے کا ان کا انتخاب صوابدیدی لگتا ہے۔ درحقیقت ، بلاکس کی مطلق شروعاتی پوزیشنوں (جس کو وہ ترتیب دینے سے تعبیر کرتے ہیں) کی بنیاد پر مختلف کاموں کے بارے میں بات کرنا بھی سمجھ میں آسکتے ہیں۔ مجھے یقین ہے کہ مسئلہ کی عام نوعیت ان کے لئے عیاں ہے ، لیکن واضح مقاصد کے لئے وہ تفصیلات میں جانے کو ترجیح نہیں دیتے ہیں۔ پالیسی سیکھنے کو دو طرح کی عمومی حیثیتوں ، جس طرح بعد میں وہ کرتے ہیں ، تشکیل دینے میں زیادہ معنی نہیں ہے۔

نوٹ کریں کہ عام کاری کا اندازہ متعدد سطحوں پر کیا جاتا ہے: سیکھی گئی پالیسی کو نہ صرف نئی تشکیلوں اور پہلے ہی دیکھے گئے کاموں کے نئے مظاہروں کو عام کرنے کی ضرورت ہے ، بلکہ نئے کاموں کو بھی عام کرنے کی ضرورت ہے۔

بس "اسٹیک آرڈرنگز" کے ذریعہ "کاموں" کو تبدیل کریں۔ کام کو صحیح طریقے سے سیکھنے کا مطلب یہ ہے کہ ایجنٹ کیوب (پوزیشن) کی پوزیشن کو خلاصہ کرنے کے قابل ایک ایمبیڈنگ سیکھتا ہے ، بلکہ ان کی شناخت (ٹاسک) ، ڈھیروں کی تعداد (ٹاسک) ، اور مظاہرے کی رفتار (جس میں مختصر طور پر پیش کیا گیا تھا) حوالہ) متعلقہ موٹر ردعمل پیدا کرنے کے لئے۔

وہ عام باتیں متضاد معلوم ہوتی ہیں ، وہی نیٹ ورک مکعب کی ابتدائی ترتیب یا ان کی شناخت کو کس طرح ختم کرسکتا ہے اور پھر بھی موٹر ردعمل کے ل their ان کی مطلق پوزیشن کو بازیافت کرسکتا ہے؟

یہ سیکھنے کے دوران مختلف کوآپریٹو سب نیٹ ورکس کی ضرورت کی وضاحت کرتا ہے ، مختلف آدانوں کو حاصل کرتے ہیں ، اور اس کی وضاحت کرتی ہے کہ سیاق و سباق میں نیٹ ورک میں کام کی ایک خلاصہ نمائندگی کو نزولی حکم سے پہلے کم کی معلومات ، جیسے کیوب مطلق پوزیشنوں کو کھلایا جاتا ہے۔

آپ سوچ سکتے ہیں کہ کام اور ترتیب کے اس امتیاز پر تبصرہ کرنا بیوقوف ہے ، لیکن یہ سمجھنا ضروری ہے کہ مختلف چیزوں پر کھیل کے وقت خلاصہ کرنے کا وہی عمل ہے (اور یہ مندرجہ ذیل حصے کے لئے کھلتا ہے)۔

کوئی جارحیت کے بغیر سیکھنے نہیں ہے

منتقلی سیکھنا شاید ادراک کا سب سے دلچسپ تصور ہے چاہے وہ ان سلیکو ہو یا ان ویوو ، یہ AI محققین اور نیورو سائنسدانوں دونوں کے لئے ایک بہت ہی گرم موضوع ہے ، اور ایسا ہوتا ہے کہ یہ میرے پی ایچ ڈی تھیسس کا موضوع بنتا ہے۔ نوٹ کریں کہ مشین سیکھنے سے پہلے بہت سے شعبوں میں قریب سے متعلقہ تصورات کی کھوج کی گئی ہے ، اور اس تجریدی اور ہمیشہ جزوی طور پر بیان کردہ تصور کے بہت سے نام ہیں۔ فلسفی ، ماہر بشریات اور ماہر معاشیات اس کو (پوسٹ-) ساختی ڈھنگ (کلاڈ لیوی-اسٹراس ، مشیل فوکولٹ) کے طور پر حوالہ دیتے ہیں ، لسانیات سنتگما اور نیسٹڈ ٹری ڈھانچے (نوم چومسکی) کے بارے میں بات کریں گے ، ریاضی دان شاید ہومومورفزم یا انجیرینٹ اور تعلیم کے بارے میں سوچیں گے۔ محققین یا نیورو سائنسدان اسے اسٹرکچرل لرننگ کے طور پر حوالہ دے سکتے ہیں۔ آپ مشین سیکھنے کے شعبے میں متعلقہ تصور بھی دیکھ سکتے ہیں جیسے نمائندگی سیکھنے اور میٹا لرننگ ، جو مصنف پر انحصار کرتے ہوئے ٹرانسفر لرننگ یا ٹرانسفر لرننگ کو انجام دینے کے ل used سیکھنے کی تمثیل کا حوالہ دے سکتا ہے۔ جب ڈیپ نیورل نیٹ ورکس کے بارے میں بات کرتے ہو تو یہ اختلافات دھندلا پن ہوجاتے ہیں ، جیسا کہ بنیادی طور پر ایک نیورل نیٹ عام طور پر شور والے ماحول میں اس کے ڈھانچے (میٹا لرننگ) میں ترمیم کرکے کسی خاص مسئلے (نمائندگی لرننگ) کو سرایت کرنا سیکھ رہا ہے جو منتقلی سیکھنے کی ایک شکل کو ظاہر کرتا ہے۔

اے آئی کے محققین اور علمی سائنسدان کی منتقلی سیکھنے کی اکثر ٹھوس تعریف ہوتی ہے ، یہ وہ عمل ہے جو نظام کو کسی خاص کام میں حاصل کردہ علم کو مشترکہ ساختی ڈھانچے کا اشتراک کرنے والے ایک اور کام کو انجام دینے کی اجازت دیتا ہے (جیسا کہ مضمون میں بیان کیا گیا ہے)۔ علمی سائنس قریب اور دور کی منتقلی کا یہ خیال رکھتی ہے ، اس بات پر انحصار کرتا ہے کہ یہ دونوں کام کیسے مختلف ہیں۔ لیکن زیادہ خلاصہ نقطہ نظر سے ، ایک شور اور پیچیدہ ماحول میں ، تمام سیکھنے کی منتقلی سیکھنے کی ایک شکل ہے اور بہت قریب اور بہت دور کی منتقلی کے درمیان فرق صرف مشترکہ معلومات کا معاملہ ہے - پھر نوعیت کا نہیں پیمانے کا معاملہ ہے۔

کنٹرول شدہ ماحول میں ، حقیقت کے ایک سخت کوڈڈ ڈس ایگریسیشن کو بنانے کے لئے پہلے ہی کوششیں کی جاتی ہیں ، لیکن حقیقت یہ ہے کہ اس فتنہ انگیزی نے اس عمل کو باقاعدہ طور پر دوبارہ پیش کیا جو منتقلی سیکھنے سے ہوتا ہے ، یہ ایک مشترکہ ڈھانچے کے تحت حقیقت میں پائی جانے والی لامحدود ریاستوں کو جوڑ دیتا ہے۔ مختصرا Trans ٹرانسفر لرننگ سے مراد اس عمل میں براہ راست یا توسیع ہوتی ہے جس کے ذریعے سیکھنے کے ایجنٹ دنیا کے ماڈل تیار کرنے کے لئے حملہ آوروں کا استعمال کرتے ہیں۔ یہ ایک ایسا عمل ہے جس میں مماثلت ، تکرار اور اس کی مختلف حالتوں کو بروئے کار لاتے ہوئے تیزی سے تجریدی اور مرتب نمائندگی تشکیل دی جاتی ہے جو ان پٹ کے ذریعہ تغیر کے دورانیے پر جوڑ پڑے گی۔ عام معنوں میں یہ بنیادی کاموں کو تخلیق کرنے کی اجازت دیتا ہے جس کے ذریعے ہم انفارمیشن گروپس کو جوڑتے ہیں ، جیسے ریاضی کی طرح یہ یونین اور چوراہوں کی اجازت دیتا ہے۔ یہ شناخت کی اجازت دیتا ہے ، اس میں اشیاء کی درجہ بندی کرنے کی ہماری صلاحیت کی وضاحت کی گئی ہے۔ جوش تینامبم نے ایک مثال دی ہے جس نے واقعی مجھ سے بات کی تھی: تصور کریں کہ آپ ایک دو سال کے بچے کو پہلی بار گھوڑے کی پہچان کرنا سکھا رہے ہیں ، آپ اسے مختلف گھوڑوں کی ایک دو تصویر دکھاتے ہیں اور پھر آپ اسے دوسرے گھوڑے کی تصویر دکھاتے ہیں اور کسی گھر کی تصویر اور اس سے پوچھیں کہ آپ کو بتائے کہ کون سا گھوڑا ہے۔ ایک بچہ یہ کام بہت آسانی سے کرے گا لیکن یہ اب بھی کچھ ہے جس میں کمپیوٹر بہت کم ان پٹ (ون شاٹ لرننگ) کے ساتھ اچھا کام نہیں کرسکتا ہے۔

بچے نے یہ کیسے کیا؟

جانوروں کی پہچان کا مطالعہ بچوں میں کیا گیا ہے اور متعلقہ حصوں ، کھال کی رنگین حد ، گردن کے سائز ، مجموعی شکل وغیرہ میں اشیاء کی تزئین و آرائش کرنے کی ہماری قابلیت سے متعلق ہے۔ یہ قابلیت بھی آپ کو ایک دروازہ کھولنے کی اجازت دیتی ہے اس سے پہلے کبھی نہیں دیکھا ہوگا ، آپ نے موٹر سیکنس سیکھا ہو گا جو کسی بھی صورتحال (ڈومین جنرللائزیشن) کو عام کرتا ہے۔ یہ وہی چیز ہے جو آپ دنیا کو آسان بنانے والے وضاحتی ماڈل تیار کرنے کے لئے استعمال کرتے ہیں ، سوئس گھڑی کی ایک مشہور گھڑی میں اچانک کوکلی کی اچھ appی حرکت سے آپ واقعتا. حیرت زدہ ہو سکتے ہیں ، لیکن دوسری نمائش کے بعد آپ اس کی توقع کریں گے۔ جارحیت کا پتہ لگانا یہ ہے کہ اعصابی نیٹ ورک کس طرح سیکھتا ہے اور وہ ماڈل غیر شعوری طور پر بنائے جاتے ہیں۔ ایک مثال یہ ہے کہ ہم ریاضی اور اعداد کی تعداد سننے سے پہلے ہی طبیعیات کے بارے میں کس طرح بدیہی طور پر سیکھتے ہیں۔

ایک مثال کے طور پر پوچھ سکتا ہے کہ مائکروگراوٹی میں پیدا ہونے والا بچہ زمین کی کشش ثقل کے مطابق کتنا تیز رفتار اپنائے گا اور بدیہی طور پر یہ سیکھے گا کہ جب چیزیں گرا دی جائیں گی تو وہ زمین پر گر پڑیں گی؟

ہم یہ قیاس کرسکتے ہیں کہ نوزائیدہ بچے اور بیشتر جانور اپنے ماڈل کو غیر شعوری طور پر تبدیل کریں گے ، جیسے آپ جب کتے کے پنجوں پر موزے ڈالتے ہیں اور نئی معلومات کو اپنانے میں کچھ وقت لگتا ہے۔

لیکن ایک چھوٹے بچے کے لئے زبان ، علامتوں اور عقائد کے ذریعے ، تجسس سے لے کر ، اس کے بدیہی ماڈل کی شعوری تفتیش اور اس پر نظر ثانی ہوگی۔ ہمارے ماڈلز کو شعوری طور پر پوچھ گچھ کرنے اور ان میں تبدیلی کرنے کی ہماری صلاحیت دلچسپ ہے ، اور بطور سمت ، انسان واحد اس نوع کی ذات ہوسکتی ہے جو عمل کو زبانی بناسکتی ہے لیکن دوسری ذاتیں ہوش میں ایسی ہی نظرثانی کر سکتی ہیں۔

جارحیت وقت کی ایک واجب ملکیت ہے ، اگر ہر چیز ہمیشہ نئی ہوتی اور کسی بھی طرح سے پیش گوئی نہیں کی جاتی تو پھر بھی یہ انوکھا حملہ آور باقی رہ سکتا ہے کہ ہر چیز ہمیشہ نئی اور غیر متوقع ہوتی ہے۔ جارحیت کے بغیر کسی دنیا کا تصور کرنا ناممکن ہے ، کیوں کہ اس دنیا کا حوالہ دینے کے لئے کوئی ایسی دنیا نہیں ہوسکتی ہے ، کہ جارحیت کے بغیر زندگی ناممکن ہو اور ہمارے دماغ بیکار ہوں۔ زندگی ایک ایسی مشین ہے جو محض واقعات کی پیش گوئی تکرار ، اسباب اور اثرات کی تکرار ، حیاتیات میں چکlicل توانائی کی دوبارہ نو نوشت کے ذریعے کام کرتی ہے۔ اور ان ضروری چکروں کے استعمال کو بہتر بنانے کے لئے زندگی کی جستجو میں ، ہمارا دماغ ہی ایک آخری ٹول ہے۔ یہ ایک پیشن گوئی مشین ہے ، ایک انکولی عضو جو متحرک طور پر تکرار تلاش کرنے اور اسے دنیا کے ساتھ بہتر تعامل کے ل use استعمال کرنے کے قابل ہے۔

یہ طریقہ جس نے زندگی کا انتخاب کیا ہے وہ ساخت میں معمولی تبدیلیوں کے ل extremely انتہائی مضبوط ہے۔ جو چیز باقی رہتی ہے وہی ماحول ، ماحولیاتی اعدادوشمار کی خصوصیات ہے ، لیکن اس کا سامنا کرنے والا عصبی ڈھانچہ اس وقت تک مختلف ہوسکتا ہے جب تک کہ وہ اس سے متعلقہ معلومات کو سرایت کرسکتا ہے جس کے علاج میں یہ تیار ہوا ہے۔ اس سے یہ معلوم ہوتا ہے کہ کیوں ہمارے دماغ فرد سے فرد ، یہاں تک کہ پرائمری کورٹیکس سے اتنے مختلف ہوسکتے ہیں ، اور پھر بھی وہی افعال مشترک ہیں۔

اعصابی نظام انکولی ہیں ، متعلقہ طریقوں سے طرز عمل میں ردوبدل کے ل they انہیں ارتقاء اور سست جینیاتی تغیرات کی ضرورت نہیں ہے۔ ایک آسان اعصابی نظام ، جیسا کہ سی الیگنس میں پایا جاتا ہے ، یہ ایک اندرونی کوآرڈینیٹر اور بیرونی سینسر کا کام کرتا ہے: کھانے کو سمجھیں اور اس کی طرف بڑھیں ، درد سے بھاگیں ، دوبارہ پیدا کریں۔ ممکن ہے کہ ریاستوں کی ایک چھوٹی سی سیٹ (بائیں طرف کھانا ، نیچے گرمی وغیرہ) میں اس کی صراحت کرنے کے لئے یہ آسان سسٹم ابتدا میں سخت تھے اور ہماری انتہائی شور شرابہ کی دنیا کے انتہائی قریب ہونے کا مظاہرہ کررہے تھے۔ ہماری موٹر اور حسی صلاحیتوں نے ہماری اعصابی نظام کی پیش گوئی کی صلاحیتوں کے ساتھ مل کر ترقی کی۔ جب ہمارے سینسر زیادہ عین مطابق ہوگئے ، اعصابی نظام آہستہ آہستہ معلومات کو اسٹور کرنے اور تجربے سے سیکھنے کے ل its اپنے ڈھانچے میں ترمیم کرنے کے قابل ہوگیا۔ ابتدائی طور پر یہ ان پٹ کی کچھ اقسام ، جیسے بو کی طرح کی روشنی یا روشنی کے نمونوں کو پہچاننا سیکھنے میں کامیاب ہوگیا ، اور اپنے بڑھتے ہوئے پیچیدہ موٹر سسٹم کو کنٹرول کرنے کے لئے آزمائش اور غلطی کے ذریعے بھی سیکھنے میں کامیاب ہوگیا۔ نوٹ کریں کہ دنیا اتنی پیچیدہ ہے کہ فطری طور پر ہمارا دماغ ایک فطری طریقہ کار کے بجائے سیکھنے کے نمونے کی طرف تیار ہوا ہے۔ حسابی اعتبار سے یہ بات صحیح معنوں میں ہے ، گو کے ایک سادہ کھیل کی حالت کائنات میں ایٹموں کی تعداد (10⁸⁰) سے کہیں زیادہ (2،10¹⁷⁰) ریاست کی جگہ ہے ، اور جیسا کہ حیاتیات ہر ممکن حد کے ہارڈ کوڈ کے قریب ہونے کی کوشش کرنے میں زیادہ پیچیدہ ہوجاتے ہیں۔ امتزاجی دھماکے کی وجہ سے یہ تیز رفتار سے پیچیدہ ہوسکتا ہے۔

کچھ لوگوں کا خیال ہوسکتا ہے کہ ہمارا دماغ اس طرح سے تعمیر ہوا ہے کہ وہ اس جگہ کی نشاندہی کرتا ہے جس میں وہ تیار ہو رہا ہے ، کہ ڈی این اے میں کہیں بھی ایک جین ہوتا ہے جس کے لئے چہرہ ہوتا ہے ، یا آواز کی لہروں کی دنیاوی تنظیم جو تخلیق کرتی ہے الفاظ انھیں یقین ہوسکتا ہے کہ یہ فطری علم کہیں پیدائش کے وقت انکوڈ کیا ہوا ہے۔ دوسرے لوگ بھی یقین کر سکتے ہیں ، جیسے میرے فلسفے کے استاد کی طرح جب میں ہائی اسکول میں تھا ، تو اس کا وجود جوہر سے پہلے ہوتا ہے ، اور یہ کہ ہمارا دماغ مکمل اور مکمل طور پر حیاتیات اور دنیا کے تصادم سے متعین ہوتا ہے۔ حقیقت یہ ہے کہ حقیقت میں زیادہ پیچیدہ ہے ، اور اب تک بیشتر ٹیلنسفیلیٹک نظاموں کے لئے ، جن کا مطالعہ کیا گیا ہے ، دماغ فطری طور پر اس فنکشن کو انکوڈ نہیں کرتا ہے جو یہ انجام دے گا لیکن اس کی معلومات میں موجود معلومات پر انحصار کرتے ہوئے اسے سیکھ لے گا۔ اگر متعلقہ معلومات میں ان پٹ بہت کم ہے تو ، ان ڈھانچے میں سیکھنے کی گنجائش کی میعاد ختم ہونے کی تاریخ ہوسکتی ہے (جیسے امبلیوپیا)۔ لیکن اگر فطری ڈھانچہ حتمی کام کو ضابطہ نہیں دیتا ہے تو ، دماغ کا ایک خاص ڈھانچہ ہوتا ہے۔ یہ ڈھانچہ افراد میں محفوظ ہے ، اور ایک ہی نوع کے افراد مشترکہ کام اور ڈرائیوز کا اشتراک کرتے ہیں۔ ڈی این اے اپنی جگہ پر ایک خاص ڈھانچہ مرتب کرتا ہے ، ایک ایسا ڈھانچہ جس سے وہ اپنے آخری کام کو مکمل طور پر انجام نہیں دے پاتا ہے ، لیکن ایک ایسا ڈھانچہ جو انفرادی تجربے کی بنیاد پر مخصوص کاموں کی پیچیدگی سیکھنے کے قابل ہوتا ہے۔ یہ تعجب کی بات نہیں ہے کہ ارتقاء کے نتیجے میں ایک انتہائی موثر بلڈ دماغ رکاوٹ کو دور کرنے کے نتیجے میں دماغ کو جسم کے باقی حصوں سے الگ تھلگ کرنے کے ساتھ ساتھ مینجس اور ہڈی کی ہڈی کے خول سے بیرونی دنیا سے اس کی حفاظت ہوتی ہے ، کیونکہ دوسرے اعضاء کے برعکس جس میں اس ڈھانچے کو جینوم میں انکوڈ کیا جاتا ہے ، تربیت یافتہ دماغ کی ساخت کو پیدائشی طور پر ذخیرہ کرنے والے ماڈل سے دوبارہ پیدا نہیں کیا جاسکتا۔ دلچسپ بات یہ ہے کہ ہم تیزی سے پیچیدہ کاموں کو انجام دینے والے گہرے نیٹ ورک کی ترقی کے ذریعہ قابلیت کے ذریعہ پیدا ہونے والے ایک ہی سیکھنے کے طریقہ کار کو دیکھتے ہیں۔

ساختی ڈھانچے دیکھنا مشکل ہے لیکن ہر جگہ

بطور سیدھا یہ عجیب بات ہے کہ مصنفین بھی نہیں پہچانتے ہیں کہ ان کا پہلا کام ہدف تک پہنچنا ایک مرکب کا ڈھانچہ ہے۔

ذر reachingہ تکمیل تک پہنچنے والے کام ایک سادہ منظرنامے میں عمومی میں چیلنجوں کا بخوبی مظاہرہ کرتے ہیں۔ تاہم ، کاموں میں ساختی ڈھانچے کا اشتراک نہیں ہوتا ہے ، اور عام کاموں کی تشخیص کو نئے کاموں کے لئے مشکل بناتا ہے۔

اگرچہ یہ ڈھانچہ واقعی بلاک اسٹیکنگ کے مقابلہ میں نچلی سطح کی ہے ، اور تجرباتی ہیرا پھیری کے لئے آسانی سے قابل نہیں ہے ، لیکن یہ کام واقعی مشترکہ ڈھانچے پر مشتمل ہے۔ ایک طیارے سے دنیا کے قریب ، ایک تعمیری ڈھانچہ یہ ہے کہ مکعب شناخت (رنگ) ترجمہ کے ساتھ محفوظ ہے ، اور بلاک اے-یا بے ترتیب شروعاتی پوزیشن پر (Xa1 ، Ya1) بی کو بلاک کرنے کی جگہ پر (Xb1 ، Yb2) ) پوزیشن پر بلاک اے سے جانے کی بجائے اسی اعلی آرڈر کی ساختی ساخت کا حصہ ہے (Xa2، Ya2) پوزیشن پر B کو بلاک کرنا (Xb2، Yb2)۔

نیٹ ورکس کے مابین انٹرفیس

تجریدی سطح کے مختلف سطحوں پر آدانوں کا علاج کرنے کے قابل اعصابی نیٹ ورکس کی ایجنسی کو انٹرفیس کی ضرورت ہوگی ، جس کے بارے میں مجھے یقین ہے کہ اس کو تلاش کرنے کے لئے بہت کچھ باقی ہے۔ وہ انٹرفیس متعدد نوعیت کے ہوسکتے ہیں۔ وہ مثال کے طور پر دو نیٹ ورکس کے مابین ایک مشترکہ زبان کے طور پر دیکھا جاسکتا ہے ، جیسا کہ مضمون میں دکھایا گیا ہے ، ایک نچلی سطح کا نیٹ ورک ، جس میں توجہ کا نظام (مظاہرے کا نیٹ ورک) ہے ، کسی مظاہرے کو کسی نمائندے میں ترجمہ کرسکتا ہے جس میں کوئی اور نیٹ ورک (سیاق و سباق نیٹ ورک) استعمال کرسکتا ہے۔ مظاہرہ کی لمبائی یا ابتدائی ترتیب میں جو بھی کام ہو اسے براہ راست کارروائی کرنا

اس زبان کی سطح یہاں ایک طیارہ ہے ، جس کا سائز طے شدہ ہے ، لیکن کوئی بھی ممکنہ تبدیلیوں کا تصور کرسکتا ہے جو نیٹ ورک کے مابین مواصلات کو بہتر بنا سکتا ہے۔ مثال کے طور پر سطح کا سائز متحرک طور پر بڑھنے یا سکڑنے کے لئے مقرر کیا جاسکتا ہے کیونکہ سیکھنے کے دوران نیٹ ورک باہمی تعامل کرتے ہیں ، لہذا زبان کی پیچیدگی کو کم کرتے یا بڑھاتے ہیں۔ ہم مثال کے طور پر آراء کے ذریعے مزید متحرک بات چیت کا تصور بھی کرسکتے ہیں۔ ہم سہولت کار نیٹ ورکس کے وجود کا تصور کرسکتے ہیں جو نیٹ ورکس کے مابین ہم آہنگی پیدا کرنا سیکھ لے گا ، جو ایک متوازی نیٹ ورک کے طور پر موجود ہے جو دوسرے نیٹ ورک کے ان پٹ اور آؤٹ پٹ کی بنیاد پر پہلے نیٹ ورک کے ان پٹ کو ماڈیول کرنا سیکھتا ہے۔ ہم پیچیدہ سیاق و سباق کے نیٹ ورک کا تصور کرسکتے ہیں جو متعدد مزید مہارت والے نیٹ ورکس پر ٹانک (آہستہ سے مختلف) آمد کی حیثیت سے کام کرتے ہیں… مستقبل میں تحقیق کے دلچسپ شعبے!

ناکامی کے معاملات نئے ماڈیولز کے ممکنہ کردار کی نشاندہی کرتے ہیں

یہ بات قابل غور ہے کہ غلطیاں اکثر موٹر غلطیوں کی وجہ سے ہوتی ہیں ، اور یہ کہ کام کی پیچیدگی کے ساتھ غلطیوں کی تعداد بڑھ جاتی ہے۔

صرف اہداف کی تعداد میں اضافہ کرکے موٹر فنکشن کو خراب نہیں کیا جانا چاہئے ، یہ اس بات کا مضبوط ثبوت ہے کہ جس طرح سے پنروتپادن نیٹ ورک موٹر نیٹ ورک سے بات کرنا سیکھتا ہے وہ بالکل خلاصہ ہے۔ یہ عجیب بات ہے کیوں کہ ان کا کہنا ہے کہ ان کے ٹیسٹ سے پتہ چلتا ہے کہ سیاق و سباق کے نیٹ ورک اور موٹر نیٹ ورک کے درمیان انٹرفیس نسبتا concrete ٹھوس ہے (روبوٹ کی پوزیشن ، ہدف کی پوزیشن)۔

ممکنہ حل ہوسکتا ہے ، چونکہ یہ ایک ماڈیولر فن تعمیر ہے ، تاکہ نقصان کے مختلف افعال ، یا ہر ایک کے کام کے ایک مخصوص پہلو کی نمائندگی کرنے والے ماڈیولر نقصان افعال استعمال کریں۔ مظاہرے کی انشورینس کے ل the دماغ سے پہلے والے علاقوں کے مساوی حصے کی مدد سے بھی یہ مدد ملے گی اور موٹر کمانڈ کو خراب کیے بغیر سیاق و سباق نیٹ ورک خلاصہ رہ سکتا ہے۔ بہترین موٹر کمانڈ کو منتخب کرنے کے ل Prem پریموٹور ریجنز کو مقصد (خلاصہ نیٹ ورکس سے) اور حسی ان پٹس کی بنیاد پر اشیاء کو بہتر طور پر مقامی بنانا ضروری ہے۔ ایسا لگتا ہے کہ سیاق و سباق نیٹ ورک دونوں ہی مظاہرے کو اعلی درجے کی سرایت میں منتقل کرنے اور موجودہ تناظر میں موٹر ایکشن تیار کرنے کی کوشش کر رہا ہے۔ موٹر سے پہلے والے نیٹ ورک کا کردار یہ ہوگا کہ موٹر سسٹم کے ساتھ کسی مقصد پر مبنی اور انکولی انداز میں بات چیت کرنا سیکھیں ، جس میں موٹر سیکھنے اور تیز موافقت کے ل the پریموٹر اور سیربیلم دونوں کے امتزاج کو ملایا جا.۔

ایک دلچسپ نظریہ ہے ، موراوکس کا تضاد ، جس نے پیش گوئی کی ہے کہ یہ اعلٰی سطح کا ادراک نہیں ہوگا جو حسابی طور پر ٹیکس لگائے گا لیکن حسی ان پٹس اور موٹر سسٹم آؤٹ پٹس کا علاج۔ یہ واقعی ہمارے عمل سے متعلق کنٹرول پر قابو پانے کے ل cere ہمارے دماغی دماغ (ہمارے دماغ کے باقی حصوں کے مقابلے میں زیادہ) میں موجود نیورون کی بڑی مقدار کا محاسبہ کرسکتا ہے۔ یہ تضاد ایک ایسے وقت (80 کی دہائی) میں تیار کیا گیا تھا جب ہمیں اب بھی یقین تھا کہ ہم بے قابو شوروں والے ماحول میں پیچیدہ کام انجام دینے کے ل our اپنے اپنے علم کو مشین میں سرایت کرسکتے ہیں۔ یقینا this یہ تنازعہ سمجھ میں آجاتا ہے کہ اگر کسی طرح یہ مشین ریاستوں کے متزلزل سیٹ میں دنیا کی نمائندگی کرنے کے قابل ہو تو اس پر اعلی سطحی افعال کی تشکیل آسان ہوگی۔ لیکن مجھے یقین ہے کہ دونوں ہی انتہائی ٹیکس لگانے کا ثبوت دیں گے ، اور نیٹ ورکس کے مابین انٹرفیس میں داخلی نمائندگی ہماری اپنی شعوری نمائندگیوں سے ملنے والی کسی بھی چیز سے دور ہوگی۔

نتیجہ اخذ کرنا

اس مسئلے کے مخصوص علاج کے انچارج میں سے ہر ایک کو مختلف اعصابی نیٹ ورکس کو جوڑ کر ، یہ مضمون یہ ظاہر کرتا ہے کہ ایک ایسا کام تخلیق کرکے جس کو فطری طور پر عمومی کی ضرورت ہو ، اور ڈومین بے ترتیب کے ذریعہ سیکھنے کے مناسب ماحول کی تشکیل سے ، میموری اور اس تک رسائی کے ساتھ ایک عصبی نیٹ ورک توجہ کا نظام سادہ پنروتپادن سے باہر عام کرنا سیکھ سکتا ہے۔ یہ اعلٰی آرڈر کا ہدف ڈھونڈنا سیکھ سکتا ہے جو معلومات پر ایک مرتبہ بصری دھارے میں صرف ایک بار ظاہر ہوا ہے ، اور اس مقصد کو مختلف سیاق و سباق میں دوبارہ پیش کرنے کے قابل مناسب افعال کی بازیابی کے لئے عام جگہ میں حساب کتاب کرتا ہے۔

مستقبل میں ہم ان ایٹم بلڈنگ بلاکس پر تعمیر شدہ ڈھانچوں کی بڑھتی ہوئی پیچیدگی دیکھیں گے جو پیچیدہ کاموں کو عام کرنا سیکھ سکتے ہیں لیکن زیادہ اہم بات یہ ہے کہ نئے ماحول میں ایسے بہت سے کام انجام دیں جیسے سخت کوڈت طریقوں پر کم انحصار ہو جیسے آدانوں کی تیاری یا میموری اسٹوریج میموری اسٹوریج کی جگہ میموری نیٹ ورک میں تقسیم نمائندگی کے ذریعہ تبدیل کی جائے گی ، توجہ والے نظاموں کو ریئل ٹائم فوکیشنل نیٹ ورکس میں سائکلک سرگرمی سے تبدیل کیا جائے گا۔ اب بھی یہ سوال باقی ہے کہ ہم مجسم نظام میں تقسیم کمپیوٹنگ پر اپنے بڑھتے ہوئے انحصار کے لئے مضبوط سیریل ٹیکنالوجی (ٹورنگ مشینیں) کو کیسے اپنائیں گے۔