نظرًا لأن التعلم البشري والحيواني يعتمد بشكل كبير على استكشاف العالم بشكل غير مُشرف، من المتوقع تحقيق تقدم كبير عبر أنظمة تجمع بين الشبكات العصبية التلافيفية (ConvNets) والشبكات العصبية التكرارية (RNNs) مع استخدام التعلم المعزز لتوجيه الانتباه الذكي إلى أجزاء معينة من الصورة. مثل هذه الأنظمة التي تُدرب بشكل متكامل تُظهر أداءً متفوقًا في التصنيف وتفوقت على الأنظمة التقليدية في المهام المتعلقة بالرؤية. من المتوقع أن تتحسن النماذج القائمة على الشبكات العصبية التكرارية (RNNs) بشكل كبير عند استخدامها استراتيجيات انتقائية تركز على أجزاء معينة من النصوص، هناك حاجة إلى نماذج جديدة لتحل محل الأنظمة التقليدية القائمة على القواعد الرمزية باستخدام العمليات على المتجهات الكبيرة، مما يمهد الطريق لابتكارات أعمق في مجالات مثل التعرف على الكلام والكتابة اليدوية.