قد يبدو هذا تعريفا أولا سخيفا، وعادة ما يكون النص أو الصوت الخام / الإشارات التي يجب تحليلها بشكل أكبر لتصبح منظمة. كلما فتحت Excel (أو أي برنامج آخر لجداول البيانات)، معالجة الأشكال غير المنظمة للبيانات. علم البيانات هو فن وعلم اكتساب المعرفة من خلال البيانات. وهذا صحيح! يغطي علم البيانات الكثير من الأشياء التي ستستغرق صفحات لإدراجها جميعا (يجب أن أعرف، واستخدامها لاكتساب المعرفة، • إنشاء صناعات/منتجات جديدة بما في ذلك كيفية معالجة البيانات وجمع الأفكار واستخدام تلك الأفكار لاتخاذ قرارات وتنبؤات مستنيرة. يدور علم البيانات حول استخدام البيانات من أجل الحصول على رؤى جديدة كنت ستفتقدها لولا ذلك هذا هو السبب في أن علم البيانات لن يحل محل الدماغ البشري، لا ينبغي اعتبار علم البيانات حلا نهائيا لمشاكل بياناتنا؛ ولكن لماذا يجب أن يستلزم ذلك مجموعة جديدة كاملة من المفردات؟ ما الخطأ في أشكالنا السابقة من التحليل؟ أولا، الحجم الهائل للبيانات يجعل من المستحيل حرفيا على الإنسان تحليلها في وقت معقول. ضع في اعتبارك أننا نبحث في البيانات المتعلقة بتسعير السيارات المستعملة. إحدى خصائص السيارة هي السنة التي صنعت فيها وأخرى قد تكون عدد الأميال على تلك السيارة. بمجرد تنظيف بياناتنا (التي نقضي الكثير من الوقت في النظر إليها في هذا الكتاب)، وتظهر المعرفة التي كانت مدفونة ذات مرة في عمق ملايين الصفوف من البيانات ببساطة. أحد الأهداف الرئيسية لعلوم البيانات هو وضع ممارسات وإجراءات واضحة لاكتشاف هذه العلاقات وتطبيقها في البيانات. مثال - تقنيات سيجما الرئيس التنفيذي لشركة سيغما تكنولوجيز، تفقد الشركة باستمرار عملاء منذ فترة طويلة. إنه مقتنع بأنه من أجل الحد من تسربه، يجب عليه إنشاء منتجات وميزات جديدة، • "أين الزر الذي يصنع قائمة جديدة؟" نظم رونكل وهيون إصلاحا جماعيا لواجهة المستخدم / تجربة المستخدم ولم تكن مبيعاتهما أفضل من أي وقت مضى. يريد الرئيس التنفيذي المشترك اليوم اتخاذ جميع القرارات بسرعة وتكرار الحلول حتى ينجح شيء ما. يدور علم البيانات حول تطبيق مهارات العقل التحليلي واستخدامها كما يفعل السائق. فإن طريقة تفكير هاغون هي التي تهيمن على أفكار علم البيانات - باستخدام البيانات التي تولدها الشركة كمصدر للمعلومات بدلا من مجرد التقاط حل والذهاب معه. مخطط فين لعلوم البيانات من المفاهيم الخاطئة الشائعة أن الحاصلين على درجة الدكتوراه أو العباقرة فقط هم الذين يمكنهم فهم الرياضيات / البرمجة وراء علم البيانات. • الرياضيات/الإحصاء: هذا هو استخدام المعادلات والصيغ لإجراء التحليل • برمجة الكمبيوتر: هذه هي القدرة على استخدام التعليمات البرمجية لإنشاء نتائج على الكمبيوتر • معرفة المجال: يشير هذا إلى فهم مجال المشكلة (الطب والتمويل والعلوم الاجتماعية وما إلى ذلك) ضع في اعتبارك أنك ماهر جدا في الترميز ولديك تدريب رسمي في التداول اليومي. قد تقوم بإنشاء نظام آلي للتداول في مكانك ولكنك تفتقر إلى مهارات الرياضيات لتقييم خوارزمياتك، وبالتالي ينتهي بك الأمر إلى خسارة المال على المدى الطويل. فقط عندما يمكنك التباهي بالمهارات في الترميز والرياضيات ومعرفة المجال يمكنك أداء علم البيانات حقا. فقد يحتاج إلى مساعدة طبيب القلب لفهم الكثير من الأرقام. فهل من الأفضل إنشاء ملف PDF للمعلومات أو تطبيق حيث يمكنك كتابة الأرقام والحصول على تنبؤ سريع؟ يجب أن يتخذ عالم البيانات كل هذه القرارات. لاحظ أيضا أن تقاطع الرياضيات والترميز هو التعلم الآلي. يمكنك التنبؤ بالسرطان بدقة تزيد عن 99٪ استنادا إلى بيانات مرضى السرطان السابقة ولكن إذا كنت لا تفهم كيفية تطبيق هذا النموذج بالمعنى العملي بحيث يمكن للأطباء والممرضات استخدامه بسهولة،