Lakhasly

Online English Summarizer tool, free and accurate!

Summarize result (59%)

/10التنقيب عن البيانات الضخمة في المعلومات الحيوية: Big Data Mining
تكمن أساسيات المعلوماتية الحيوية ف إدارة التحليل والتعامل مع المجاميع الكبيرة من البينات الحيوية،* تهيئة قواعد بيانات تسمح بخزن وإدارة وإضافة وتجديد البيانات الحيوية.* تطوير الخوارزميات والبرمجيات التي تعمل على تحديد،* تفسير الأنماط التي تنتج من عملية تحليل الأنواع المختلفة من البيانات الحيوية (تواليات DNA
والتنقيب عن البيانات هي عملية استخراج معلومات مفيدة من بيانات كبيرة غير منظمة،البيانات أوراق أو ملخصات أو صفحات على شبكة الإنترنت أو رسائل بريد إلكتروني.غير منظمة أساسا، فإنه يتعين تمثيلها ف هيكل من نوع ما،النصوص،النصوص ( ،KDTوتتمثل صعوبة التنقيب عن البيانات ف المعلوماتية الحيوية والمصطلحات ف المجال الطبي
ليست متسقة ف العديد من المصادر،مجال المعلوماتية الحيوية، ويتم حل مشكلة الاستخدام الفعال للبيانات عن طريق استخدام تقنيات استخراج
PubMedحيث يتم تحليل
Peng, 2018وهذا من شأنه
المستخرجة.والمعالجة اللاحقة،وإزالة كلمات التوقف، وتقطيعه وتحويله إلى جمل منظمة، ليبقى ف النهاية الجزء الرئيسي من النص المستخدم ف
عملية التنقيب عن البيانات باستخدام نماذج تعلم الآلة أو الشبكات العصبية، وتتضمن خطوة ما بعد التجهيز
تفسير وتصور نتائج عمليات استخراج النصوص مهام التنقيب عن المعلوماتية الحيوية، ودور أخصائي المـكتبات والمعلومات:
2013
)1استرجاع المعلومات ( :)Information Retrievalتعني البحث عن المستندات ذات الصلة
بالاستعلام، يعد PubMed/MEDLINEمثا ًلا على نظام استرجاع المقالات العلمية ف مجال الطب الحيوي؛ )2تصنيف الوثائق ( :)Document Classificationتصنيف الوثائق هي مهمة تصنيف المستندات إلى
فئات موضوعية،تصنيف مقالات الدوريات حول ما إذا كانت تتعلق بجنين معين أم لا؟. عاد ًة ما يستخدم تصنيف المستندات
Caporaso, وأسماء الجينات،إلخ اللائحة
التي يتم تحديدها مسب ًقا، تشمل الكيانات التي يتم البحث عنها والتعرف عليها، والتي تسمى ""MetaMap
بأسماء الجينات الجديدة التي يتم صياغتها باستمرار، وأن العديد من الجينات لها أسماء أو مرادفات مختلفة، ومع
ذلك، فإن هذا النهج القائم على استخدام القوائم المسبقة أو المكانز (القوامسيس) يمكن أن يحقق نجا ًحا إذا
)4تطبيع الكيانات الحيوية ( :)Name Entity Normalizationتطبيع الكيان هي عملية البحث عن كيان
محدد ف قواعد البيانات الحيوية، ويتم إجراء تلك المهام على نطاق
واسع على الجينات والبروتينات،- المشكلة الأولى: العديد من أنواع الجينات لها نفس الاسم، وبالتالي، فإن العثور على الجين المناسب يتطلب معرفة الأنواع قيد المناقشة، وهي المشكلة البحثية
القائمة بحد ذاتها، والتي يرغب الباحث ف التعرف عليها.- المشكلة الأخرى: الجين الواحد قد يكون له أسماء متعددة، مثل: جين ( )TRP-1الذي يتواجد لدى
الجين لتحديد ماهية الجين المطلوب، من خلال المقارنة بين السياق ف النص وبين حقول البيانات: (العنوان،المستخلص، النص. أو الربط بين الجين المطلوب البحث عنه
)5استخراج المعلومات والعلاقات ( :)Relation & Information Extractionتعني عملية استخراج
فعلى سبيل المثال: استخراج المعلومات الجينومية، وتفاعلات البروتين، وعلاقات نقل البروتين، وموقع بداية البروتين المنقول، وتستخدم تلك المهمة
الأساليب المستندة بناء الجمل النموذجية، لكن
وبخاصة تحليل التبعية والعلاقة
Hunter, Lu & Firby,بين المعلومات
)6الإجابة على الاستفسارات ( :)Question-Answeringافترضت الأساليب المبتكرة أن العديد من
النصية. حيث إن الهدف هو إرجاع إجابة محددة،مستن ًدا يحتوي الإجابة، بينما يركز
استخراج المعلومات على احتياجات معلومات محددة للغاية، Lee & Kaufman, حيث وجد أن درجات الأسئلة تتفاوت
حيث يتم تحقيق أفضل النتائج مع الأسئلة "الواقعية ،"Factoidمثل :"أين"، ف حين أن
) (Zweigenbaum, 2003والأسئلة الزمانية
"متى" قد تتطلب أوقا ًتا لإجابتها. )7التلخيص ( :)Summarizationيعني أخذ مستند أو مجموعة من المستندات كمدخلات وإرجاع نص
أقصر، هناك حاجة كبيرة لهذه الإمكانية ف المجال الطبي الحيوي، وقد تم تطبيق التلخيص على مقالات
ومن أمثلة تلك الأنظمة التي تقوم بذلك نظام
2013) )MITRE'S MiTAP(
والتقارير الطبية، وف مجال
هناك العديد من النماذج المستتخدمة ف تلخيص الإنتاج الفكري الحيوي بما ينتج عنه معلومات تقوم
حر ًفا، تعمل على إدخال وظيفة الجين ف قاعدة بيانات .* ثانيها: نموذج ( )Edmundsonianوهو نهج يعمل على إعطاء الجمل الملخصة نقا ًطا (وز ًنا) وف ًقا
لمجموعة من المعايير النسبية، مثل: موضع الجملة ف الوثيقة، فالعنوان يختلف عن المستخلص وعن النص
كذلك نوع الجمل ما بين "الكلمات الجدلية "Cue Wordsالتي تشير إلى ارتباط الجملة بالنص،ويبقى التحدي هنا ف إيجاد أفضل جملة تعبر عن النص، كذلك الجمل التي تبرز بعض الحقائق حول عملية
مثل: "تأكيد تفاعل بروتين معين أم لا" من داخل النص"، ويتم التغلب على ذلك
بفكرة BioCreativeالمتمثلة ف اشتراك مجموعة من المقالات ف إثبات التساؤل ذاته، لتعطي أفضل دليل على
حدوث هذا التحليل (التفاعل،باستخدام خوارزميات معنية بذلك.نماذج من تطبيقات التنقيب عن البيانات الحيوية:
1) Biodoop - Bioinformatics on Hadoop:
أباتشي هادوب هو برنامج أو منصة برمجية مفتوحة المصدر مكتوبة بلغة ألجافا لتخزين ومعالجة البيانات
أي: تخزين البيانات الضخمة على عدة أجهزة ومن ثم توزيع عملية المعالجة على هذه
المعلوماتية الحيوية) التي تركز على التنفيذ الفعال للمهام ذات البيانات الحيوية الضخمة، وهو يتألف من
مكونات خاصة وتطبيقات متعلقة بعمليات تحليل المعلوماتية الحيوية، مما يجعلها مناسبة بشكل خاص لمعالجة مجموعات البيانات الكبيرة.Leo, Santoni & Zanetti, 2009)
من أمثلة التطبيقات التي تقوم بهذه الوظائف تطبيق تحليل النصوص LitMinerالذي أعد لتمكين
الكاملة، فيوفر التطبيق
التبديل بين التطبيقات المتعددة، ويتميز التطبيق بالاتي: )(Demaine, Martin & Wei, 2006
- إمكانية استيراد الملفات من قواعد البيانانات المتعددة،


Original text

/10التنقيب عن البيانات الضخمة في المعلومات الحيوية: Big Data Mining
تكمن أساسيات المعلوماتية الحيوية ف إدارة التحليل والتعامل مع المجاميع الكبيرة من البينات الحيوية،
لتكون قادرة على: )(Odebode, 2011



  • تهيئة قواعد بيانات تسمح بخزن وإدارة وإضافة وتجديد البيانات الحيوية.

  • تطوير الخوارزميات والبرمجيات التي تعمل على تحديد، وتحليل وإدارة البيانات.

  • تفسير الأنماط التي تنتج من عملية تحليل الأنواع المختلفة من البيانات الحيوية (تواليات DNA
    وتواليات RNAوالبروتينات).
    والتنقيب عن البيانات هي عملية استخراج معلومات مفيدة من بيانات كبيرة غير منظمة، قد يكون مصدر
    البيانات أوراق أو ملخصات أو صفحات على شبكة الإنترنت أو رسائل بريد إلكتروني...إلخ. وبما أن البيانات
    غير منظمة أساسا، فإنه يتعين تمثيلها ف هيكل من نوع ما، وإيجاد أنماط ف النص قبل تطبيق تقنيات استخراج
    النصوص، والمعلوماتية الحيوية أحد الحقول الرئيسية التي يتم استخدامها بشكل أساسي لاكتشاف المعرفة ف
    النصوص ( ،)KDTوتتمثل صعوبة التنقيب عن البيانات ف المعلوماتية الحيوية والمصطلحات ف المجال الطبي
    ليست متسقة ف العديد من المصادر، والاختصارات الغامضة تؤدي إلى صعوبة ف تنفيذ استخراج النصوص ف
    مجال المعلوماتية الحيوية، ويتم حل مشكلة الاستخدام الفعال للبيانات عن طريق استخدام تقنيات استخراج
    النصوص من الإنتاج الفكري المتاح ف المكتبات الرقمية (مثل: ،)Europe-PMC ،PubMedحيث يتم تحليل
    البيانات غير الهيكلية واستخراج معلومات مفيدة منها ) .(Peng, Mamitsuka & Zhu, 2018وهذا من شأنه
    أن يمكن لاكتشافات جديدة ف وقت أقل ومساعدة الخبراء ف التوصل إلى تشخيص واقعي بمساعدة المعلومات
    المستخرجة.
    التنقيب عن البيانات بشكل عام يحتوي على ثلاث خطوات: التجهيز المسبق، واستخراج النصوص،
    والمعالجة اللاحقة، ويتم تطبيق مرحلة ما قبل المعالجة ف التخلص من العديد من الكلمات غير المرغوب فيها،
    وإزالة كلمات التوقف، وتقطيعه وتحويله إلى جمل منظمة، ليبقى ف النهاية الجزء الرئيسي من النص المستخدم ف
    عملية التنقيب عن البيانات باستخدام نماذج تعلم الآلة أو الشبكات العصبية، وتتضمن خطوة ما بعد التجهيز
    تفسير وتصور نتائج عمليات استخراج النصوص مهام التنقيب عن المعلوماتية الحيوية، ودور أخصائي المـكتبات والمعلومات:
    هناك العديد من مهام استخراج النصوص ف مجال المعلوماتية الحيوية )(Cohen & Hunter, 2013
    نوجزها ف الاتي:
    )1استرجاع المعلومات ( :)Information Retrievalتعني البحث عن المستندات ذات الصلة
    بالاستعلام، يعد PubMed/MEDLINEمثا ًلا على نظام استرجاع المقالات العلمية ف مجال الطب الحيوي؛
    و Googleعبارة عن نظام استرجاع معلومات لصفحات الويب.
    )2تصنيف الوثائق ( :)Document Classificationتصنيف الوثائق هي مهمة تصنيف المستندات إلى
    فئات موضوعية، فمث ًلا قد يتطلب القائمون على قاعدة بيانات استخراج المعلومات المصنفة لكائن معني، أو
    تصنيف مقالات الدوريات حول ما إذا كانت تتعلق بجنين معين أم لا؟. عاد ًة ما يستخدم تصنيف المستندات
    مجموعات ميزات بسيطة للغاية، مثل: وجود أو عدم وجود الكلمات، ُتعرف باسم "حقيبة الكلمات Bag of
    (Caporaso, Baumgartner & Cohen, 2005) ."Words
    )3التعرف على الكيانات الحيوية ( :)Named Entity Recognitionتعني البحث عن فئات ذات
    دلالات محددة ف النص، مثل: الأشخاص، والأماكن والمنظمات، وأسماء الجينات، والبروتينات...إلخ اللائحة
    التي يتم تحديدها مسب ًقا، تشمل الكيانات التي يتم البحث عنها والتعرف عليها، والتي تسمى ""MetaMap
    وأشهر مثال على ذلك ".UMLS "Metathesaurusالا أن هناك مشكلات وتحديات تواجه هذا النهج تتعلق
    بأسماء الجينات الجديدة التي يتم صياغتها باستمرار، وأن العديد من الجينات لها أسماء أو مرادفات مختلفة، ومع
    ذلك، فإن هذا النهج القائم على استخدام القوائم المسبقة أو المكانز (القوامسيس) يمكن أن يحقق نجا ًحا إذا
    تعرضت تلك الأدوات إلى معالجة مسبقة واسعة النطاق.
    )4تطبيع الكيانات الحيوية ( :)Name Entity Normalizationتطبيع الكيان هي عملية البحث عن كيان
    محدد ف قواعد البيانات الحيوية، وإرجاع معرف يشير إليه ف المجال البيولوجي، ويتم إجراء تلك المهام على نطاق
    واسع على الجينات والبروتينات، إلا أن هناك مشكلتين رئيسيتين ف تطبيع الجينات: )(Armstrong, 2010



  • المشكلة الأولى: العديد من أنواع الجينات لها نفس الاسم، مثل: جين " "BRCA1الموجود ف عدد كبير
    من الحيوانات، وبالتالي، فإن العثور على الجين المناسب يتطلب معرفة الأنواع قيد المناقشة، وهي المشكلة البحثية
    القائمة بحد ذاتها، والتي يرغب الباحث ف التعرف عليها.

  • المشكلة الأخرى: الجين الواحد قد يكون له أسماء متعددة، مثل: جين ( )TRP-1الذي يتواجد لدى
    البشر منه خمس جينات بنفس الاسم ويبقى التحدي ف قيام القاموس بتحديد المصطلح المطلوب، فيستخدم هذا النهج السياق الذي يذكر فيه
    الجين لتحديد ماهية الجين المطلوب، من خلال المقارنة بين السياق ف النص وبين حقول البيانات: (العنوان،
    المستخلص، النص...الخ) لتسجيلات أخرى مرتبط ذكرها بهذا الجين، أو الربط بين الجين المطلوب البحث عنه
    وعلاقته بجين آخر دائم الذكر معه.
    )5استخراج المعلومات والعلاقات ( :)Relation & Information Extractionتعني عملية استخراج
    أنواع محددة من الحقائق، فعلى سبيل المثال: استخراج المعلومات الجينومية، وتفاعلات البروتين، والعلاقات بين
    الأمراض وعلاجاته، وعلاقات نقل البروتين، وموقع بداية البروتين المنقول، والوجه،. وتستخدم تلك المهمة
    الأساليب المستندة بناء الجمل النموذجية، فقد تتكون من حروف نصية أو قد تتضمن تحليلات نحوية، لكن
    الأساليب الحديثة نجحت ف استخدام الميزات المأخوذة من التحليل النحوي، وبخاصة تحليل التبعية والعلاقة
    (Hunter, Lu & Firby, 2008) .بين المعلومات
    )6الإجابة على الاستفسارات ( :)Question-Answeringافترضت الأساليب المبتكرة أن العديد من
    الإجابات على الأسئلة ف مجال المعلوماتية الحيوية، موجود ف مصادر المعلومات الحيوية (قواعد البيانات
    النصية.) تختلف مهمة إجابة الأسئلة عن استرجاع المعلومات، حيث إن الهدف هو إرجاع إجابة محددة، وليس
    مستن ًدا يحتوي الإجابة، والإجابة على الاستفسارات يهدف إلى السماح باستفسارات خاصة مفتوحة، بينما يركز
    استخراج المعلومات على احتياجات معلومات محددة للغاية، وقد تمت دراسة )(Yu, Lee & Kaufman, 2007
    للتنقيب عن البيانات باستخدام مهام الأسئلة ف المجال الطبي الحيوي، حيث وجد أن درجات الأسئلة تتفاوت
    من حيث الصعوبة، حيث يتم تحقيق أفضل النتائج مع الأسئلة "الواقعية ،"Factoidمثل :"أين"، ف حين أن
    "لماذا" من الأسئلة الصعبة للغاية لأنها تحتاج استنباط من النص، ) (Zweigenbaum, 2003والأسئلة الزمانية
    "متى" قد تتطلب أوقا ًتا لإجابتها.
    )7التلخيص ( :)Summarizationيعني أخذ مستند أو مجموعة من المستندات كمدخلات وإرجاع نص
    أقصر، هناك حاجة كبيرة لهذه الإمكانية ف المجال الطبي الحيوي، وقد تم تطبيق التلخيص على مقالات
    الدوريات ومجموعة متنوعة من أنواع المدخلات الأخرى. ومن أمثلة تلك الأنظمة التي تقوم بذلك نظام
    ،( الذي يقوم بتلخيص المستنداتDamianos, Zarrella & Hirschman, 2013) )MITRE'S MiTAP(
    والتقارير الطبية، والأخبار الرقمية والتليفزيونية والإذاعية للكشف عن الأوبئة وتفشي الأمرا،. وف مجال
    الجينوم، هناك العديد من النماذج المستتخدمة ف تلخيص الإنتاج الفكري الحيوي بما ينتج عنه معلومات تقوم
    بمقام تحليل المعلومات الحيوية والتفاعل فيما بينه أولها: نموذج ( )GeneRIFsالذي يعمل على استخراج فقرة نصية قصيرة يبلغ طولها أقل من 255
    حر ًفا، تعمل على إدخال وظيفة الجين ف قاعدة بيانات .PubMed



  • ثانيها: نموذج ( )Edmundsonianوهو نهج يعمل على إعطاء الجمل الملخصة نقا ًطا (وز ًنا) وف ًقا
    لمجموعة من المعايير النسبية، مثل: موضع الجملة ف الوثيقة، فالعنوان يختلف عن المستخلص وعن النص
    الأصلي، كذلك نوع الجمل ما بين "الكلمات الجدلية "Cue Wordsالتي تشير إلى ارتباط الجملة بالنص،
    والكلمات غير ذات العلاقة " "Stigma Wordsالتي تشير إلى أنه من غير المرجح أن تكون الجملة ملخصا جيدا.
    ويبقى التحدي هنا ف إيجاد أفضل جملة تعبر عن النص، كذلك الجمل التي تبرز بعض الحقائق حول عملية
    تحليل المعلوماتية الحيوية، مثل: "تأكيد تفاعل بروتين معين أم لا" من داخل النص"، ويتم التغلب على ذلك
    بفكرة BioCreativeالمتمثلة ف اشتراك مجموعة من المقالات ف إثبات التساؤل ذاته، لتعطي أفضل دليل على
    حدوث هذا التحليل (التفاعل،) وذلك بالنظر والبحث عن الإشارات والأشكال أو الجداول المشتركة
    باستخدام خوارزميات معنية بذلك.
    نماذج من تطبيقات التنقيب عن البيانات الحيوية:



  1. Biodoop - Bioinformatics on Hadoop:
    أباتشي هادوب هو برنامج أو منصة برمجية مفتوحة المصدر مكتوبة بلغة ألجافا لتخزين ومعالجة البيانات
    الضخمة بشكل موزع، أي: تخزين البيانات الضخمة على عدة أجهزة ومن ثم توزيع عملية المعالجة على هذه
    الأجهزة لتسريع نتيجة المعالج،. وبرنامج " "Biodoopهو مجموعة من الأدوات لعلم الأحياء الحسابي
    (المعلوماتية الحيوية) التي تركز على التنفيذ الفعال للمهام ذات البيانات الحيوية الضخمة، وهو يتألف من
    مكونات خاصة وتطبيقات متعلقة بعمليات تحليل المعلوماتية الحيوية، مثل: محاذاة التسلسل، وتعمل التطبيقات
    بشكل عام على واجهة برمجة تطبيقات Pydoopلـ Hadoopوهي مصممة لتتناسب بشكل جيد مع الحوسبة
    المتوفرة وكمية البيانات المطلوب معالجتها، مما يجعلها مناسبة بشكل خاص لمعالجة مجموعات البيانات الكبيرة.
    (Leo, Santoni & Zanetti, 2009)

  2. Litminer:
    من أمثلة التطبيقات التي تقوم بهذه الوظائف تطبيق تحليل النصوص LitMinerالذي أعد لتمكين
    البيولوجيين من استكشاف العلاقات بين الجينات الواردة ف الأبحاث المنشورة بقواعد بيانات النصوص
    الكاملة، فيتميز التطبيق بمجموعة من الواجهات التي تمكن المستخدمين من البحث ف قواعد البيانات المحلية،وقواعد بيانات PubMedوتحليل واستكشاف العلاقة بين الجينات الواردة ف تلك القواعد، فيوفر التطبيق
    مجموعة من الأدوات التى تمكن المستفيدين من التركيز على المعلومات (وصفا وتحليلا) ف تطبيق واحد بدلا من
    التبديل بين التطبيقات المتعددة، ويتميز التطبيق بالاتي: )(Demaine, Martin & Wei, 2006



  • إمكانية استيراد الملفات من قواعد البيانانات المتعددة، والتحكم ف النتائج.

  • تجميع نتائج البحث ف شكل هرمي بناء على التقسيم الموضوعي للكلمات المفتاحية.

  • التعرف على الجينات الواردة ف أدبيات الموضوع والمقارنة بينها، وتصوير العلاقات بين تلك الجينات -
    الواردة ف قواعد بيانات النصوص الكاملة - باستخدام الرسوم البيانية.

  • إمكانية التعديل ف مكنز المصطلحات بناء على ما يراه البحث مناسبا عند الإشارة إلى الجينات الواردة
    ف البحوث الحيوية


Summarize English and Arabic text online

Summarize text automatically

Summarize English and Arabic text using the statistical algorithm and sorting sentences based on its importance

Download Summary

You can download the summary result with one of any available formats such as PDF,DOCX and TXT

Permanent URL

ٌYou can share the summary link easily, we keep the summary on the website for future reference,except for private summaries.

Other Features

We are working on adding new features to make summarization more easy and accurate


Latest summaries

تتمثل المشكلة ا...

تتمثل المشكلة الرئيسية في كيفية تحقيق التوازن بين المساءلة وإعادة التأهيل في نظام عدالة الأحداث. في ...

نفيد بموجب هذا ...

نفيد بموجب هذا الملخص أنه بتاريخ 30/03/1433هـ، انتقل إلى رحمة الله تعالى المواطن/ صالح أحمد الفقيه، ...

العدل والمساواة...

العدل والمساواة بين الطفل واخواته : الشرح اكدت السنه النبويه المطهرة علي ضروره العدل والمساواة بين...

آملين تحقيق تطل...

آملين تحقيق تطلعاتهم التي يمكن تلخيصها بما يلي: -جإعادة مجدهم الغابر، وإحياء سلطانهم الفارسي المندثر...

Network archite...

Network architects and administrators must be able to show what their networks will look like. They ...

السيد وزير التر...

السيد وزير التربية الوطنية والتعليم الأولي والرياضة، يجيب عن أسئلة شفوية بمجلس النواب. قدم السيد مح...

حقق المعمل المر...

حقق المعمل المركزي للمناخ الزراعي إنجازات بارزة ومتنوعة. لقد طوّر المعمل نظامًا متكاملًا للتنبؤ بالظ...

رهف طفلة عمرها ...

رهف طفلة عمرها ١٢ سنة من حمص اصيبت بطلق بالرأس وطلقة في الفك وهي تلعب جانب باب البيت ، الاب عامل بسي...

قصة “سأتُعشى ال...

قصة “سأتُعشى الليلة” للكاتبة الفلسطينية سميرة عزام تحمل رؤية إنسانية ووطنية عميقة، حيث تسلط الضوء عل...

اعداد خطة عمل ع...

اعداد خطة عمل عن بعد والتناوب مع رئيس القسم لضمان استمرارية العمل أثناء وباء كوفيد 19، وبالإضافة إلى...

بدينا تخزينتنا ...

بدينا تخزينتنا ولم تفارقني الرغبة بان اكون بين يدي رجلين اثنين أتجرأ على عضويهما المنتصبين يتبادلاني...

خليج العقبة هو ...

خليج العقبة هو الفرع الشرقي للبحر الأحمر المحصور شرق شبه جزيرة سيناء وغرب شبه الجزيرة العربية، وبالإ...