Critical Errors in Quranic Texts - Urgent Review Required | أخطاء جوهرية في النصوص القرآنية - مراجعة عاجلة مطلوبة

#20
by jafari333 - opened

Screenshot_8-7-2025_231216_huggingface.co.jpeg

السلام عليكم ورحمة الله وبركاته،

في البداية - شكر وتقدير

أود أن أشكركم على الجهود المبذولة في تطوير منصة OALL ومحاولة النهوض بتقييم النماذج اللغوية العربية. هذا عمل مهم ونحن نقدر الوقت والجهد المستثمر في هذا المشروع.

اكتشاف صادم في معيار AlGhafa

أثناء مراجعتي لمعيار OALL AlGhafa، صُدمت باكتشاف أخطاء لا تُغتفر في النصوص القرآنية والدينية:

تحديد مواقع الأخطاء بدقة

مصدر البيانات:

  • Dataset: OALL/AlGhafa-Arabic-LLM-Benchmark-Native
  • Subset: mcq_exams_test_ar
  • العدد الإجمالي: 562 صف

الخطأ الأول - في القرآن الكريم

الموقع: Dataset Viewer - الصف الثاني في العرض
المكتوب في البيانات:
"قال تعالى ( فَلََدْعٌ نَادِيَهُ (17) سَنَدْع الدْبَانِيَةِ (18) )"

النص الصحيح:
"فَلْيَدْعُ نَادِيَهُ (17) سَنَدْعُ الزَّبَانِيَةَ (18)" - سورة العلق

تفصيل الأخطاء:

  • "فَلََدْعٌ" بدلاً من "فَلْيَدْعُ"
  • "الدْبَانِيَةِ" بدلاً من "الزَّبَانِيَةَ"
  • أخطاء في التشكيل والحروف

الخطأ الثاني - في المصطلحات الدينية

الموقع: Dataset Viewer - الصف الثالث في العرض
السؤال: "قال النَبِيّ صَلَى اللَّهُ عَلَيْهِ وَسَلَمَ..."
المشكلة: في sol3 مكتوب "حنة" بدلاً من "حسنة"

الخطأ الثالث - في ترقيم الإجابات

الموقع: Dataset Viewer - الصف الخامس في العرض
السؤال: "الملك الذي ينزل بالوحي من الله تعالى على أنبيائه هو"
المشكلة:

  • الإجابة الصحيحة "جبريل" في المكان الرابع (sol4)
  • لكن الـ label مكتوب "3"
  • يجب أن يكون "3" إذا كان العد يبدأ من 0، أو "4" إذا كان يبدأ من 1

حجم المشكلة الحقيقي

هذا مجرد ما اكتشفته في العرض المختصر للبيانات!

السؤال المقلق: إذا كان في 5 صفوف فقط يوجد 3 أخطاء جوهرية، فكم خطأ في الـ 562 صف الكاملة؟

  • كم حديث نبوي محرف؟
  • كم نص ديني مشوه؟
  • كم معلومة خاطئة تمرر كحقيقة؟

أسئلة تحتاج إجابات عاجلة

  1. كيف مرت هذه الأخطاء دون مراجعة؟
  2. أين كان فريق المراجعة اللغوية والشرعية؟
  3. كيف نثق في منصة تخطئ في القرآن الكريم؟
  4. هل تعتبرون هذا مقبولاً أخلاقياً ودينياً؟

تأثير على قراري الشخصي

كنت أعتزم تقييم النموذج الخاص بي على منصتكم، ولكن تراجعت عن الاستخدام بعد اكتشاف هذه الأخطاء الجوهرية.

المطلوب

يجب أن تقوموا بعمل مراجعة دقيقة وشاملة لجميع البيانات، خاصة:

  • النصوص القرآنية في mcq_exams_test_ar
  • الأحاديث النبوية في جميع الـ subsets
  • المصطلحات الدينية
  • ترقيم الإجابات في جميع الـ 562 صف

هذا ليس مجرد طلب تحسين - هذا ضرورة أخلاقية ودينية قبل أن تكون علمية.

الخلاصة

أقدر جهودكم في خدمة اللغة العربية والبحث العلمي، لكن دقة المحتوى - خاصة النصوص القرآنية - لا تقبل التهاون أو الأخطاء.

أرجو منكم إيلاء هذا الموضوع الأولوية القصوى والتعامل معه بالجدية التي يستحقها.

وشكراً لكم على تفهمكم واهتمامكم.

والسلام عليكم ورحمة الله وبركاته


Peace be upon you,

Initial Acknowledgment and Appreciation

I would like to thank you for the efforts made in developing the OALL platform and attempting to advance the evaluation of Arabic language models. This is important work and we appreciate the time and effort invested in this project.

Shocking Discovery in AlGhafa Benchmark

During my review of the OALL AlGhafa benchmark, I was shocked to discover unforgivable errors in Quranic and religious texts:

Precise Location of Errors

Data Source:

  • Dataset: OALL/AlGhafa-Arabic-LLM-Benchmark-Native
  • Subset: mcq_exams_test_ar
  • Total Count: 562 rows

First Error - In the Holy Quran

Location: Dataset Viewer - Second row in display
Written in the data:
"قال تعالى ( فَلََدْعٌ نَادِيَهُ (17) سَنَدْع الدْبَانِيَةِ (18) )"

Correct text:
"فَلْيَدْعُ نَادِيَهُ (17) سَنَدْعُ الزَّبَانِيَةَ (18)" - Surah Al-Alaq

Error details:

  • "فَلََدْعٌ" instead of "فَلْيَدْعُ"
  • "الدْبَانِيَةِ" instead of "الزَّبَانِيَةَ"
  • Errors in diacritics and letters

Second Error - In Religious Terminology

Location: Dataset Viewer - Third row in display
Question: "قال النَبِيّ صَلَى اللَّهُ عَلَيْهِ وَسَلَمَ..."
Problem: In sol3, "حنة" is written instead of "حسنة"

Third Error - In Answer Indexing

Location: Dataset Viewer - Fifth row in display
Question: "الملك الذي ينزل بالوحي من الله تعالى على أنبيائه هو"
Problem:

  • The correct answer "جبريل" is in the fourth position (sol4)
  • But the label is written as "3"
  • Should be "3" if counting starts from 0, or "4" if starting from 1

The Real Scale of the Problem

This is just what I discovered in the brief data preview!

Concerning question: If there are 3 fundamental errors in just 5 rows, how many errors exist in the complete 562 rows?

  • How many Prophet's hadiths are corrupted?
  • How many religious texts are distorted?
  • How many false pieces of information are passed as facts?

Questions Requiring Urgent Answers

  1. How did these errors pass without review?
  2. Where was the linguistic and religious review team?
  3. How can we trust a platform that makes errors in the Holy Quran?
  4. Do you consider this ethically and religiously acceptable?

Impact on My Personal Decision

I was planning to evaluate my model on your platform, but I withdrew from using it after discovering these fundamental errors.

What is Required

You must conduct a precise and comprehensive review of all data, especially:

  • Quranic texts in mcq_exams_test_ar
  • Prophet's hadiths in all subsets
  • Religious terminology
  • Answer indexing in all 562 rows

This is not merely a request for improvement - this is an ethical and religious necessity before it is a scientific one.

Conclusion

I appreciate your efforts in serving the Arabic language and scientific research, but content accuracy - especially Quranic texts - does not tolerate negligence or errors.

I urge you to give this matter the highest priority and deal with it with the seriousness it deserves.

Thank you for your understanding and attention.

Peace be upon you and God's mercy and blessings

Open Arabic LLM Leaderboard org

السلام عليكم السيد محمد الجعفري

Your detailed analysis is very much appreciated and we appreciate your acknowledgement regarding how hard the task at hand is (to serve and democratize access to the Arabic community)
I want to assure you that the the subset you have reviewed is not used as part of the leaderboard tasks, instead we use the original EXAMS benchmark (find link below)

https://huggingface.co/datasets/OALL/Arabic_EXAMS

Given the lack of expertise on my side and our small team behind oall, I would personally be very much grateful if you can put your mind machallah in reviewing the default 25 samples from the dataset linked above as well and let us know your feedback.

Note: we're not the developers of the benchmarks used in the leaderboard except ALRAGE, although we're open to all sorts of feedback on how we can make the leaderboard and its tasks better and more useful to the community.

Best,

تحيّة وتقدير لفريق Open-Arabic-LLM-Leaderboard

السلام عليكم ورحمة الله وبركاته
، وأعتذر عن تأخّري في الردّ لانشغالي خلال الأيام الماضية. تنفيذًا لطلبكم بمراجعة عيّنة validation المؤلَّفة من 25 سؤالًا من مجموعة البيانات OALL/Arabic_EXAMS، يسعدني عرض ما وجدته من ملاحظاتٍ وبيّناتٍ على نحوٍ دقيق وشفّاف.


1. أخطاء في صياغة الأسئلة (14 سؤالًا)

# المادّة الصياغة المُدرجة الصياغة الصحيحة
4 الدراسات الإسلامية «هزم المسلمون ف بدا ةٌ معركة حن نٌ بسبب» «هزم المسلمون في بداية معركة حنين بسبب»
5 الدراسات الإسلامية «وقت صلاة إلجمعة هو وقت:» «وقت صلاة الجمعة هو وقت:»
8 العلوم خيار A: «طبيعي >> صفة» «طبيعي»
10 العلوم «أي من التالي لايحدث خلال تفاعلات دورة كالفن ؟» «أي من التالي لا يحدث خلال تفاعلات دورة كالفن؟»
11 الاجتماعيات «تسق الأمطار الصيفية» «تسقط الأمطار الصيفية»
12 الاجتماعيات «إعلان النمسا الحرب على صرييا» «إعلان النمسا الحرب على صربيا»
16 الأحياء «تٌم الحصول على انسول نٌ نق الترك بٌ …» «تم الحصول على أنسولين نقي التركيب …»
17 الأحياء «ماهو الترك بٌ الذي … +Na … الألدوست رٌون» «ما هو التركيب الذي … أيونات +Na … الألدوستيرون»
18 الأحياء «أ ي مما يأتي» «أي مما يأتي»
21 الفيزياء «ماذا حٌدث لسعة المكثف ذو اللوح نٌ المتواز نٌٌ …» «ماذا يحدث لسعة المكثف ذي اللوحين المتوازيين …»
22 الفيزياء «كيف يجب توصيل الاميتر و الفولتميتر» «كيف يجب توصيل الأميتر والفولتميتر»
23 الفيزياء «هبرا حذث لوعظن أشعة الفب …» «ماذا حدث لمعظم أشعة ألفا التي تم تسليطها على شريحة الذهب في تجربة رذرفورد؟»
24 الفيزياء «أي مما لٌ عٌتبر من تطب قٌات مبدأ باسكال؟» «أي مما يلي يعتبر من تطبيقات مبدأ باسكال؟»
25 الفيزياء «ماذا حٌدث لقطعة من الحد دٌ عند تسخ نٌها» «ماذا يحدث لقطعة من الحديد عند تسخينها»

2. أخطاء في مفاتيح الإجابة (4 أسئلة)

المادّة – رقم السؤال الصياغة المفتاح المدرج المفتاح الصحيح التعليل
الدراسات الإسلامية – 18 وقت صلاة الجمعة B (الضحى) D (الظهر) صلاة الجمعة تحلّ محلّ الظهر.
الاجتماعيات – 159 صانع السفن في قطر قديمًا B (النوخذة) C (القلّاف) النوخذة رُبّان، والقلّاف صانع السفن.
الأحياء – 18 تفسير لامارك لطول عنق الزرافة B (الانتخاب الطبيعي) C (الاستعمال والإهمال) تفسير لامارك مبنيّ على الاستعمال والإهمال.
الفيزياء – 32 سعة المكثّف مع مادة عازلة B (تقل) A (تزداد) الثابت العازل يزيد السعة لا ينقصها.

3. الخلاصة الكميّة

  • 14 سؤالًا يحوي أخطاءً في الصياغة أو التنسيق.
  • 4 أسئلة يشتمل مفتاح إجاباتها على خطأ.
  • 7 أسئلة فقط سليمة (نصًّا وإجابة).
  • السؤال (الفيزياء – 23) غير مفهوم ويحتاج إعادة كتابة كاملة.

هذه العيوب تمسُّ سلامة المجموعة وتجدر معالجتها قبل استخدامها مرجعًا للتقييم.


4. شكرٌ وتنويه

أقدّر جهودكم وأتفهم صعوبة ضبط مثل هذه البيانات الكبيرة، غير أنّ المسؤولية تجاه الدقّة اللغوية والعلمية – ولا سيّما في محتوى متعلّق بالنصوص الدينية أو المفاهيم العلمية – تقتضي مراجعة عاجلة لهذه الأخطاء وإصدار نسخة منقّحة. أشكركم سلفًا على تفهّمكم، وأتطلّع إلى رؤية التحديث القادم.

مع خالص التحية،
محمد الجعفريjafari333

/////////

Greetings to the Open-Arabic-LLM-Leaderboard Team

Hello everyone,
Please accept my apologies for the delayed reply I have been tied up with other commitments this past week. In response to your request, I reviewed the entire 25-question validation split from the dataset OALL/Arabic_EXAMS. Below is a precise, transparent report of the issues I found.


1. Wording / Formatting Errors (14 questions)

# Subject Text as Published Correct Text
4 Islamic Studies «هزم المسلمون ف بدا ةٌ معركة حن نٌ بسبب» «هزم المسلمون في بداية معركة حنين بسبب»
5 Islamic Studies «وقت صلاة إلجمعة هو وقت:» «وقت صلاة الجمعة هو وقت:»
8 Science الاختيار A: «طبيعي >> صفة» «طبيعي»
10 Science «أي من التالي لايحدث خلال تفاعلات دورة كالفن ؟» «أي من التالي لا يحدث خلال تفاعلات دورة كالفن؟»
11 Social Studies «تسق الأمطار الصيفية» «تسقط الأمطار الصيفية»
12 Social Studies «إعلان النمسا الحرب على صرييا» «إعلان النمسا الحرب على صربيا»
16 Biology «تٌم الحصول على انسول نٌ نق الترك بٌ…» «تم الحصول على أنسولين نقيّ التركيب…»
17 Biology «ماهو الترك بٌ الذي… +Na… الألدوست رٌون» «ما هو التركيب الذي… أيونات +Na… الألدوستيرون»
18 Biology «أ ي مما يأتي» «أي مما يأتي»
21 Physics «ماذا حٌدث لسعة المكثف ذو اللوح نٌ المتواز نٌٌ…» «ماذا يحدث لسعة المكثف ذي اللوحين المتوازيين…»
22 Physics «كيف يجب توصيل الاميتر و الفولتميتر» «كيف يجب توصيل الأميتر والفولتميتر»
23 Physics «هبرا حذث لوعظن أشعة الفب…» «ماذا حدث لمعظم أشعة ألفا التي تم تسليطها على شريحة الذهب في تجربة رذرفورد؟»
24 Physics «أي مما لٌ عٌتبر من تطب قٌات مبدأ باسكال؟» «أي مما يلي يعتبر من تطبيقات مبدأ باسكال؟»
25 Physics «ماذا حٌدث لقطعة من الحد دٌ عند تسخ نٌها» «ماذا يحدث لقطعة من الحديد عند تسخينها»

2. Answer-Key Errors (4 questions)

Subject – Q-ID نصّ السؤال (موجز) Key Provided Correct Key Rationale
Islamic Studies – 18 وقت صلاة الجمعة B (الضحى) D (الظهر) صلاة الجمعة تحلّ محلّ الظهر، ووقتها هو وقت الظهر.
Social Studies – 159 يسمى صانع السفن في قطر قديماً B (النوخذة) C (القلّاف) النوخذة ربان السفينة، أما القلّاف فهو صانعها.
Biology – 18 تفسير لامارك لطول عنق الزرافة B (الانتخاب الطبيعي) C (الاستعمال والإهمال) تفسير لامارك مبنيّ على الاستعمال والإهمال، لا على الانتخاب الطبيعي.
Physics – 32 ماذا يحدث لسعة المكثف عند وضع مادة عازلة B (تقل) A (تزداد) إدخال مادة عازلة يزيد ثابت العزل فيزداد التّسَعُّ.

3. Quantitative Summary

  • 14 questions contain wording / formatting flaws.
  • 4 questions have an incorrect answer key.
  • 7 questions are free of substantive issues.
  • Physics Q-23 is entirely unintelligible and requires complete rewriting.

These problems undermine the dataset’s reliability and merit prompt correction before it is used as an evaluation benchmark.


4. Appreciation

I appreciate the considerable effort that goes into curating Arabic evaluation resources. Nonetheless, given the religious and scientific content involved, accuracy is paramount. I respectfully recommend issuing a clean, revised version of this split and ideally of the remaining splits as well.

Thank you for your understanding, and I look forward to seeing the updated release.

Best regards,
Mohammed Al-Jafarijafari333

Sign up or log in to comment