GSO ISO 24614-1:2015

مواصفة قياسية خليجية   الإصدار الحالي
· اعتمدت بتاريخ 21 ديسمبر 2015 ·

إدارة الموارد اللغوية -- تجزئة النصوص المكتوبة إلى كلمات -- الجزء1: المفاهيم الأساسية والمبادئ العامة

الكتابة والترجمة
*مجموعة المحارف المشفرة المستخدمة في تبادل البيانات أنظر 35.040

ملفات الوثيقة GSO ISO 24614-1:2015

الإنجليزية 15 صفحات
الإصدار الحالي اللغة المرجعية
17.23 BHD

مجال الوثيقة GSO ISO 24614-1:2015

يقدم هذا الجزء من المواصفة ISO 24614 المفاهيم الأساسية والمبادئ العامة لتجزئة الكلمات، كما يقدم إرشادات مستقلة عن اللغة لتمكين تجزئة النصوص المكتوبة إلى كلمات (WSU) بطريقة موثوق فيها وقابلة للنسخ. ملاحظة1: في الأبحاث والصناعات المرتبطة باللغة، تعد الكلمة مفهومًا أساسيًا وضروريًا؛ ومن ثم، يجب أن يكون هناك تعريفًا شاملاً ليشمل الكلمة، وذلك لغرض تجزئة النص إلى كلمات. فلا يمكن للمرء استخدام القواعد المبنية على المسافات الفاصلة وعلامات الترقيم فقط بسهولة لتحديد الكلمات؛ فهذه القواعد لا تراعي بعض المواقف، مثل الأسماء المركبة والاختصارات والمصطلحات التي تحتوي على رموز أو أعداد. فتجزئة الكلمات تعد أمرًا أكثر صعوبة بالنسبة للغات التي لا تستخدم المسافات الفاصلة، مثل اللغتين الصينية واليابانية، وكذلك الأمر بالنسبة للغات الاشتقاقية، حيث تُدرك بعض فئات الكلمات الوظيفية على أنها مقاطع، مثل اللغة الكورية. تشمل التطبيقات والمجالات المتعددة التي بحاجة إلى تجزئة النصوص إلى كلمات – والتي يمكن أن يطبق عليها هذا الجزء من المواصفة ISO 24514 – ما يلي: الترجمة: عدد الكلمات هو الطريقة الأساسية لحساب تكلفة الترجمة، لذا تأتي تجزئة الكلمات باعتبارها الوظيفة المعيارية في أنظمة ذاكرة الترجمة وأدوات الترجمة بمساعدة الحاسوب (CAT)؛ حيث يتم تجزئة الكلمات من خلال أدوات استخلاص المصطلحات التي أحيانًا ما يتم تقديمها في أنظمة إدارة المصطلحات وأدوات الترجمة بمساعدة الحاسوب. إدارة المحتوى: تُتيح أغلبية أنظمة إدارة وقواعد بيانات المحتوى البحث من خلال الكلمات الفردية، حيث يتم تجزئة المحتوى الذي يتم بحثه لكي يُتيح المقارنة بكلمات البحث؛ علاوة على ذلك تطلب وظائف البحث معرفة حدود الكلمات. تقنيات النطق تعمل أنظمة تحويل النصوص إلى كلام منطوق (text-to-speech) على إصدار النطق بناءً على الكلمات؛ ومن ثم، تتطلب هذه الأنظمة تجزئة الكلمات للبحث عنها في المعجم وتعيين المقاطع المشددة وتعيين النموذج العروضي، إلخ. اللغويات الحسابية يجب أن تقوم أنظمة معالجة اللغة الطبيعية (NLP) بتجزئة النص إلى كلمات تنفيذًا لوظائفها؛ حيث تشمل أنظمة NLP ما يلي: - المعالجات النحوية الشكل. - المعرب النحوي. - برنامج الكشف عن الأخطاء الإملائية. - أنظمة تصنيف النص. - مفسر لسانيات المدونات اللغوية. صناعة المعاجم غالبًا يتم تقييم الموارد المعجمية بناءً على الحجم، وعادة يكون بالإشارة إلى عدد الكلمات. ملاحظة 2: يعد حجم الموارد اللغوية معيارًا أساسيًا على إدارة هذه الموارد، حيث يتم تعيين حجم الموارد اللغوية من خلال عدد الكلمات؛ إلا أنه بسبب استخدام تطبيقات NLP لطرق مختلفة التجزئة، فكل طريقة تعمل على حساب عدد الكلمات بشكلٍ مختلف، ومن ثم تصل إلى عدد مختلف من الكلمات لنفس النص. لذا، فوجود مقياس معياري موثوق به يسمح بالتوصل إلى نتائج قابلة للمقارنة، وهذا لا يعني ألا يستخدم كل تطبيق الطريقة الخاصة به لتجزئة الكلمات؛ على سبيل المثال، قد تقوم التطبيقات الخاص بالنطق الاصطناعي على تجزئة النص إلى وحدت أصغر أو وحدات أكبر حجمًا مقارنة بتطبيق آخر.

الأكثر مبيعاً في قطاع المعلومات

GSO ISO/TR 18492:2017
ISO/TR 18492:2005 
مواصفة قياسية خليجية
حفظ المعلومات الإلكترونية للوثائق على المدى الطويل
BH GSO ISO 16175-2:2016
GSO ISO 16175-2:2013 
مواصفة قياسية بحرينية
المعلومات والتوثيق- المبادئ والمتطلبات الوظيفية للسجلات في بيئات المكاتب الإلكترونية- الجزء 2: المبادئ التوجيهية والمتطلبات الوظيفية للأنظمة الرقمية لإدارة السجلات
GSO ISO 16175-2:2013
ISO 16175-2:2011 
مواصفة قياسية خليجية
المعلومات والتوثيق- المبادئ والمتطلبات الوظيفية للسجلات في بيئات المكاتب الإلكترونية- الجزء 2: المبادئ التوجيهية والمتطلبات الوظيفية للأنظمة الرقمية لإدارة السجلات
GSO ISO/TR 13028:2013
ISO/TR 13028:2010 
مواصفة قياسية خليجية
المعلومات والتوثيق - المبادئ التوجيهية للتنفيذ لرقمنة السجلات

اعتمدت مؤخراً في قطاع المعلومات

GSO ISO/IEC TR 3445:2024
ISO/IEC TR 3445:2022 
مواصفة قياسية خليجية
تقنية المعلومات - الحوسبة السحابية - تدقيق الخدمات السحابية
GSO ISO/IEC 30162:2024
ISO/IEC 30162:2022 
مواصفة قياسية خليجية
إنترنت الأشياء (IoT) - متطلبات التوافق ونموذج للأجهزة داخل أنظمة إنترنت الأشياء الصناعية
GSO ISO/IEC 30107-3:2024
ISO/IEC 30107-3:2023 
مواصفة قياسية خليجية
تقنية المعلومات - الكشف عن الهجوم على البيانات الحيوية - الجزء 3: الاختبار وإعداد التقارير
GSO ISO/IEC 22237-4:2024
ISO/IEC 22237-4:2021 
مواصفة قياسية خليجية
تقنية المعلومات - مرافق مراكز البيانات والبنى التحتية - الجزء 4: التحكم البيئي