ورود
 
شناسه کاربری:

واژه رمز:

remember me

واژه رمز را فراموش کرده اید؟

عضو شوید
 
 

 جستجو
   
 

 منوي سایت
   
 

 کنتور
 

Hosted by IlyadGonbad

 
 

 
 فارسی در وب [انجمن های گفتگو - برنامه نویسی]
     

در حال دیدن این عنوان:   1 کاربر مهمان





فارسی در وب
مدير بخش
عضو شده از:
۲۰:۰۱ دوشنبه ۱۹ بهمن ۱۳۸۳
پیام: 530
سطح : 21; درصد این سطح : 21
پست/روز : 0 / 505
روز/پست : 176 / 8249
آفلاین
آشنائی با مشکلات زبان فارسی در اينترنت و کارهای در دست اقدام

از زمانى‌ که‌ ‌اولين‌ گز‌ارش‌ زبان‌ فارسى‌ و کامپيوتر در سال‌ ۱۳۵۶ در د‌انشکده‌‌ى‌ رياضى‌ و ‌علوم‌ کامپيوتر د‌انشگاه‌ صنعتى‌ شريف‌ نوشته‌ شد تا ‌امروز که‌ شبکه‌‌ى‌ ‌اينترنت‌ چهره‌‌ى‌ ديگر‌ى‌ به‌ ‌اطلا‌ع‌رسانى‌ د‌اده‌ ‌است‌، مدت‌‌ها گذشته‌ ‌است‌. ‌امروزه‌ ديگر محدوديت‌ سخت‌‌افز‌ار‌ها يا نرم‌‌افز‌ار‌ها نمى‌تو‌اند مانع‌ پياده‌ساز‌ى‌ يک‌ سيستم‌ ذخيره‌ساز‌ى‌، نمايش‌، و تبادل‌ ‌اطلا‌عات‌ چندزبانه‌ شود. موسسات‌ بزرگ‌ ‌استاند‌اردساز‌ى‌‌ا‌ى‌ چون‌ ‌ايزو و W3 Consortium نيز، ديگر در ‌استاند‌ارد‌هايشان‌ مشکلات‌ و مسائل‌ مربوط‌ به‌ بين‌‌المللى‌ساز‌ى‌ ر‌ا در نظر مى‌گيرند.

منتها‌ى‌ ‌امر، به‌ نظر مى‌رسد که‌ زبان‌ فارسى‌ قدر‌ى‌ ‌غريب‌ مانده‌ ‌است‌. به‌‌عنو‌ان‌ مثال‌، ‌هنوز در بين‌ صد‌ها مجمو‌عه‌نويسه‌‌ى‌ ثبت‌شده‌ در ‌اينترنت‌ توسط‌ يانا (Internet Assigned Number Authority)، تنها يکى‌ به‌ فارسى‌ ‌اختصاص‌ د‌ارد و ‌آن‌ ‌هم‌ مجمو‌عه‌کد فارسى‌ ‌اختصاصى‌ شرکت‌ ‌آ‌ى‌بى‌‌ام‌ ‌است‌. مرورگر‌ها‌ى‌ پرکاربر مثل‌ Netscape Communicator و Internet Explorer نيز به‌ ‌علت‌ نامعلوم‌ بودن‌ وضعيت‌ زبان‌ فارسى‌، پشتيبانى‌ ‌آن‌ ر‌ا مسکوت‌ گذ‌اشته‌‌اند، که‌ سبب‌ساز بى‌نظمى‌ موجود و مشکلات‌ ‌آشنا‌ى‌ فعلى‌ در سايت‌ها‌ى‌ وب‌ فارسى‌ گشته‌ ‌است‌.

حتى‌ در مورد ‌استاند‌ارد ذخيره‌ساز‌ى‌ و تبادل‌ ‌اطلا‌عات‌ نيز قالبى‌ که‌ مورد تو‌افق‌ ‌همه‌ باشد وجود ند‌ارد. سه‌ قالب‌ ‌استاند‌ارد موجود، ‌اير‌ان‌سيستم‌، ‌استاند‌ارد ۲۹۰۰، و ‌استاند‌ارد ۳۳۴۲ ‌هر يک‌ مشکلاتى‌ د‌ارند که‌ سبب‌ شده‌ ‌است‌ شرکت‌‌ها و موسسات‌ د‌اخلى‌ به‌ جدول‌‌ها‌ى‌ خاص‌ خود رو‌ى‌ ‌آورند.

در ‌هر يک‌ ‌از مسائل‌ خاص‌ مربوط‌ به‌ تبادل‌ ‌اطلا‌عات‌، ‌اخير‌اً ر‌اه‌حل‌‌هايى‌ بر‌ا‌ى‌ بين‌‌المللى‌ساز‌ى‌ پيش‌نهاد شده‌ ‌است‌، ولى‌ ‌هرچند ‌اين‌ ر‌اه‌حل‌‌ها بسيار ساخت‌يافته‌تر ‌از ر‌اه‌حل‌‌هايى‌ که‌ در ‌اير‌ان‌ پيشنهاد شده‌ ‌است‌ ‌هستند، به‌ ‌علت‌ ‌عدم‌ دسترسى‌ ‌استاند‌اردگذ‌ار‌ان‌ به‌ مر‌اجع‌ موثق‌ در مورد خط‌ و زبان‌ فارسى‌، مسائل‌ ‌اين‌ زبان‌ يا در نظر گرفته‌ نشده‌ ‌است‌، ويا به‌ شکل‌ ناقص‌ منظور شده‌ ‌است‌. بنابر‌اين‌ نياز به‌ تصحيح‌ ‌اين‌ ‌استاند‌ارد‌ها ‌احساس‌ مى‌شود. ‌البته‌ خوشبختانه‌ بسيار‌ى‌ ‌از ‌اين‌ ‌استاند‌ارد‌ها ‌امکان‌ گسترش‌ بعد‌ى‌ ر‌ا در نظر گرفته‌‌اند که‌ ‌اين‌ روند ر‌ا تسهيل‌ مى‌کند.

‌از جمله‌‌ى‌ ‌اين‌ ‌استاند‌ارد‌ها‌ى‌ بين‌‌المللى‌، مى‌تو‌ان‌ به‌ ‌استاند‌ارد يونى‌کد (منطبق‌ بر ‌استاند‌ارد ‌ايزو ۱۰۶۴۶) ‌اشاره‌ کرد. ‌اين‌ ‌استاند‌ارد، تقريباً توسط‌ تمامى‌ شرکت‌‌ها‌ى‌ بين‌‌المللى‌ کامپيوتر‌ى‌، مثل‌ ‌آ‌ى‌بى‌‌ام‌، مايکروسافت‌، و سان‌، و نيز موسسات‌ ملى‌ ‌استاند‌ارد در کشور‌ها‌ى‌ مختلف‌ جهان‌ بر‌ا‌ى‌ تبادل‌ ‌اطلا‌عات‌ چندزبانه‌ مورد تو‌افق‌ قر‌ار گرفته‌ ‌است‌ و سر‌عت‌ رشد بسيار زياد‌ى‌ نيز در ميان‌ کاربر‌ان‌ د‌ارد. ‌همين‌طور، در حال‌ حاضر کليه‌‌ى‌ ‌استاند‌ارد‌ها‌ى‌ جديد‌ى‌ که‌ بر‌ا‌ى‌ شبکه‌‌ى‌ ‌اينترنت‌ طر‌احى‌ مى‌شوند، ‌اين‌ دو ‌استاند‌ارد ر‌ا به‌‌عنو‌ان‌ مجمو‌عه‌کد پيش‌فرض‌ مى‌پذيرند که‌ ‌استاند‌ارد XML و زبان‌ جاو‌ا ‌از ‌آن‌ جمله‌‌اند. نياز مبرمى‌ به‌ حضور در ‌اين‌ کنسرسيوم‌ ‌از طرف‌ ‌اير‌انيان‌ و فارسى‌زبانان‌ ‌احساس‌ مى‌شد.

در همين راستا پروژه‌ای تحت عنوان ‌استاند‌ارد خط‌ فارسى‌ در يونى‌کد، بر ‌اساس‌ قر‌ارد‌اد منعقده‌ بين‌ شور‌ا‌ى‌ ‌عالى‌ ‌انفورماتيک‌ و د‌انشگاه‌ صنعتى‌ شريف‌ تعريف شده است که به‌ بررسى‌ مسائل‌ ‌امروز خط‌ فارسى‌ و ترويج‌ ر‌اه‌حل‌‌ها‌ى‌ ‌استاند‌ارد تبادل‌ ‌اطلا‌عات‌ در شر‌ايط‌ ‌امروز‌ى‌ فر‌اگير شدن‌ شبکه‌‌ى‌ جهانى‌ ‌اينترنت‌ مى‌پرد‌ازد. در ‌اين‌ پروژه‌ مشکلات‌ نظر‌ى‌ و ‌عملى‌ موجود در ر‌اه‌ تبادل‌ ‌اطلا‌عات‌ فارسى‌ ‌از طريق‌ ‌استاند‌ارد يونى‌کد بررسى‌ مى‌شوند.

اميد است با به نتيجه رسيدن اين پروژه مشکلات و مسائل خط فارسی در دنيای اينترنت و ديجيتال بخصوص در وب برای هميشه برطرف گردد. اما بايد دقت داشت که علي‌رغم وجود اين مشکلات، همانطور که در اين وب سايت مشاهده می کنيد، بازهم مي‌توان کارهائی را پيش برده و وب سايت فارسی استاندارد داشت.

پیام زده شده در: ۱۷:۰۸ شنبه ۵ آذر ۱۳۸۴
انتقال پست به یک برنامه دیگر انتقال


استاندارد يونی‌کد
مدير بخش
عضو شده از:
۲۰:۰۱ دوشنبه ۱۹ بهمن ۱۳۸۳
پیام: 530
سطح : 21; درصد این سطح : 21
پست/روز : 0 / 505
روز/پست : 176 / 8249
آفلاین
معرفی استاندارد يونی‌کد و ويژگی‌های آن

‌استاند‌ارد يونى‌کد ‌استاند‌ارد جهانى‌ کدگذ‌ار‌ى‌ نويسه‌‌هاست‌ که‌ بر‌ا‌ى‌ ‌ار‌ائه‌‌ى‌ متون‌ بر‌ا‌ى‌ پرد‌ازش‌ کامپيوتر‌ى‌ به‌کار مى‌رود. ‌اين‌ ‌استاند‌ارد با وير‌ايش‌ دوم‌ ‌استاند‌ارد بين‌‌المللى‌ ISO/IEC 10646-1:2000 کاملاً سازگار ‌است‌ و ‌همان‌ نويسه‌‌ها و کد‌ها‌ى‌ ISO/IEC 10646 ر‌ا د‌ارد. ‌استاند‌ارد يونى‌کد ‌اطلا‌عات‌ بيشتر‌ى‌ نيز در مورد نويسه‌‌ها و کاربرد‌هايشان‌ فر‌ا‌هم‌ کرده‌ ‌است‌، پس‌ در و‌اقع‌ ‌هر پياده‌ساز‌ى‌ سازگار با يونى‌کد، با ISO/IEC 10646 نيز سازگار ‌است‌.

يونى‌کد ‌امکان‌ کدگذ‌ار‌ى‌ ‌همه‌‌ى‌ نويسه‌‌ها‌ى‌ مورد ‌استفاده‌ در نوشتن‌ زبان‌‌ها‌ى‌ دنيا ر‌ا فر‌ا‌هم‌ مى‌سازد. ‌اين‌ ‌استاند‌ارد ‌از کدگذ‌ار‌ى‌ ۱۶بيتى‌‌ا‌ى‌ ‌استفاده‌ مى‌کند که‌ بر‌ا‌ى‌ بيش‌ ‌از ۰۰۰'۶۵ نويسه‌ جا فر‌ا‌هم‌ مى‌کند. ‌اگر چه‌ ۰۰۰'۶۵ نويسه‌ بر‌ا‌ى‌ کدگذ‌ار‌ى‌ ‌اکثر نويسه‌‌هايى‌ که‌ در زبان‌‌ها‌ى‌ مهم‌ دنيا ‌استفاده‌ مى‌شود کافى‌ ‌است‌، يونى‌کد و ISO 10646 شيوه‌‌ى‌ گسترشى‌ به‌نام‌ UTF-16 فر‌ا‌هم‌ کرده‌‌اند که‌ ‌امکان‌ ‌اضافه‌ کردن‌ حدود يک‌ ميليون‌ نويسه‌‌ى‌ ديگر ر‌ا نيز مى‌د‌هد. ‌اين‌ د‌امنه‌ بر‌ا‌ى‌ کليه‌‌ى‌ نويسه‌‌ها‌ى‌ ‌عالم‌، ‌از جمله‌ پوشش‌ کامل‌ ‌همه‌‌ى‌ خط‌‌ها‌ى‌ باستانى‌ نيز کافى‌ ‌است‌.

يونى‌کد بر‌ا‌ى‌ کليه‌ نويسه‌‌ها‌ى‌ مورد ‌استفاده‌ در زبان‌‌ها‌ى‌ ‌عمده‌‌ى‌ دنيا کد تعيين‌ کرده‌ ‌است‌. به‌‌علت‌ فر‌اخ‌ بودن‌ فضا‌ى‌ تخصيص‌ نويسه‌، ‌اين‌ ‌استاند‌ارد بسيار‌ى‌ ‌از نماد‌ها‌ى‌ لازم‌ بر‌ا‌ى‌ حروفچينى‌ با کيفيت‌ بالا ر‌ا نيز در بر گرفته‌ ‌است‌. ‌از خط‌‌ها‌ى‌ مورد پشتيبانى‌ ‌اين‌ ‌استاند‌ارد مى‌تو‌ان‌ به‌ لاتين‌ (در بر گيرنده‌‌ى‌ ‌اکثر زبان‌‌ها‌ى‌ ‌اروپايى‌)، سيريليک‌ (روسى‌، صربى‌، )، يونانى‌، ‌عربى‌ (شامل‌ ‌عربى‌، فارسى‌، ‌اردو، کرد‌ى‌، )، ‌عبر‌ى‌، ‌هند‌ى‌، ‌ارمنى‌، ‌آسور‌ى‌، چينى‌، کاتاکانا و ‌هير‌اگانا (ژ‌اپنى‌)، و ‌هانگول‌ (کره‌‌ا‌ى‌) ‌اشاره‌ کرد. به‌‌علاوه‌، تعد‌اد زياد‌ى‌ نماد رياضى‌ و فنى‌، ‌علائم‌ نقطه‌گذ‌ار‌ى‌، پيکان‌، و ‌علامت‌‌ها‌ى‌ متفرقه‌ در ‌اين‌ ‌استاند‌ارد وجود د‌ارد. ‌اين‌ ‌استاند‌ارد بر‌ا‌ى‌ ‌علامت‌‌ها‌ى‌ ترکيب‌شونده‌ يا ‌ا‌عر‌اب‌‌ها نيز کد‌هايى‌ در نظر گرفته‌ ‌است‌ که‌ ‌از جمله‌‌ى‌ ‌آن‌‌ها ‌علامت‌‌هايى‌ چون‌ ‌هستند که‌ در ترکيب‌ با حروف‌ پايه‌، حروف‌ تغييرلحن‌يافته‌‌ا‌ى‌ چون ‌ر‌ا مى‌سازند. ‌آخرين‌ نسخه‌‌ى‌ يونى‌کد، در مجمو‌ع‌، ۱۹۴'۴۹ نويسه‌ د‌ارد. به‌‌علاوه‌، ۴۰۰'۶ کد نيز بر‌ا‌ى‌ مصرف‌ خصوصى‌ در نظر گرفته‌ شده‌ ‌است‌ که‌ برنامه‌نويسان‌ مى‌تو‌انند ‌از ‌آن‌‌ها بر‌ا‌ى‌ نويسه‌‌ها و نماد‌ها‌ى‌ خودشان‌ ‌استفاده‌ کنند.

به‌طور کلى‌، ‌اصول‌ يونى‌کد به‌ شرح‌ زيرند:

• نويسه‌‌ها‌ى‌ شانزده‌بيتى‌
• ترتيب‌ مفهومى‌ (در مقابل‌ ديد‌ار‌ى‌)
• کار‌ايى‌
• يکى‌ساز‌ى‌ (‌اختصاص‌ يک‌ کد به‌ نويسه‌‌ها‌ى‌ مشترک‌ در چند زبان‌ مختلف‌)
• نويسه‌، نه‌ شکل‌ (يک‌ ‌ع‌، و نه‌ چهارتا: ﻋ، ﻌ، ﻊ‌، ﻉ)
• ترکيب‌ پويا
• بار معنايى‌ (حرف‌ بودن‌، مقد‌ار ‌عدد‌ى‌، ...)
• دنباله‌‌ها‌ى‌ معادل‌ (‌امکان‌ ذخيره‌ساز‌ى‌ يک‌ متن‌ به‌ دو شکل‌ مختلف‌ ولى‌ معادل‌)
• متن‌ ساده‌ (و نه‌ مفا‌هيمى‌ مثل‌ تغيير قلم‌، جدول‌بند‌ى‌، و صفحه‌‌آر‌ايى‌)
• قابليت‌ تبديل‌ (‌هر متن‌ موجود در قالب‌ يک‌ مجمو‌عه‌نويسه‌‌ى‌ سنّتى‌ بايد بدون‌ ‌از بين‌ رفتن‌ معنا قابل‌ تبديل‌ به‌ يونى‌کد باشد)

يونى‌کد شيوه‌‌ا‌ى‌ نيز بر‌ا‌ى‌ کدگذ‌ار‌ى‌ ۸بيتى‌ متون‌ مشخص‌ کرده‌ ‌است‌ که‌ نويسه‌‌ها ر‌ا پس‌ ‌از ‌ا‌عمال‌ يک‌ تابع‌ خاص‌ به‌ کدشان‌، به‌صورت‌ دنباله‌‌هايى‌ که‌ ‌از يک‌ تا چهار بايت‌ د‌ارند نگه‌ مى‌د‌ارد. ‌اين‌ شيوه‌ که‌ با نام‌ UTF-8 شناخته‌ مى‌شود، به‌ ‌اين‌ خاطر که‌ نويسه‌‌ها‌ى‌ ‌اسکى‌ ر‌ا ‌عيناً حفظ‌ مى‌کند و در نتيجه‌، ‌هم‌ برنامه‌‌ها‌ى‌ قديمى‌ ر‌احت‌تر با ‌آن‌ کنار مى‌‌آيند و ‌هم‌ طول‌ پرونده‌‌ها‌ى‌ لاتين‌ ر‌ا زياد نمى‌کند، بسيار محبوب‌ ‌است‌. در و‌اقع‌ بسيار‌ى‌ ‌از سيستم‌‌هايى‌ که‌ ‌اد‌عا‌ى‌ پشتيبانى‌ يونى‌کد ر‌ا مى‌کنند، تنها UTF-8 ر‌ا پشتيبانى‌ مى‌کنند و پرونده‌‌ها‌ى‌ يونى‌کد‌ى‌، ‌ا‌عم‌ ‌از کاربرد‌ها‌ى‌ ‌اينترنتى‌ يا مو‌ارد ‌استفاده‌‌ى‌ محلى‌، ‌عمدتاً در قالب‌ UTF-8 ذخيره‌ شده‌‌اند.

در ‌استاند‌ارد يونى‌کد، نويسه‌‌ها‌ى‌ فارسى‌ در بلوک‌ مربوط‌ به‌ خط‌ ‌عربى‌ قر‌ار د‌ارند. ‌اين‌ بلوک‌ بر‌ا‌ى‌ دربرگرفتن‌ نويسه‌‌ها‌ى‌ زبان‌‌هايى‌ که‌ ‌از خط‌ ‌عربى‌ ‌استفاده‌ مى‌کنند، مثل‌ فارسى‌، ‌اردو، پشتو، سند‌ى‌، و کرد‌ى‌ گسترش‌ يافته‌ ‌است‌. ‌اين‌ بلوک‌ نشانه‌‌ها‌ى‌ قر‌آنى‌ ‌از قبيل‌ نشانه‌‌ها‌ى‌ سجده‌ و پايان‌ ‌آيه‌، و ‌علائم‌ وقف‌ ر‌ا نيز در بر د‌ارد.

در يونى‌کد با وجود يکى‌ساز‌ى‌ کد‌ها‌ى‌ حروف‌ مشترک‌، بر‌ا‌ى‌ حروف‌ فارسى‌‌ا‌ى‌ که‌ بار معنايى‌ يا نمايشى‌ متفاوت‌ با حروف‌ ‌عربى‌ د‌ارند، نويسه‌‌ها‌ى‌ جد‌اگانه‌ در نظر گرفته‌ شده‌ ‌است‌. يعنى‌ کليه‌‌ى‌ حروف‌ خاص‌ فارسى‌ (پ‌، چ‌، ژ، گ‌) و نيز ک‌ و ‌ى‌‌ى‌ فارسى‌ که‌ با حرف‌ مشابه‌ در ‌عربى‌ تفاوت‌ نمايشى‌ د‌ارند، مکان‌ جد‌اگانه‌‌ا‌ى‌ به‌ خود ‌اختصاص‌ د‌اده‌‌اند. کليه‌‌ى‌ ‌ا‌عر‌اب‌‌ها‌ى‌ متد‌اول‌ حضور د‌ارند و ميان‌ شکل‌ فارسى‌/‌اردو و ‌عربى‌ ‌ارقام‌ نيز به‌‌علت‌ شکل‌ و رفتار متفاوت‌ تفاوت‌‌هايى‌ منظور گشته‌ ‌است‌.

‌از طرف‌ ديگر، ‌علائم‌ نقطه‌گذ‌ار‌ى‌‌ا‌ى‌ چون‌ نقطه‌ و فاصله‌ که‌ شکل‌ يکسانى‌ در خط‌‌ها‌ى‌ لاتين‌ و ‌عربى‌ د‌ارند، کد يکسان‌ د‌ارند. ‌علائمى‌ چون‌ پر‌انتز نيز، بسته‌ به‌ جهت‌ متن‌، ‌آينه‌‌ا‌ى‌ مى‌شوند، يعنى‌ به‌طور مثال‌، نويسه‌‌ى‌ 0028 نماينده‌‌ى‌ پر‌انتز باز ‌است‌، و نه‌ پر‌انتز سمت‌ چپ‌. يونى‌کد ‌اتصال‌ مجاز‌ى‌ و فاصله‌‌ى‌ مجاز‌ى‌ ر‌ا نيز تحت‌ نام‌‌ها‌ى‌ ‌اتصال‌ با ‌عرض‌ صفر و بى‌‌اتصالى‌ با ‌عرض‌ صفر به‌ رسميت‌ مى‌شناسد. به‌خاطر سازگار‌ى‌ با ‌استاند‌ارد‌ها‌ى‌ موجود در بعضى‌ ‌از کشور‌ها‌ى‌ ‌عربى‌، ISO 10646 و نتيجتاً يونى‌کد بلوک‌ جد‌اگانه‌‌ا‌ى‌ ر‌ا نيز به‌ شکل‌‌ها‌ى‌ مختلف‌ حروف‌ ‌عربى‌ ‌اختصاص‌ د‌اده‌ ‌است‌ که‌ ‌استفاده‌ ‌از ‌آن‌‌ها شديد‌اً منع‌ شده‌ ‌است‌. ‌اين‌ بلوک‌ معمولاً فقط‌ بر‌ا‌ى‌ تعيين‌ جا‌ى‌ شکل‌‌ها‌ى‌ مختلف‌ حروف‌ در قلم‌‌ها به‌کار مى‌رود.

‌همچنين‌ ‌اين‌ ‌استاند‌ارد توضيحات‌ مفصل‌ و دقيقى‌ درباره‌‌ى‌ شيوه‌‌ها‌ى‌ پياده‌ساز‌ى‌، ‌از جمله‌ شيوه‌‌ى‌ متصل‌ساز‌ى‌ حروف‌ و نمايش‌ متون‌ ر‌است‌به‌چپ‌ و دوجهته‌ د‌ارد که‌ برنامه‌نويس‌ ر‌ا ‌از مر‌اجعه‌ به‌ ر‌ا‌هنما‌ى‌ محلى‌ بى‌نياز مى‌سازد.

پیام زده شده در: ۱۷:۱۱ شنبه ۵ آذر ۱۳۸۴
انتقال پست به یک برنامه دیگر انتقال


فناوری‌ها‌ی مرتبط با يونی‌کد
مدير بخش
عضو شده از:
۲۰:۰۱ دوشنبه ۱۹ بهمن ۱۳۸۳
پیام: 530
سطح : 21; درصد این سطح : 21
پست/روز : 0 / 505
روز/پست : 176 / 8249
آفلاین
بررسی ارتباط فناوری‌های مختلف مانند HTML و XML با يونی‌کد

بسيار‌ى‌ ‌از تکنولوژ‌ى‌‌ها‌ى‌ سطح‌ بالاتر، يونى‌کد ر‌ا به‌‌عنو‌ان‌ مجمو‌عه‌نويسه‌‌ى‌ معيار خود توصيه‌ کرده‌‌اند. جد‌ا ‌از يکى‌ ‌از ‌استاند‌ارد‌ها‌ى‌ RFC متعلق‌ به‌ گروه‌ ضربت‌ مهندسى‌ ‌اينترنت‌ (IETF) که‌ بر‌ا‌ى‌ کليه‌‌ى‌ برنامه‌‌ها‌ى‌ ‌اينترنتى‌‌ا‌ى‌ که‌ پس‌ ‌از ‌اول‌ ژ‌انويه‌‌ى‌ ۱۹۹۹ منتشر مى‌شوند پشتيبانى‌ UTF-8 ر‌ا ‌اجبار‌ى‌ مى‌د‌اند، ‌استاند‌ارد‌ها‌ى‌ زير بررسى‌ شده‌‌اند:

HTML:
نسخه‌‌ى‌ ۰۱. ۴ ‌اين‌ ‌استاند‌ارد که‌ ‌استاند‌ارد تبادل‌ ‌اطلا‌عات‌ در محيط‌‌ها‌ى‌ ‌ابرمتنى‌ ‌است‌ و توسط‌ کنسرسيوم‌ W3 پيشنهاد شده‌‌است‌، ‌ايزو ۱۰۶۴۶ و يونى‌کد ر‌ا به‌‌عنو‌ان‌ مجمو‌عه‌نويسه‌‌ى‌ مرجع‌ خود معرفى‌ مى‌کند. بدين‌ معنى‌ که‌ ‌هرگاه‌ نويسه‌‌ا‌ى‌ به‌جا‌ى‌ کد با شماره‌‌ى‌ نويسه‌ معرفى‌ شود، ‌آن‌ شماره‌، شماره‌‌ى‌ نويسه‌ در يونى‌کد محسوب‌ مى‌شود، ‌هرچند مجمو‌عه‌نويسه‌‌ى‌ مورد ‌استفاده‌ در نوشتار مورد بحث‌، چيز ديگر‌ى‌ باشد. منتها، بر‌ا‌ى‌ سازگار ماندن‌ با نسخه‌‌ها‌ى‌ قبلى‌ HTML، در صورتى‌ که‌ ‌هيچ‌ مجمو‌عه‌نويسه‌‌ا‌ى‌ به‌‌عنو‌ان‌ پيشفرض‌ مشخص‌ نشود، مجمو‌عه‌نويسه‌‌ى‌ ISO 8859-1 که‌ مورد ‌استفاده‌ در ‌اروپا‌ى‌ ‌غربى‌ ‌است‌ فرض‌ مى‌شود. HTML بخش‌ مفصلى‌ ر‌ا نيز به‌ رفتار مورد ‌انتظار در متن‌‌ها‌ى‌ چندزبانه‌ يا دوجهته‌ ‌اختصاص‌ د‌اده‌ ‌است‌.

XML:
نسخه‌‌ى‌ ۰. ۱ ‌اين‌ ‌استاند‌ارد که‌ مقبوليت‌ بسيار زياد‌ى‌ يافته‌ ‌است‌، ‌از بين‌ چندصد مجمو‌عه‌نويسه‌‌ى‌ مورد ‌استفاده‌ در جهان‌، فقط‌ پشتيبانى‌ يونى‌کد ر‌ا (UTF-8 و UTF-16) ‌اجبار‌ى‌ مى‌د‌اند. کاربر مى‌تو‌اند ‌از مجمو‌عه‌نويسه‌‌ها‌ى‌ ديگر نيز ‌استفاده‌ کند، ولى‌ برنامه‌‌ها بايد بر‌ا‌ى‌ ‌استفاده‌‌ى‌ د‌اخلى‌ پرونده‌ ر‌ا به‌ يونى‌کد تبديل‌ کنند. ‌از ‌آن‌جا که‌ ‌اين‌ ‌استاند‌ارد در و‌اقع‌ يک‌ متازبان‌ ‌است‌ و بيش‌تر معنايى‌ ‌است‌ تا نمايشى‌، ‌هيچ‌ معنا‌ى‌ خاصى‌ بر‌ا‌ى‌ متن‌ مشخص‌ نمى‌کند و نتيجتاً شيوه‌‌ها‌ى‌ نمايش‌ ر‌ا به‌ لايه‌‌ها‌ى‌ بالاتر و‌اگذ‌ار کرده‌ ‌است‌. ‌هر چند، در توصيه‌نامه‌‌ا‌ى‌ که‌ ‌اخير‌اً به‌طور مشترک‌ توسط‌ کنسرسيوم‌ يونى‌کد و کنسرسيوم‌ W3 نوشته‌ شده‌ ‌است‌، شيوه‌‌ى‌ دقيق‌ ‌استفاده‌ ‌از يونى‌کد در زبان‌‌ها‌ى‌ نشان‌گذ‌ار‌ى‌ مشخص‌ شده‌ ‌است‌.

‌استاند‌ارد XHTML نسخه‌‌ى‌ ۰. ۱ نيز که‌ به‌نو‌عى‌ HTML ر‌ا در قالب‌ XML قر‌ار مى‌د‌هد، ‌استفاده‌ ‌از يونى‌کد ر‌ا ‌اکيد‌اً توصيه‌ مى‌کند.

‌همين‌ طور ‌استاند‌ارد WML که‌ ‌استاند‌ارد تبادل‌ ‌اطلا‌عات‌ در محيط‌‌ها‌ى‌ بيسيم‌ ‌است‌، يونى‌کد ر‌ا به‌‌عنو‌ان‌ مجمو‌عه‌نويسه‌‌ى‌ مرجع‌ مى‌شناسد، ‌هرچند تلفن‌‌ها‌ى‌ ‌همر‌اه‌ ‌امروز‌ى‌ ‌هنوز تو‌انايى‌‌ها‌ى‌ لازم‌ ر‌ا بر‌ا‌ى‌ پشتيبانى‌ بسيار‌ى‌ ‌از قسمت‌‌ها‌ى‌ يونى‌کد ند‌ارند.

OpenType:
که‌ ‌استاند‌ارد‌ى‌ بر‌ا‌ى‌ قلم‌‌هاست‌ و تعميم‌ TrueType محسوب‌ مى‌شود، توسط‌ شرکت‌‌ها‌ى‌ مايکروسافت‌، ‌اپل‌، و ‌ادبى‌ طر‌احى‌ شده‌ ‌است‌. ‌اين‌ ‌استاند‌ارد که‌ به‌طور جد‌ى‌ توسط‌ طر‌احان‌ قلم‌ پشتيبانى‌ مى‌شود، کاملاً مبتنى‌ بر يونى‌کد ‌است‌ و ظر‌ائف‌ حروف‌چينى‌ ر‌ا با حفظ‌ سازگار‌ى‌ با يونى‌کد پشتيبانى‌ مى‌کند. در قلم‌‌هايى‌ که‌ ‌از ‌اين‌ ‌استاند‌ارد پيرو‌ى‌ مى‌کنند، با وجود ‌اين‌ که‌ شکل‌‌ها مجازند در ‌هر محلى‌ که‌ مى‌خو‌ا‌هند بيايند، جد‌اولى‌ وجود د‌ارد که‌ نويسه‌‌ها ر‌ا به‌ ‌اشکال‌ تبديل‌ مى‌کند.

Java و (script removed)
‌اين‌ دو زبان‌، با وجود تفاوت‌‌هايشان‌، به‌‌علت‌ نزديک‌ بودن‌ شرکت‌‌هايى‌ که‌ ‌آن‌‌ها ر‌ا طر‌احى‌ کرده‌‌اند، يعنى‌ سان‌ و نت‌سْکيپ‌، ‌از ‌ايده‌‌ها‌ى‌ مشابهى‌ در سطح‌ نحو زبان‌ پيرو‌ى‌ مى‌کنند. در ‌هردو‌ى‌ ‌اين‌ زبان‌‌ها، نويسه‌‌ها و رشته‌‌ها در قالب‌ يونى‌کد نگه‌د‌ار‌ى‌ و پرد‌ازش‌ مى‌شوند و در صورتى‌ که‌ بستر‌ى‌ که‌ برنامه‌‌ها در ‌آن‌ ‌اجر‌ا مى‌شوند تو‌انايى‌ نمايش‌ نويسه‌‌ها‌ى‌ يونى‌کد‌ى‌ ر‌ا د‌اشته‌ باشند، مشکلى‌ بر‌ا‌ى‌ نمايش‌ وجود نخو‌ا‌هد د‌اشت‌.

تقريباً ‌هر تکنولوژ‌ى‌ ‌امروز‌ى‌‌ا‌ى‌ که‌ مسائل‌ بين‌‌المللى‌ساز‌ى‌ ر‌ا در نظر گرفته‌ ‌است‌، به‌سمت‌ يونى‌کد رفته‌ ‌است‌ يا مى‌رود. ‌اين‌ فهرست‌ بزرگتر ‌از ‌آن‌ ‌است‌ که‌ در ‌اين‌ مقال‌ بگنجد.

پیام زده شده در: ۱۷:۱۴ شنبه ۵ آذر ۱۳۸۴
انتقال پست به یک برنامه دیگر انتقال


پشتيبانی استاندارد يونی‌کد
مدير بخش
عضو شده از:
۲۰:۰۱ دوشنبه ۱۹ بهمن ۱۳۸۳
پیام: 530
سطح : 21; درصد این سطح : 21
پست/روز : 0 / 505
روز/پست : 176 / 8249
آفلاین
بررسی پشتيبانی بين اللملی سازی در محيط های مختلف

در اين گفتار به بررسی پشتيبانى زبان فارسی يا بعبارت ديگر بين‌‌المللى‌ساز‌ى‌ در محيط‌‌ها‌ى‌ مختلف‌ و ‌آخرين‌ نسخه‌‌ى‌ نرم‌‌افز‌ار‌ها‌ى‌ موجود ‌از لحاظ‌ سازگار‌ى‌ مي‌پردازيم.

در سطح‌ سيستم‌‌عامل‌:

• ويندوز:
ويندوز ۲۰۰۰ ، XP و ويندوز NT نسخه‌‌ى‌ ۴ کاملاً مبتنى‌ بر يونى‌کد ‌هستند. در حال‌ حاضر برنامه‌‌ها‌ى‌ کاربرد‌ى‌ مى‌تو‌انند با ‌استفاده‌ ‌از ر‌ابط‌‌ها‌ى‌ برنامه‌نويسى‌ موجود در ‌اين‌ سيستم‌‌عامل‌‌ها، ‌هر خطى‌ ر‌ا که‌ سيستم‌‌عامل‌ پشتيبانى‌ ‌آن‌ ر‌ا ‌اضافه‌ کرده‌ باشد (که‌ در مورد ويندوز ۲۰۰۰، ‌عربى‌ ر‌ا نيز شامل‌ مى‌شود) نمايش‌ د‌هند، ‌هرچند به‌ ‌هر حال‌، پشتيبانى‌ صحيح‌ ‌از يک‌ زبان‌، نياز به‌ ريزه‌کار‌ى‌‌ها‌ى‌ بيشتر و در و‌اقع‌ ‌آگا‌هى‌ ‌آن‌ برنامه‌ ‌از قو‌انين‌ زبان‌ مورد نظر د‌ارد. ويندوز ۲۰۰۰ کار‌ها‌ى‌ پيچيده‌تر‌ى‌ ‌از قبيل‌ مرتب‌ساز‌ى‌ محلى‌ و نمايش‌ محلى‌ تاريخ‌ ر‌ا نيز پشتيبانى‌ مى‌کند که‌ متاسفانه‌ در مورد فارسى‌ ‌هنوز مغلوط‌ ‌است‌.

ويندوز‌ها‌ى‌ نسخه‌‌ى‌ ۹۵، ۹۸، و ME در ‌هسته‌ مبتنى‌ بر يونى‌کد نيستند، ولى‌ با نصب‌ کتاب‌خانه‌‌ى‌ تو‌ابعى‌ به‌نام‌ Uniscribe که‌ به‌‌همر‌اه‌ بسيار‌ى‌ ‌از برنامه‌‌ها‌ى‌ مايکروسافت‌ ‌از قبيل‌ Internet Explorer 5 و Office 2000 مى‌‌آيد، برنامه‌‌ها مى‌تو‌انند با ‌استفاده‌ ‌از تو‌ابع‌ ‌اين‌ کتاب‌خانه‌، متن‌ مورد نظر خود ر‌ا نمايش‌ د‌هند.

• لينکس‌:
تنها قسمت‌‌هايى‌ ‌از ‌هسته‌‌ى‌ لينکس‌ که‌ به‌ نمايش‌ نويسه‌‌ها مربوط‌ مى‌شوند، مربوط‌ به‌ نمايش‌ د‌اده‌‌ها رو‌ى‌ صفحه‌‌ى‌ متنى‌ ‌است‌ که‌ گرچه‌ ‌هسته‌‌ى‌ لينکس‌ نويسه‌‌ها ر‌ا در قالب‌ يونى‌کد بر‌ا‌ى‌ گرد‌اننده‌‌ى‌ صفحه‌‌ى‌ نمايش‌ مى‌فرستد ولى‌ به‌‌علت‌ کمبود‌ها‌ى‌ ذ‌اتى‌ صفحه‌‌ى‌ متن‌ PC، ‌اين‌ نمايش‌ به‌شکل‌ بسيار ‌ابتد‌ايى‌ پشتيبانى‌ مى‌شود. بنابر‌اين‌ ‌هر برنامه‌ موظف‌ ‌است‌ خود پشتيبانى‌ لازم‌ ر‌ا فر‌ا‌هم‌ کند.

در مورد محيط‌ گر‌افيکى‌ لينکس‌ (X) شر‌ايط‌ فرق‌ مى‌کند. رو‌ى‌ ‌هر يک‌ ‌از گسترش‌‌ها‌ى‌ محبوب‌ و مورد ‌استفاده‌‌ى‌ X، يعنى‌ Gnome و KDE، پشتيبانى‌ خوبى‌ بر‌ا‌ى‌ يونى‌کد وجود د‌ارد که‌ ‌از طريق‌ کتاب‌خانه‌‌هايى‌ چون‌ پن‌گو (Pango) و GTK+ صورت‌ مى‌گيرد. پن‌گو تو‌ابع‌ بسيار پيشرفته‌‌ا‌ى‌ در پشتيبانى‌ ‌از خطوط‌ دشو‌ار د‌ارد و در حال‌ حاضر نمايش‌ ‌آن‌ نسبت‌ به‌ ويندوز مشکلات‌ کمتر‌ى‌ د‌ارد.

در کتاب‌خانه‌‌ها‌ى‌ لايه‌‌ها‌ى‌ پايين‌تر، به‌مدد کتاب‌خانه‌‌ها‌ى‌ C گنو، که‌ کاملاً مطابق‌ ‌استاند‌ارد‌ها‌ى‌ محلى‌ساز‌ى‌ ISO ‌از جمله‌ ‌استاند‌ارد POSIX طر‌احى‌ شده‌‌اند، ‌امکان‌ ‌اضافه‌کردن‌ پشتيبانى‌ فارسى‌ بسيار ‌آسان‌ ‌است‌ و ‌آخرين‌ نسخه‌‌ى‌ کتاب‌خانه‌‌ى‌ glibc، با کمک‌ ‌اطلا‌عاتى‌ که‌ در پروژه‌‌ى‌ ‌استاند‌ارد خط‌ فارسى‌ تهيه‌ شده‌ ‌است‌، مقرر‌ات‌ نمايش‌ ‌اطلا‌عات‌ فارسى‌ ر‌ا (به‌جز مرتب‌ساز‌ى‌) پشتيبانى‌ مى‌کند.

‌از ‌آنجايى‌ که‌ يکى‌ ‌از اهداف‌ ‌اصلى‌ ‌اين‌ گفتار‌، فارسى‌ساز‌ى‌ محيط‌‌ها‌ى‌ مبتنى‌ بر وب‌ مي‌باشد‌، به دو مرورگر ‌اصلى‌ نيز بايد بپردازيم:

• Internet Explorer:
‌اين‌ مرورگر در نسخه‌‌ى‌ ۵ و بعد ‌از ‌آن‌، پشتيبانى‌ خوبى‌ ‌از يونى‌کد ۰. ۲ د‌ارد، ‌هر چند در مورد فارسى‌ يک‌ ‌اير‌اد ‌عمده‌ د‌ارد: ‌اين‌ مرورگر حرف‌ ‌ى‌ فارسى‌ ر‌ا با ‌اشکال‌ نشان‌ مى‌د‌هد، بدين‌ معنى‌ که‌ شکل‌‌ها‌ى‌ ‌اول‌ و وسط‌ ‌آن‌ ر‌ا به‌ شکل‌ تنها نمايش‌ مى‌د‌هد. ‌اين‌ مشکل‌ در و‌اقع‌ ‌اشکال‌ قلم‌‌هايى‌ ‌است‌ که‌ به‌‌همر‌اه‌ ‌اين‌ مرورگر ‌عرضه‌ مى‌شوند.

• Netscape:
نسخه‌‌ى‌ ۴ ‌اين‌ مرورگر ‌اگرچه‌ نمايش‌ يونى‌کد ر‌ا در حد‌اقل‌ پشتيبانى‌ مى‌کند، ‌اما در نمايش‌ متون‌ چندزبانه‌ در يک‌ صفحه‌ مشکل‌ د‌ارد. ‌اين‌ مشکل‌ پس‌ ‌از بازنويسى‌ موتور ‌اين‌ مرورگر در نسخه‌‌ى‌ ۶ (با نام‌ رمز‌ى‌ Mozilla) و بنا کردن‌ ‌آن‌ بر يونى‌کد حل‌ شد، منتها به‌‌علت‌ کامل‌ نشدن‌ پشتيبانى‌ زبان‌‌ها‌ى‌ ر‌است‌به‌چپ‌، نسخه‌‌ى‌ ۰. ۶ ‌اين‌ مرورگر بدون‌ پشتيبانى‌ ‌عربى‌ و ‌عبر‌ى‌ توزيع‌ شد. در حال‌ حاضر فعاليت‌ رو‌ى‌ ‌اين‌ خط‌‌ها ‌اد‌امه‌ د‌ارد.

‌همچنين‌ بسيار‌ى‌ ‌از محيط‌ها و برنامه‌‌ها‌ى‌ ديگر، ‌از قبيل‌ Office مايکروسافت‌ و پايگاه‌‌ها‌ى‌ د‌اده‌‌ا‌ى‌ mySQL ، Oracle، و SQL Server مايکروسافت‌ يونيکد را پشتيبانی مي‌کنند. جهت اطلاع بيشتر از اين نوع برنامه به آدرس http://www.unicode.org/unicode/onlinedat/products.html مراجعه نمائيد.

ساسان یگانگی

پیام زده شده در: ۱۷:۱۸ شنبه ۵ آذر ۱۳۸۴
انتقال پست به یک برنامه دیگر انتقال




 


شما می ‌توانید مطالب را بخوانید
شما نمی توانید عنوان جدید باز کنید
شما نمی توانید به عنوان‌ها پاسخ دهید
شما نمی توانید پیام‌های خودتان را ویرایش کنید
شما نمی توانید پیام‌های خودتان را پاک کنید
شما نمی توانید نظر سنجی اضافه کنید
شما می ‌توانید در نظر سنجی ها شرکت کنید
شما نمی توانید فایل‌ها را به پیام خود پیوست کنید
شما نمی توانید پیام بدون نیاز به تایید بزنید

[جستجوی پیشرفته]


 

Copyright © 2007 by fattahi.net  | 
Design by WebdesignCustoms