در حال دیدن این عنوان:
1 کاربر مهمان
فارسی در وب |
||
|---|---|---|
|
مدير بخش
![]()
عضو شده از:
۲۰:۰۱ دوشنبه ۱۹ بهمن ۱۳۸۳ پیام:
530
سطح : 21; درصد این سطح : 21
پست/روز : 0 / 505 روز/پست : 176 / 8249 ![]() |
آشنائی با مشکلات زبان فارسی در اينترنت و کارهای در دست اقدام
از زمانى که اولين گزارش زبان فارسى و کامپيوتر در سال ۱۳۵۶ در دانشکدهى رياضى و علوم کامپيوتر دانشگاه صنعتى شريف نوشته شد تا امروز که شبکهى اينترنت چهرهى ديگرى به اطلاعرسانى داده است، مدتها گذشته است. امروزه ديگر محدوديت سختافزارها يا نرمافزارها نمىتواند مانع پيادهسازى يک سيستم ذخيرهسازى، نمايش، و تبادل اطلاعات چندزبانه شود. موسسات بزرگ استانداردسازىاى چون ايزو و W3 Consortium نيز، ديگر در استانداردهايشان مشکلات و مسائل مربوط به بينالمللىسازى را در نظر مىگيرند. منتهاى امر، به نظر مىرسد که زبان فارسى قدرى غريب مانده است. بهعنوان مثال، هنوز در بين صدها مجموعهنويسهى ثبتشده در اينترنت توسط يانا (Internet Assigned Number Authority)، تنها يکى به فارسى اختصاص دارد و آن هم مجموعهکد فارسى اختصاصى شرکت آىبىام است. مرورگرهاى پرکاربر مثل Netscape Communicator و Internet Explorer نيز به علت نامعلوم بودن وضعيت زبان فارسى، پشتيبانى آن را مسکوت گذاشتهاند، که سببساز بىنظمى موجود و مشکلات آشناى فعلى در سايتهاى وب فارسى گشته است. حتى در مورد استاندارد ذخيرهسازى و تبادل اطلاعات نيز قالبى که مورد توافق همه باشد وجود ندارد. سه قالب استاندارد موجود، ايرانسيستم، استاندارد ۲۹۰۰، و استاندارد ۳۳۴۲ هر يک مشکلاتى دارند که سبب شده است شرکتها و موسسات داخلى به جدولهاى خاص خود روى آورند. در هر يک از مسائل خاص مربوط به تبادل اطلاعات، اخيراً راهحلهايى براى بينالمللىسازى پيشنهاد شده است، ولى هرچند اين راهحلها بسيار ساختيافتهتر از راهحلهايى که در ايران پيشنهاد شده است هستند، به علت عدم دسترسى استانداردگذاران به مراجع موثق در مورد خط و زبان فارسى، مسائل اين زبان يا در نظر گرفته نشده است، ويا به شکل ناقص منظور شده است. بنابراين نياز به تصحيح اين استانداردها احساس مىشود. البته خوشبختانه بسيارى از اين استانداردها امکان گسترش بعدى را در نظر گرفتهاند که اين روند را تسهيل مىکند. از جملهى اين استانداردهاى بينالمللى، مىتوان به استاندارد يونىکد (منطبق بر استاندارد ايزو ۱۰۶۴۶) اشاره کرد. اين استاندارد، تقريباً توسط تمامى شرکتهاى بينالمللى کامپيوترى، مثل آىبىام، مايکروسافت، و سان، و نيز موسسات ملى استاندارد در کشورهاى مختلف جهان براى تبادل اطلاعات چندزبانه مورد توافق قرار گرفته است و سرعت رشد بسيار زيادى نيز در ميان کاربران دارد. همينطور، در حال حاضر کليهى استانداردهاى جديدى که براى شبکهى اينترنت طراحى مىشوند، اين دو استاندارد را بهعنوان مجموعهکد پيشفرض مىپذيرند که استاندارد XML و زبان جاوا از آن جملهاند. نياز مبرمى به حضور در اين کنسرسيوم از طرف ايرانيان و فارسىزبانان احساس مىشد. در همين راستا پروژهای تحت عنوان استاندارد خط فارسى در يونىکد، بر اساس قرارداد منعقده بين شوراى عالى انفورماتيک و دانشگاه صنعتى شريف تعريف شده است که به بررسى مسائل امروز خط فارسى و ترويج راهحلهاى استاندارد تبادل اطلاعات در شرايط امروزى فراگير شدن شبکهى جهانى اينترنت مىپردازد. در اين پروژه مشکلات نظرى و عملى موجود در راه تبادل اطلاعات فارسى از طريق استاندارد يونىکد بررسى مىشوند. اميد است با به نتيجه رسيدن اين پروژه مشکلات و مسائل خط فارسی در دنيای اينترنت و ديجيتال بخصوص در وب برای هميشه برطرف گردد. اما بايد دقت داشت که عليرغم وجود اين مشکلات، همانطور که در اين وب سايت مشاهده می کنيد، بازهم ميتوان کارهائی را پيش برده و وب سايت فارسی استاندارد داشت.
پیام زده شده در: ۱۷:۰۸ شنبه ۵ آذر ۱۳۸۴
|
|
انتقال
|
||
استاندارد يونیکد |
||
|---|---|---|
|
مدير بخش
![]()
عضو شده از:
۲۰:۰۱ دوشنبه ۱۹ بهمن ۱۳۸۳ پیام:
530
سطح : 21; درصد این سطح : 21
پست/روز : 0 / 505 روز/پست : 176 / 8249 ![]() |
معرفی استاندارد يونیکد و ويژگیهای آن
استاندارد يونىکد استاندارد جهانى کدگذارى نويسههاست که براى ارائهى متون براى پردازش کامپيوترى بهکار مىرود. اين استاندارد با ويرايش دوم استاندارد بينالمللى ISO/IEC 10646-1:2000 کاملاً سازگار است و همان نويسهها و کدهاى ISO/IEC 10646 را دارد. استاندارد يونىکد اطلاعات بيشترى نيز در مورد نويسهها و کاربردهايشان فراهم کرده است، پس در واقع هر پيادهسازى سازگار با يونىکد، با ISO/IEC 10646 نيز سازگار است. يونىکد امکان کدگذارى همهى نويسههاى مورد استفاده در نوشتن زبانهاى دنيا را فراهم مىسازد. اين استاندارد از کدگذارى ۱۶بيتىاى استفاده مىکند که براى بيش از ۰۰۰'۶۵ نويسه جا فراهم مىکند. اگر چه ۰۰۰'۶۵ نويسه براى کدگذارى اکثر نويسههايى که در زبانهاى مهم دنيا استفاده مىشود کافى است، يونىکد و ISO 10646 شيوهى گسترشى بهنام UTF-16 فراهم کردهاند که امکان اضافه کردن حدود يک ميليون نويسهى ديگر را نيز مىدهد. اين دامنه براى کليهى نويسههاى عالم، از جمله پوشش کامل همهى خطهاى باستانى نيز کافى است. يونىکد براى کليه نويسههاى مورد استفاده در زبانهاى عمدهى دنيا کد تعيين کرده است. بهعلت فراخ بودن فضاى تخصيص نويسه، اين استاندارد بسيارى از نمادهاى لازم براى حروفچينى با کيفيت بالا را نيز در بر گرفته است. از خطهاى مورد پشتيبانى اين استاندارد مىتوان به لاتين (در بر گيرندهى اکثر زبانهاى اروپايى)، سيريليک (روسى، صربى، )، يونانى، عربى (شامل عربى، فارسى، اردو، کردى، )، عبرى، هندى، ارمنى، آسورى، چينى، کاتاکانا و هيراگانا (ژاپنى)، و هانگول (کرهاى) اشاره کرد. بهعلاوه، تعداد زيادى نماد رياضى و فنى، علائم نقطهگذارى، پيکان، و علامتهاى متفرقه در اين استاندارد وجود دارد. اين استاندارد براى علامتهاى ترکيبشونده يا اعرابها نيز کدهايى در نظر گرفته است که از جملهى آنها علامتهايى چون هستند که در ترکيب با حروف پايه، حروف تغييرلحنيافتهاى چون را مىسازند. آخرين نسخهى يونىکد، در مجموع، ۱۹۴'۴۹ نويسه دارد. بهعلاوه، ۴۰۰'۶ کد نيز براى مصرف خصوصى در نظر گرفته شده است که برنامهنويسان مىتوانند از آنها براى نويسهها و نمادهاى خودشان استفاده کنند. بهطور کلى، اصول يونىکد به شرح زيرند: • نويسههاى شانزدهبيتى • ترتيب مفهومى (در مقابل ديدارى) • کارايى • يکىسازى (اختصاص يک کد به نويسههاى مشترک در چند زبان مختلف) • نويسه، نه شکل (يک ع، و نه چهارتا: ﻋ، ﻌ، ﻊ، ﻉ) • ترکيب پويا • بار معنايى (حرف بودن، مقدار عددى، ...) • دنبالههاى معادل (امکان ذخيرهسازى يک متن به دو شکل مختلف ولى معادل) • متن ساده (و نه مفاهيمى مثل تغيير قلم، جدولبندى، و صفحهآرايى) • قابليت تبديل (هر متن موجود در قالب يک مجموعهنويسهى سنّتى بايد بدون از بين رفتن معنا قابل تبديل به يونىکد باشد) يونىکد شيوهاى نيز براى کدگذارى ۸بيتى متون مشخص کرده است که نويسهها را پس از اعمال يک تابع خاص به کدشان، بهصورت دنبالههايى که از يک تا چهار بايت دارند نگه مىدارد. اين شيوه که با نام UTF-8 شناخته مىشود، به اين خاطر که نويسههاى اسکى را عيناً حفظ مىکند و در نتيجه، هم برنامههاى قديمى راحتتر با آن کنار مىآيند و هم طول پروندههاى لاتين را زياد نمىکند، بسيار محبوب است. در واقع بسيارى از سيستمهايى که ادعاى پشتيبانى يونىکد را مىکنند، تنها UTF-8 را پشتيبانى مىکنند و پروندههاى يونىکدى، اعم از کاربردهاى اينترنتى يا موارد استفادهى محلى، عمدتاً در قالب UTF-8 ذخيره شدهاند. در استاندارد يونىکد، نويسههاى فارسى در بلوک مربوط به خط عربى قرار دارند. اين بلوک براى دربرگرفتن نويسههاى زبانهايى که از خط عربى استفاده مىکنند، مثل فارسى، اردو، پشتو، سندى، و کردى گسترش يافته است. اين بلوک نشانههاى قرآنى از قبيل نشانههاى سجده و پايان آيه، و علائم وقف را نيز در بر دارد. در يونىکد با وجود يکىسازى کدهاى حروف مشترک، براى حروف فارسىاى که بار معنايى يا نمايشى متفاوت با حروف عربى دارند، نويسههاى جداگانه در نظر گرفته شده است. يعنى کليهى حروف خاص فارسى (پ، چ، ژ، گ) و نيز ک و ىى فارسى که با حرف مشابه در عربى تفاوت نمايشى دارند، مکان جداگانهاى به خود اختصاص دادهاند. کليهى اعرابهاى متداول حضور دارند و ميان شکل فارسى/اردو و عربى ارقام نيز بهعلت شکل و رفتار متفاوت تفاوتهايى منظور گشته است. از طرف ديگر، علائم نقطهگذارىاى چون نقطه و فاصله که شکل يکسانى در خطهاى لاتين و عربى دارند، کد يکسان دارند. علائمى چون پرانتز نيز، بسته به جهت متن، آينهاى مىشوند، يعنى بهطور مثال، نويسهى 0028 نمايندهى پرانتز باز است، و نه پرانتز سمت چپ. يونىکد اتصال مجازى و فاصلهى مجازى را نيز تحت نامهاى اتصال با عرض صفر و بىاتصالى با عرض صفر به رسميت مىشناسد. بهخاطر سازگارى با استانداردهاى موجود در بعضى از کشورهاى عربى، ISO 10646 و نتيجتاً يونىکد بلوک جداگانهاى را نيز به شکلهاى مختلف حروف عربى اختصاص داده است که استفاده از آنها شديداً منع شده است. اين بلوک معمولاً فقط براى تعيين جاى شکلهاى مختلف حروف در قلمها بهکار مىرود. همچنين اين استاندارد توضيحات مفصل و دقيقى دربارهى شيوههاى پيادهسازى، از جمله شيوهى متصلسازى حروف و نمايش متون راستبهچپ و دوجهته دارد که برنامهنويس را از مراجعه به راهنماى محلى بىنياز مىسازد.
پیام زده شده در: ۱۷:۱۱ شنبه ۵ آذر ۱۳۸۴
|
|
انتقال
|
||
فناوریهای مرتبط با يونیکد |
||
|---|---|---|
|
مدير بخش
![]()
عضو شده از:
۲۰:۰۱ دوشنبه ۱۹ بهمن ۱۳۸۳ پیام:
530
سطح : 21; درصد این سطح : 21
پست/روز : 0 / 505 روز/پست : 176 / 8249 ![]() |
بررسی ارتباط فناوریهای مختلف مانند HTML و XML با يونیکد
بسيارى از تکنولوژىهاى سطح بالاتر، يونىکد را بهعنوان مجموعهنويسهى معيار خود توصيه کردهاند. جدا از يکى از استانداردهاى RFC متعلق به گروه ضربت مهندسى اينترنت (IETF) که براى کليهى برنامههاى اينترنتىاى که پس از اول ژانويهى ۱۹۹۹ منتشر مىشوند پشتيبانى UTF-8 را اجبارى مىداند، استانداردهاى زير بررسى شدهاند: HTML: نسخهى ۰۱. ۴ اين استاندارد که استاندارد تبادل اطلاعات در محيطهاى ابرمتنى است و توسط کنسرسيوم W3 پيشنهاد شدهاست، ايزو ۱۰۶۴۶ و يونىکد را بهعنوان مجموعهنويسهى مرجع خود معرفى مىکند. بدين معنى که هرگاه نويسهاى بهجاى کد با شمارهى نويسه معرفى شود، آن شماره، شمارهى نويسه در يونىکد محسوب مىشود، هرچند مجموعهنويسهى مورد استفاده در نوشتار مورد بحث، چيز ديگرى باشد. منتها، براى سازگار ماندن با نسخههاى قبلى HTML، در صورتى که هيچ مجموعهنويسهاى بهعنوان پيشفرض مشخص نشود، مجموعهنويسهى ISO 8859-1 که مورد استفاده در اروپاى غربى است فرض مىشود. HTML بخش مفصلى را نيز به رفتار مورد انتظار در متنهاى چندزبانه يا دوجهته اختصاص داده است. XML: نسخهى ۰. ۱ اين استاندارد که مقبوليت بسيار زيادى يافته است، از بين چندصد مجموعهنويسهى مورد استفاده در جهان، فقط پشتيبانى يونىکد را (UTF-8 و UTF-16) اجبارى مىداند. کاربر مىتواند از مجموعهنويسههاى ديگر نيز استفاده کند، ولى برنامهها بايد براى استفادهى داخلى پرونده را به يونىکد تبديل کنند. از آنجا که اين استاندارد در واقع يک متازبان است و بيشتر معنايى است تا نمايشى، هيچ معناى خاصى براى متن مشخص نمىکند و نتيجتاً شيوههاى نمايش را به لايههاى بالاتر واگذار کرده است. هر چند، در توصيهنامهاى که اخيراً بهطور مشترک توسط کنسرسيوم يونىکد و کنسرسيوم W3 نوشته شده است، شيوهى دقيق استفاده از يونىکد در زبانهاى نشانگذارى مشخص شده است. استاندارد XHTML نسخهى ۰. ۱ نيز که بهنوعى HTML را در قالب XML قرار مىدهد، استفاده از يونىکد را اکيداً توصيه مىکند. همين طور استاندارد WML که استاندارد تبادل اطلاعات در محيطهاى بيسيم است، يونىکد را بهعنوان مجموعهنويسهى مرجع مىشناسد، هرچند تلفنهاى همراه امروزى هنوز توانايىهاى لازم را براى پشتيبانى بسيارى از قسمتهاى يونىکد ندارند. OpenType: که استانداردى براى قلمهاست و تعميم TrueType محسوب مىشود، توسط شرکتهاى مايکروسافت، اپل، و ادبى طراحى شده است. اين استاندارد که بهطور جدى توسط طراحان قلم پشتيبانى مىشود، کاملاً مبتنى بر يونىکد است و ظرائف حروفچينى را با حفظ سازگارى با يونىکد پشتيبانى مىکند. در قلمهايى که از اين استاندارد پيروى مىکنند، با وجود اين که شکلها مجازند در هر محلى که مىخواهند بيايند، جداولى وجود دارد که نويسهها را به اشکال تبديل مىکند. Java و (script removed) اين دو زبان، با وجود تفاوتهايشان، بهعلت نزديک بودن شرکتهايى که آنها را طراحى کردهاند، يعنى سان و نتسْکيپ، از ايدههاى مشابهى در سطح نحو زبان پيروى مىکنند. در هردوى اين زبانها، نويسهها و رشتهها در قالب يونىکد نگهدارى و پردازش مىشوند و در صورتى که بسترى که برنامهها در آن اجرا مىشوند توانايى نمايش نويسههاى يونىکدى را داشته باشند، مشکلى براى نمايش وجود نخواهد داشت. تقريباً هر تکنولوژى امروزىاى که مسائل بينالمللىسازى را در نظر گرفته است، بهسمت يونىکد رفته است يا مىرود. اين فهرست بزرگتر از آن است که در اين مقال بگنجد.
پیام زده شده در: ۱۷:۱۴ شنبه ۵ آذر ۱۳۸۴
|
|
انتقال
|
||
پشتيبانی استاندارد يونیکد |
||
|---|---|---|
|
مدير بخش
![]()
عضو شده از:
۲۰:۰۱ دوشنبه ۱۹ بهمن ۱۳۸۳ پیام:
530
سطح : 21; درصد این سطح : 21
پست/روز : 0 / 505 روز/پست : 176 / 8249 ![]() |
بررسی پشتيبانی بين اللملی سازی در محيط های مختلف
در اين گفتار به بررسی پشتيبانى زبان فارسی يا بعبارت ديگر بينالمللىسازى در محيطهاى مختلف و آخرين نسخهى نرمافزارهاى موجود از لحاظ سازگارى ميپردازيم. در سطح سيستمعامل: • ويندوز: ويندوز ۲۰۰۰ ، XP و ويندوز NT نسخهى ۴ کاملاً مبتنى بر يونىکد هستند. در حال حاضر برنامههاى کاربردى مىتوانند با استفاده از رابطهاى برنامهنويسى موجود در اين سيستمعاملها، هر خطى را که سيستمعامل پشتيبانى آن را اضافه کرده باشد (که در مورد ويندوز ۲۰۰۰، عربى را نيز شامل مىشود) نمايش دهند، هرچند به هر حال، پشتيبانى صحيح از يک زبان، نياز به ريزهکارىهاى بيشتر و در واقع آگاهى آن برنامه از قوانين زبان مورد نظر دارد. ويندوز ۲۰۰۰ کارهاى پيچيدهترى از قبيل مرتبسازى محلى و نمايش محلى تاريخ را نيز پشتيبانى مىکند که متاسفانه در مورد فارسى هنوز مغلوط است. ويندوزهاى نسخهى ۹۵، ۹۸، و ME در هسته مبتنى بر يونىکد نيستند، ولى با نصب کتابخانهى توابعى بهنام Uniscribe که بههمراه بسيارى از برنامههاى مايکروسافت از قبيل Internet Explorer 5 و Office 2000 مىآيد، برنامهها مىتوانند با استفاده از توابع اين کتابخانه، متن مورد نظر خود را نمايش دهند. • لينکس: تنها قسمتهايى از هستهى لينکس که به نمايش نويسهها مربوط مىشوند، مربوط به نمايش دادهها روى صفحهى متنى است که گرچه هستهى لينکس نويسهها را در قالب يونىکد براى گردانندهى صفحهى نمايش مىفرستد ولى بهعلت کمبودهاى ذاتى صفحهى متن PC، اين نمايش بهشکل بسيار ابتدايى پشتيبانى مىشود. بنابراين هر برنامه موظف است خود پشتيبانى لازم را فراهم کند. در مورد محيط گرافيکى لينکس (X) شرايط فرق مىکند. روى هر يک از گسترشهاى محبوب و مورد استفادهى X، يعنى Gnome و KDE، پشتيبانى خوبى براى يونىکد وجود دارد که از طريق کتابخانههايى چون پنگو (Pango) و GTK+ صورت مىگيرد. پنگو توابع بسيار پيشرفتهاى در پشتيبانى از خطوط دشوار دارد و در حال حاضر نمايش آن نسبت به ويندوز مشکلات کمترى دارد. در کتابخانههاى لايههاى پايينتر، بهمدد کتابخانههاى C گنو، که کاملاً مطابق استانداردهاى محلىسازى ISO از جمله استاندارد POSIX طراحى شدهاند، امکان اضافهکردن پشتيبانى فارسى بسيار آسان است و آخرين نسخهى کتابخانهى glibc، با کمک اطلاعاتى که در پروژهى استاندارد خط فارسى تهيه شده است، مقررات نمايش اطلاعات فارسى را (بهجز مرتبسازى) پشتيبانى مىکند. از آنجايى که يکى از اهداف اصلى اين گفتار، فارسىسازى محيطهاى مبتنى بر وب ميباشد، به دو مرورگر اصلى نيز بايد بپردازيم: • Internet Explorer: اين مرورگر در نسخهى ۵ و بعد از آن، پشتيبانى خوبى از يونىکد ۰. ۲ دارد، هر چند در مورد فارسى يک ايراد عمده دارد: اين مرورگر حرف ى فارسى را با اشکال نشان مىدهد، بدين معنى که شکلهاى اول و وسط آن را به شکل تنها نمايش مىدهد. اين مشکل در واقع اشکال قلمهايى است که بههمراه اين مرورگر عرضه مىشوند. • Netscape: نسخهى ۴ اين مرورگر اگرچه نمايش يونىکد را در حداقل پشتيبانى مىکند، اما در نمايش متون چندزبانه در يک صفحه مشکل دارد. اين مشکل پس از بازنويسى موتور اين مرورگر در نسخهى ۶ (با نام رمزى Mozilla) و بنا کردن آن بر يونىکد حل شد، منتها بهعلت کامل نشدن پشتيبانى زبانهاى راستبهچپ، نسخهى ۰. ۶ اين مرورگر بدون پشتيبانى عربى و عبرى توزيع شد. در حال حاضر فعاليت روى اين خطها ادامه دارد. همچنين بسيارى از محيطها و برنامههاى ديگر، از قبيل Office مايکروسافت و پايگاههاى دادهاى mySQL ، Oracle، و SQL Server مايکروسافت يونيکد را پشتيبانی ميکنند. جهت اطلاع بيشتر از اين نوع برنامه به آدرس http://www.unicode.org/unicode/onlinedat/products.html مراجعه نمائيد. ساسان یگانگی
پیام زده شده در: ۱۷:۱۸ شنبه ۵ آذر ۱۳۸۴
|
|
انتقال
|
||
شما می توانید مطالب را بخوانید
شما نمی توانید عنوان جدید باز کنید
شما نمی توانید به عنوانها پاسخ دهید
شما نمی توانید پیامهای خودتان را ویرایش کنید
شما نمی توانید پیامهای خودتان را پاک کنید
شما نمی توانید نظر سنجی اضافه کنید
شما می توانید در نظر سنجی ها شرکت کنید
شما نمی توانید فایلها را به پیام خود پیوست کنید
شما نمی توانید پیام بدون نیاز به تایید بزنید









ورود











انتقال




