informal_normalizer
این ماژول شامل کلاسها و توابعی برای نرمالسازی متنهای محاورهای است.
InformalNormalizer
¶
کلاس(های) پایه:
Normalizer
این کلاس شامل توابعی برای نرمالسازی متنهای محاورهای است.
پارامترها:
نام | نوع | توضیحات | پیشفرض |
---|---|---|---|
verb_file |
str
|
فایل حاوی افعال محاورهای. |
informal_verbs
|
word_file |
str
|
فایل حاوی کلمات محاورهای. |
informal_words
|
seperation_flag |
bool
|
اگر |
False
|
**kargs |
str
|
پارامترهای نامدارِ اختیاری |
{}
|
split_token_words(token)
¶
هرجایی در متن فاصله نیاز بود قرار میدهد.
متأسفانه در برخی از متنها، به بهانهٔ صرفهجویی در زمان یا از سرِ تنبلی، فاصلهگذاریها درست رعایت نمیشود. مثلاً جملهٔ «تو را دوست دارم.» به این شکل نوشته میشود: «تورادوست دارم.» این تابع فواصل ضروری را در متن ایجاد میکند و آن را به شکل صحیح برمیگرداند.
پارامترها:
نام | نوع | توضیحات | پیشفرض |
---|---|---|---|
token |
str
|
توکنی که باید فاصلهگذاری شود. |
اجباری |
خروجیها:
نوع | توضیحات |
---|---|
str
|
توکنی با فاصلهگذاری صحیح. |
normalized_word(word)
¶
اشکال مختلف نرمالایزشدهٔ کلمه را برمیگرداند.
مثالها:
>>> normalizer = InformalNormalizer()
>>> normalizer.normalized_word('میرم')
['میروم', 'میرم']
پارامترها:
نام | نوع | توضیحات | پیشفرض |
---|---|---|---|
word |
str
|
کلمهای که باید نرمالسازی شود. |
اجباری |
خروجیها:
نوع | توضیحات |
---|---|
List[str]
|
اشکال نرمالایزشدهٔ کلمه. |
normalize(text)
¶
متن محاورهای را به متن فارسی معیار تبدیل میکند.
مثالها:
>>> normalizer = InformalNormalizer()
>>> normalizer.normalize('بابا یه شغل مناسب واسه بچه هام پیدا کردن که به جایی برنمیخوره !')
[[['بابا'], ['یک'], ['شغل'], ['مناسب'], ['برای'], ['بچه'], ['هایم'], ['پیدا'], ['کردن', 'کردند'], ['که'], ['به'], ['جایی'], ['برنمیخورد', 'برنمیخوره'], ['!']]]
>>> normalizer = InformalNormalizer()
>>> normalizer.normalize('اجازه بدیم همسرمون در جمع خانوادهاش احساس آزادی کنه و فکر نکنه که ما دائم هواسمون بهش هست .')
[[['اجازه'], ['بدهیم'], ['همسرمان'], ['در'], ['جمع'], ['خانوادهاش'], ['احساس'], ['آزادی'], ['کند'], ['و'], ['فکر'], ['نکند', 'نکنه'], ['که'], ['ما'], ['دائم'], ['حواسمان'], ['بهش'], ['هست'], ['.']]]
پارامترها:
نام | نوع | توضیحات | پیشفرض |
---|---|---|---|
text |
str
|
متن محاورهای که باید تبدیل به متن فارسی معیار شود. |
اجباری |
خروجیها:
نوع | توضیحات |
---|---|
List[List[List[str]]]
|
متن فارسی معیار. |
informal_conjugations(verb)
¶
صورتهای صرفی فعل را در شکل محاورهای تولید میکند.
پارامترها:
نام | نوع | توضیحات | پیشفرض |
---|---|---|---|
verb |
str
|
فعلی که باید صرف شود. |
اجباری |
خروجیها:
نوع | توضیحات |
---|---|
List[str]
|
صورتهای صرفی فعل. |