استخراج کلمات کلیدی
وقتی در حال پیمایش لیست پیامها، توییتها، خبرها و ... هستید در واقع مشغول استخراج کلمات کلیدی هستید. شما براساس برخی از کلمات کلیدی تصمیم میگیرید که متنی را بخوانید یا نه. الگوریتمهای استخراج کلمات کلیدی در NLP نیز هر کدام به روشی سعی دارند این رفتار انسان را تقلید کنند. استخراج کلمات کلیدی، رویکردی تحلیلگرانه برای شناسایی پرکاربردترین و ضروریترین واژهها و عباراتِ یک متن است. این کار برای شناسایی مفهوم اصلی متن ضروری است.
در این مثال قصد داریم با کمک هضم و برخی از کتابخانههای پردازش زبان، کلمات کلیدی یک متن را استخراج کنیم. در تمام الگوریتمهای استخراج کلمات کلیدی، ابتدا باید متن خام ورودی نرمالسازی، توکنایز و برچسبگذاری شود که انجام این کارها به سادگی توسط کتابخانهٔ هضم میسر است.
الگوریتمهای مختلفی برای استخراج کلمات کلیدی وجود دارد. ما در این مقاله از روش Text Rank استفاده کردهایم. در روش Text Rank متن ورودی ابتدا به جملات و کلمات شکسته میشود و سپس گراف معنایی آن ایجاد میشود. در این گراف، هر کلمه یا جمله نقش یک گره را بازی میکند و یالهای بین گرهها، روابط معنایی بین آنهاست. اهمیت هر گره به این صورت مشخص میشود که اگر گرهای (یعنی کلمه یا جملهای) با کلمات و جملات همجوار، همبستگی بیشتری داشت اهمیت بیشتری دارد.
بیایید جزئیات بیشتر را از طریق کد بررسی کنیم.
ابتدا آخرین نسخهٔ هضم و تمام کتابخانههایی را که در مثال زیر ایمپورت شدهاند نصب کنید.
pip install hazm
import numpy as np
import nltk
import re
import string
import warnings
import gensim
from sklearn.metrics.pairwise import cosine_similarity
from configparser import ConfigParser
from functools import reduce
from gensim.models import Doc2Vec
from hazm.Embedding import SentEmbedding
from hazm import *
متنی را برای استخراج کلمات کلیدی آن در نظر بگیرید.
text = 'سفارت ایران در مادرید درباره فیلم منتشرشده از «حسن قشقاوی» در مراسم سال نو در کاخ سلطنتی اسپانیا و حاشیهسازیها در فضای مجازی اعلام کرد: به تشریفات دربار کتباً اعلام شد سفیر بدون همراه در مراسم حضور خواهد داشت و همچون قبل به دلایل تشریفاتی نمیتواند با ملکه دست بدهد. همانگونه که کارشناس رسمی تشریفات در توضیحات خود به یک نشریه اسپانیایی گفت این موضوع توضیح مذهبی داشته و هرگز به معنی بیاحترامی به مقام و شخصیت زن آن هم در سطح ملکه محترمه یک کشور نیست.'
keyword_count = 10
نرمالسازی متن و استخراج توکنها توسط هضم¶
متن ورودی را با کمک نرمالایزر هضم نرمالسازی میکنیم و پس از آن با کمک توکنایزر به جملات و در نهایت به کلمات میشکنیم.
normalizer = Normalizer()
normalize_text = normalizer.normalize(text)
tokenize_text = [word_tokenize(txt) for txt in sent_tokenize(normalize_text)]
tokenize_text
[['سفارت',
'ایران',
'در',
'مادرید',
'درباره',
'فیلم',
'منتشرشده',
...]]
استخراج تگ POS برای هر یک از کلمات¶
بعد از لودکردن مدل POS، هر یک از کلمات را با ماژول POSTagger هضم برچسبگذاری میکنیم.
model_path = 'pos_tagger.model'
tagger = POSTagger(model = model_path)
token_tag_list = tagger.tag_sents(tokenize_text)
token_tag_list
[[('سفارت', 'NOUN,EZ'),
('ایران', 'NOUN'),
('در', 'ADP'),
('مادرید', 'NOUN'),
('درباره', 'ADP,EZ'),
('فیلم', 'NOUN,EZ'),
('منتشرشده', 'ADJ'),
...]]
استخراج کاندیداها¶
با استفاده از چند گرامر، کاندیداها را پیدا میکنیم.
grammers = [
"""
NP:
{<NOUN,EZ>?<NOUN.*>} # Noun(s) + Noun(optional)
""",
"""
NP:
{<NOUN.*><ADJ.*>?} # Noun(s) + Adjective(optional)
"""
]
## you can also add your own grammer to be extracted from the text...
def extract_candidates(tagged, grammer):
keyphrase_candidate = set()
np_parser = nltk.RegexpParser(grammer)
trees = np_parser.parse_sents(tagged)
for tree in trees:
for subtree in tree.subtrees(filter=lambda t: t.label() == 'NP'): # For each nounphrase
# Concatenate the token with a space
keyphrase_candidate.add(' '.join(word for word, tag in subtree.leaves()))
keyphrase_candidate = {kp for kp in keyphrase_candidate if len(kp.split()) <= 5}
keyphrase_candidate = list(keyphrase_candidate)
return keyphrase_candidate
all_candidates = set()
for grammer in grammers:
all_candidates.update(extract_candidates(token_tag_list, grammer))
all_candidates = np.array(list(all_candidates))
print(np.array(list(all_candidates)))
['مقام' 'توضیح' 'اسپانیا' 'ملکه محترمه' 'توضیح مذهبی' 'ملکه'
'تشریفات دربار' 'معنی بیاحترامی' 'توضیحات' 'دلایل' 'سفارت' 'کشور'
'فضای' 'مراسم' 'موضوع' 'سفارت ایران' 'حاشیهسازیها' 'ایران'
'شخصیت زن' 'بیاحترامی' 'سطح' 'حضور' 'سال نو' 'دست' 'دلایل تشریفاتی'
'نشریه اسپانیایی' 'سفیر' 'حسن' 'کارشناس رسمی' 'فیلم' 'کارشناس'
'مراسم سال' 'مادرید' 'تشریفات' 'کاخ' 'معنی' 'فیلم منتشرشده' 'سطح ملکه'
'کاخ سلطنتی' 'همانگونه' 'دربار' 'اعلام' 'زن' 'حسن قشقاوی' 'نشریه'
'قشقاوی' 'فضای مجازی' 'همراه' 'شخصیت']
لودکردن مدل Sent2Vec¶
مدل sent2vec را لود میکنیم.
sent2vec_model_path = 'sent2vec.model'
sent2vec_model = SentEmbedding(sent2vec_model_path)
استخراج وکتور برای هر یک از کاندیداها و کل متن¶
با کمک مدلی که در مرحله قبل لود شد هر یک از کاندیداها را به وکتور متناظر تبدیل میکنیم و همانند آن یکبار هم با ترکیب تمام کاندیداهای یک وکتور، به عنوان وکتور نمایندهٔ متن تعیین میکنیم.
all_candidates_vectors = [sent2vec_model[candidate] for candidate in all_candidates]
all_candidates_vectors[0:2]
[array([-0.01188162, -0.01629335, -0.02919522, -0.00783677, -0.00102758,
-0.03208233, -0.01709846, 0.0117062 , 0.03449516, 0.07738346,
...],dtype=float32),
array([ 1.61259193e-02, -2.24474519e-02, -3.80111709e-02, 2.28938404e-02,
1.09725883e-02, 3.17719281e-02, 6.31656572e-02, 8.05895310e-03,
...],dtype=float32)]
candidates_concatinate = ' '.join(all_candidates)
whole_text_vector = sent2vec_model[candidates_concatinate]
whole_text_vector
array([ 4.67376083e-01, 1.41185641e-01, -4.01345827e-02, 8.06454271e-02,
2.87257284e-01, -1.73859105e-01, 2.10984781e-01, -4.19053972e-01,
...], dtype=float32)
یافتن شباهت کسینوسی کاندیداها و کل متن¶
شباهت کسینوسی بین هریک از کاندیداها و وکتور نمایندهٔ متن را محاسبه میکنیم.
candidates_sim_whole = cosine_similarity(all_candidates_vectors, whole_text_vector.reshape(1,-1))
candidates_sim_whole.reshape(1,-1)
array([[ 1.19351953e-01, 1.23398483e-01, 1.25267982e-01,
1.78353339e-02, 2.34080136e-01, -1.43648628e-02,
...]], dtype=float32)
یافتن شباهت کسینوسی کاندیداها به یکدیگر¶
ماتریسی ایجاد میکنیم که هر درایهٔ آن با اندیس آی و جی، بیانگر شباهت کسینوسی کاندیدای آی با کاندیدای جی است.
candidate_sim_candidate = cosine_similarity(all_candidates_vectors)
candidate_sim_candidate
array([[0.9999997 , 0.14587443, 0.20270647, ..., 0.42830434, 0.27730745,
0.30513293],
[0.14587443, 0.9999996 , 0.10514447, ..., 0.48333895, 0.3179143 ,
0.19037738],
[0.20270647, 0.10514447, 1. , ..., 0.47220594, 0.24125722,
0.18565692],
...,
[0.42830434, 0.48333895, 0.47220594, ..., 0.9999998 , 0.52577287,
0.50683355],
[0.27730745, 0.3179143 , 0.24125722, ..., 0.52577287, 0.99999964,
0.40011758],
[0.30513293, 0.19037738, 0.18565692, ..., 0.50683355, 0.40011758,
0.9999996 ]], dtype=float32)
نرمالسازی مقادیر مربوط به شباهتهای کسینوسی¶
دو مقدار بالا را برای استفاده در مراحل بعد نرمالسازی میکنیم.
candidates_sim_whole_norm = candidates_sim_whole / np.max(candidates_sim_whole)
candidates_sim_whole_norm = 0.5 + (candidates_sim_whole_norm - np.average(candidates_sim_whole_norm)) / np.std(candidates_sim_whole_norm)
candidates_sim_whole_norm
array([[ 0.9393711 ],
[ 0.979393 ],
[ 0.9978831 ],
[-0.06467056],
[ 2.0740807 ],
...], dtype=float32)
np.fill_diagonal(candidate_sim_candidate, np.NaN)
candidate_sim_candidate_norm = candidate_sim_candidate / np.nanmax(candidate_sim_candidate, axis=0)
candidate_sim_candidate_norm = 0.5 + (candidate_sim_candidate_norm - np.nanmean(candidate_sim_candidate_norm, axis=0)) / np.nanstd(candidate_sim_candidate_norm, axis=0)
candidate_sim_candidate_norm
array([[nan, -3.5498703e-01, 3.2357961e-02, ...,
1.8948689e-01, 3.9502221e-01, 6.2098056e-01],
[-5.2607918e-01, nan, -7.2487104e-01, ...,
4.3979204e-01, 6.8422610e-01, -9.5400155e-02],
[-1.7625093e-02, -6.8133366e-01, nan, ...,
3.8915750e-01, 1.3827083e-01, -1.2486839e-01],
...,
[ 2.0007110e+00, 2.3489289e+00, 2.1240823e+00, ...,
nan, 2.1646044e+00, 1.8801302e+00],
[ 6.4980078e-01, 1.0234730e+00, 3.3157024e-01, ...,
6.3278729e-01, nan, 1.2139380e+00],
[ 8.9874434e-01, 1.5904903e-03, -9.9972427e-02, ...,
5.4664868e-01, 1.2696817e+00,nan]], dtype=float32)
استخراج کلمات کلیدی از روی شباهتهای کسینوسی¶
با استفاده از روش امبدرنک در یک الگوریتم تکرارشونده، در هر مرحله با یک فرمول، یک کاندیدا به عنوان کلمهٔ کلیدی انتخاب میشود. کاندیدایی انتخاب میشود که در درجهٔ اول بیشترین شباهت را با کل متن دارد و در درجهٔ دوم کمترین شباهت را با کاندیداهای انتخابشده دارد. میزان اثرگذاری این دو فاکتور را میتوان با درنظرگرفتن عوامل مختلفی مثل طول و محتوای متن تغییر داد. (beta)
beta = 0.82
N = min(len(all_candidates), keyword_count)
selected_candidates = []
unselected_candidates = [i for i in range(len(all_candidates))]
best_candidate = np.argmax(candidates_sim_whole_norm)
selected_candidates.append(best_candidate)
unselected_candidates.remove(best_candidate)
for i in range(N-1):
selected_vec = np.array(selected_candidates)
unselected_vec = np.array(unselected_candidates)
unselected_candidate_sim_whole_norm = candidates_sim_whole_norm[unselected_vec, :]
dist_between = candidate_sim_candidate_norm[unselected_vec][:, selected_vec]
if dist_between.ndim == 1:
dist_between = dist_between[:, np.newaxis]
best_candidate = np.argmax(beta * unselected_candidate_sim_whole_norm - (1 - beta) * np.max(dist_between, axis = 1).reshape(-1,1))
best_index = unselected_candidates[best_candidate]
selected_candidates.append(best_index)
unselected_candidates.remove(best_index)
all_candidates[selected_candidates].tolist()
['معنی بیاحترامی',
'دلایل تشریفاتی',
'سطح ملکه',
'توضیح مذهبی',
'نشریه اسپانیایی',
'زن',
'مراسم سال',
'فیلم',
'کارشناس رسمی',
'کشور']