documents = [ 
    "king will reward dwarf",
    "queen is angry",
    "apple is worth more than 2 trillion dollars now"
]


import gensim as gs
import numpy as np
word2vec_model = gs.models.KeyedVectors.load_word2vec_format('data/deps.words.bin', binary=True)


word2vec_model["king"][:5] # a 300 dim vector. Get first 5 entries

array([ 0.03303813,  0.06656987,  0.02628002, -0.05732338,  0.01353508],
      dtype=float32)


word2vec_model["queen"][:5] # a 300 dim vector. Get first 5 entries

array([0.01998595, 0.15262055, 0.00061866, 0.01659017, 0.07441706],
      dtype=float32)


word2vec_model.similar_by_word("king", topn=5)

[('norodom', 0.6755779981613159),
 ('songtsän', 0.6748666167259216),
 ('queen', 0.6625942587852478),
 ('bhumibol', 0.6613788604736328),
 ('monarch', 0.6593648195266724)]


class MeanEmbeddingVectorizer(object):
    def __init__(self, word2vec_model):
        self.word2vec = word2vec_model
        self.dim = 300 # default 300 dim vectors returned by our word2vec 

    def fit(self, X, y):
        return self

    def transform(self, X):
        return np.array([
            np.mean([self.word2vec[w] for w in words.split() if w in self.word2vec]
                    or [np.zeros(self.dim)], axis=0)  # if word not in word2vec return a vector of zeros
            for words in X
        ])


embd_vectorizer = MeanEmbeddingVectorizer(word2vec_model)


documents[1]

'queen is angry'


for doc in documents:
    words = doc.split() 
    print(words)

['king', 'will', 'reward', 'dwarf']
['queen', 'is', 'angry']
['apple', 'is', 'worth', 'more', 'than', '2', 'trillion', 'dollars', 'now']


embd_vectorizer.transform(documents[1]).shape

(14, 300)


from sklearn.datasets import fetch_20newsgroups
newsgroups_train = fetch_20newsgroups(subset='train')


from sklearn.feature_extraction.text import TfidfVectorizer
tfidf_vectorizer = TfidfVectorizer()
tfidf_sklearn = tfidf_vectorizer.fit_transform(documents)
tfidf_sklearn

<3x14 sparse matrix of type '<class 'numpy.float64'>'
	with 15 stored elements in Compressed Sparse Row format>


n_samples = 1000
# tf_news = vectorizer.fit_transform(newsgroups_train.data)
raw_text = newsgroups_train.data[:n_samples]
# embd_feats = embd_vectorizer.transform(raw_text)
embd_feats = embd_vectorizer.transform(raw_text)
labels = newsgroups_train.target[:n_samples]


from sklearn.svm import SVC
svc_clf = SVC()


train_size = int(n_samples * .8) # 80% data for training
x_train = embd_feats[:train_size]
y_train = labels[:train_size]
svc_clf.fit(embd_feats, labels)

SVC(C=1.0, break_ties=False, cache_size=200, class_weight=None, coef0=0.0,
    decision_function_shape='ovr', degree=3, gamma='scale', kernel='rbf',
    max_iter=-1, probability=False, random_state=None, shrinking=True,
    tol=0.001, verbose=False)


x_test = embd_feats[train_size:]
y_test = labels[train_size:]

svc_clf.score(x_train, y_train)

0.2275

NLP Continued

Natual Language Processing NLP¶

Question 8¶

Word Embedding¶

Creating Embeddings.¶

Pretrained word2vec using gensim¶

Similarity Measures¶

Text classification Using Embeddings¶