Cosine Similarity on PHP Codeigniter

40

Download Sourcecode Cosine Similarity on PHP Codeigniter

 

Program dirancang untuk universal. Belum implementasi ke kasus tertentu.

Kata dalam kamus dan stopword disimpan di basisdata dan diberikan halaman administrasi sehingga mudah diedit.

Menggunakan library Sastrawi dan apalah itu saya lupa.

 

Sekilas Cosine Similarity

Sebagian besar aplikasi web berbasis search engine, information retrieval atau text mining, biasanya melibatkan penanganan query dan klasifikasi dokumen. Penanganan query biasanya menghitung tingkat kemiripan atau relevansi antara query dan daftar dokumen yang tersedia di dalam sistem. Sedangkan klasifikasi adalah pengelompokan dokumen-dokumen ke dalam kelas-kelas yang telah didefinisikan sebelumnya.

Penanganan query dan klasifikasi adalah dua proses yang berbeda, meskipun keduanya dapat menggunakan pendekatan yang beririsan. Perlu dipahami pula, ada perbedaan antara klasifikasi dan clustering, meskipun banyak orang menggunakan 2 istilah ini secara bergantian untuk maksud yang sama. Klasifikasi telah menyiapkan daftar kelas tujuan (pre-defined) sedangkan clustering tidak hasil clustering dibiarkan membentuk kelas masing-masing. Detailnya tentu dapat dijumpai pada paper yang membahas tentang clustering dan klasifikasi.

Berikut ini adalah 2 file yang berisi:

1. Cosine Similarity. Langkah-langkah praktis menghitung kemiripan antara suatu Query (Q) dengan daftar dokumen (dengan semua dokumen). Kemudian dilakukan pengurutan dan dikembalikan kepada pengguna. Contoh ini memperlihatkan perhitungan kemiripan menggunakan cosine similaity.

2. Klasifikasi kNN. Langkah-langkah praktis mengelompokkan suatu dokumen ke dalam salah satu dari 2 kelas tujuan yang pre-defined. Pendekatan yang digunakan adalah kNN. Perhitungan kemiripan digunakan untuk mendapatkan k tetangga terdekat dari dokumen yang akan diklasifikasikan. Nilai k=4 dijadikan default.

 

Cosine similarity adalah ukuran kesamaan antara dua vektor bukan-nol dari ruang produk dalam yang mengukur kosinus sudut di antara mereka. Cosinus 0 adalah 1, dan kurang dari 1 untuk setiap sudut dalam interval (0, π) radian. Dengan demikian penilaian terhadap orientasi dan bukan besaran: dua vektor dengan orientasi yang sama memiliki persamaan cosinus 1 , dua vektor yang berorientasi pada 90 relatif satu sama lain memiliki kesamaan 0, dan dua vektor yang secara diametral berlawanan memiliki kemiripan -1, terlepas dari besarnya mereka. Kesamaan cosinus terutama digunakan dalam ruang positif, di mana hasilnya dibatasi dengan rapi dalam [0, 1] {\ displaystyle [0,1]} [0,1]. Nama ini berasal dari istilah “arah cosinus”: dalam hal ini, vektor satuan secara maksimal “serupa” jika sejajar dan maksimal “tidak sama” jika mereka ortogonal (tegak lurus). Ini analog dengan cosinus, yang merupakan kesatuan (nilai maksimum) ketika segmen mensubstensikan sudut nol dan nol (tidak berkorelasi) ketika segmen tersebut tegak lurus.

Batas ini berlaku untuk sejumlah dimensi, dan kesamaan cosinus paling sering digunakan dalam ruang positif dimensi tinggi. Sebagai contoh, dalam pencarian informasi dan penambangan teks, setiap istilah secara nosional diberi dimensi yang berbeda dan dokumen ditandai dengan vektor di mana nilai di setiap dimensi sesuai dengan berapa kali istilah tersebut muncul dalam dokumen. Kemiripan cosine kemudian memberikan ukuran yang berguna tentang seberapa mirip dua dokumen tersebut dalam hal subjeknya. [1]

Teknik ini juga digunakan untuk mengukur kohesi dalam kelompok di bidang penambangan data. [2]

Istilah cosine distance sering digunakan untuk komplemen dalam ruang positif, yaitu: DC (A, B) = 1 – SC (A, B), {\ displaystyle D_ {C} (A, B) = 1-S_ { C} (A, B),} {\ displaystyle D_ {C} (A, B) = 1-S_ {C} (A, B),} di mana DC {\ displaystyle D_ {C}} D_C adalah jarak cosinus dan SC {\ displaystyle S_ {C}} S_ {C} adalah kesamaan cosinus. Penting untuk dicatat, bagaimanapun, bahwa ini bukan metrik jarak yang tepat karena tidak memiliki properti ketidaksetaraan segitiga – atau, lebih formal, ketidaksetaraan Schwarz – dan melanggar aksioma kebetulan; untuk memperbaiki properti ketimpangan segitiga sambil mempertahankan urutan yang sama, perlu untuk mengkonversi ke jarak sudut (lihat di bawah).

Salah satu keuntungan dari kesamaan cosinus adalah kompleksitasnya yang rendah, terutama untuk vektor yang jarang: hanya dimensi non-nol yang perlu dipertimbangkan.

Nama-nama lain dari persamaan cosinus adalah kesamaan Orchini dan koefisien kesesuaian Tucker; Kesamaan Ochiai (lihat di bawah) adalah kesamaan cosinus yang diterapkan pada data biner.

 

 

Ini tampilannya Cosine Similarity on PHP Codeigniter

Cosine Similarity on PHP Codeigniter
Cosine Similarity on PHP Codeigniter

 

Sourcecode Cosine Similarity
Sourcecode Cosine Similarity

Anda mungkin ingin membaca ini