文章插圖

文章插圖
什么是K-近鄰算法?
簡單的說,K-近鄰算法就是采用測量不同特征值之間的距離方法來進行分類 。它的工作原理是:存在一個樣本數據集合,也稱作訓練樣本集,并且樣本集中每個數據都存在標簽,即我們知道樣本集中每一數據與所屬分類的對應關系,輸入沒有標簽的新數據之后,將新數據的每個特征與樣本集中數據對應的特征進行比較,然后算法提取出樣本集中特征最相似數據的分類標簽 。一般來說,我們只選擇樣本數據集中前k個最相似的數據,這就是K-近鄰算法名稱的由來 。
提問:親,你造K-近鄰算法是屬于監督學習還是無監督學習呢?
【k近鄰算法工作原理 k最近鄰算法原理】使用Python導入數據
從K-近鄰算法的工作原理中我們可以看出,要想實施這個算法來進行數據分類,我們手頭上得需要樣本數據,沒有樣本數據怎么建立分類函數呢 。所以,我們第一步就是導入樣本數據集合 。
建立名為kNN.py的模塊,寫入代碼:
from numpy import *代碼中,我們需要導入Python的兩個模塊:科學計算包NumPy和運算符模塊 。NumPy函數庫是Python開發環境的一個獨立模塊,大多數Python版本里沒有默認安裝NumPy函數庫,因此這里我們需要單獨安裝這個模塊 。大家可以從sourceforge上下載安裝 。
import operator
def createDataSet():
group = array([[1.0,1.1],[1.0,1.0],[0,0],[0,0.1]])
labels = [‘A’,’A’,’B’,’B’]
return group, labels
實現K-近鄰算法
K-近鄰算法的具體思想如下:
(1)計算已知類別數據集中的點與當前點之間的距離
(2)按照距離遞增次序排序
(3)選取與當前點距離最小的k個點
(4)確定前k個點所在類別的出現頻率
(5)返回前k個點中出現頻率最高的類別作為當前點的預測分類
Python語言實現K-近鄰算法的代碼如下:
代碼詳解
相信有很多朋友們對上面這個代碼有很多不理解的地方,接下來,我重點講解幾個此函數的關鍵點,以方便讀者們和我自己回顧一下這個算法代碼 。
classify函數的參數:
inX:用于分類的輸入向量dataSet:訓練樣本集合labels:標簽向量k:K-近鄰算法中的k
shape:是array的屬性,描述一個多維數組的維度 。
tile(inX, (dataSetSize,1)):把inX二維數組化,dataSetSize表示生成數組后的行數,1表示列的倍數 。整個這一行代碼表示前一個二維數組矩陣的每一個元素減去后一個數組對應的元素值,這樣就實現了矩陣之間的減法,簡單方便得不讓你佩服不行!
axis=1:參數等于1的時候,表示矩陣中行之間的數的求和,等于0的時候表示列之間數的求和 。
argsort():對一個數組進行非降序排序
classCount.get(numOflabel,0) + 1:這一行代碼不得不說的確很精美啊 。get():該方法是訪問字典項的方法,即訪問下標鍵為numOflabel的項,如果沒有這一項,那么初始值為0 。然后把這一項的值加1 。所以Python中實現這樣的操作就只需要一行代碼,實在是很簡潔高效 。
后話
K-近鄰算法(KNN)原理以及代碼實現差不多就這樣了,接下來的任務就是更加熟悉它,爭取達到裸敲的地步 。
- 聚類算法的特性 聚類算法的作用
- 實用的工作記錄軟件 日常記錄的軟件哪個好
- matlab數字圖像處理基本操作 MATLAB數字圖像處理算法程序
- 經常在電腦前工作應注意什么 如何預防電腦輻射的危害
- 超聲波換能器的工作原理 什么是超聲波換能器
- 最小生成樹prim算法圖解 prim算法求最大生成樹
- 基于pca的人臉識別系統的設計 pca人臉識別算法識別率高嗎
- de算法是什么 dh算法
- 工作清單表格模板 維修清單表格模板
- 最大公約數的算法C語言 求最大公約數c++語言代碼
