久久久久久久999_99精品久久精品一区二区爱城_成人欧美一区二区三区在线播放_国产精品日本一区二区不卡视频_国产午夜视频_欧美精品在线观看免费

標題: 決策樹算法詳解 [打印本頁]

作者: jialinx    時間: 2015-9-15 14:56
標題: 決策樹算法詳解



    決策樹算法是一種逼近離散函數(shù)值的方法,是一種典型的分類方法。
決策樹算法構(gòu)造決策樹來發(fā)現(xiàn)數(shù)據(jù)中蘊涵的分類規(guī)則。如何構(gòu)造精度高,規(guī)模小的決策樹是決策樹算法的核心內(nèi)容。一般情況下分兩步進行,
1.決策樹的生成。
2.決策樹的剪枝。(對上一個階段生成的決策樹進行檢驗,校正和修下的過程,方法:使用測試數(shù)據(jù)集校驗1中生成的決策樹,將那些影響準確性的分枝剪除)
典型算法
ID3算法,此算法目的在于減少樹的深度。但是忽略了葉子數(shù)目的研究。
C4.5算法,在ID3算法的基礎(chǔ)上進行了改進,對于預(yù)測變量的缺值處理,剪枝技術(shù),派生規(guī)則等方面做了較大的改進,既適合于分類問題,又適合于回歸問題。總結(jié):產(chǎn)生的分類規(guī)則易于理解,準確率較高。不過在構(gòu)造樹的過程中,需要對數(shù)據(jù)集進行多次的順序掃描和排序,在實際應(yīng)用中會導(dǎo)致算法低效。
決策樹算法的優(yōu)點如下:
1.分類精度高;
2.生成的模式簡單;
3.對噪聲數(shù)據(jù)有很好的健壯性。
以上為概念總結(jié)。
——————————————————————————————————————————————————————————
-信息增益
  在劃分數(shù)據(jù)集之前后信息發(fā)生的變化稱之為信息增益,計算每個特征值劃分數(shù)據(jù)集獲得的信息增益,獲得信息增益最高的特征就是最好的選擇。
計算方法(香農(nóng)熵)
  熵定義為信息的期望值。計算公式如下:
符號xi的信息定義為l(xi)=-log2p(xi),其中p(xi)是選擇該分類的概率。(各分類在總實例中得比例)
所有類別所有可能值包含的信息期望值H=-∑ni=1p(xi)log2p(xi),其中n分類的數(shù)目。

-劃分數(shù)據(jù)集
對每個特征劃分數(shù)據(jù)集的結(jié)果計算一次信息熵,然后判斷按照哪個特征劃分數(shù)據(jù)集是最好的劃分方式。
  增益=元數(shù)據(jù)的熵-按特征量劃分的熵   -->增益越大 劃分越優(yōu)
-遞歸構(gòu)建決策樹
  工作原理如下:
1.得到原始數(shù)據(jù)集
2.基于好的屬性劃分數(shù)據(jù)集
3.特征值多于兩個的情況下。可能存在大于兩個分支的數(shù)據(jù)集劃分。第一次劃分后,數(shù)據(jù)被向下傳遞到樹分支的下一個節(jié)點,在這個節(jié)點上再次劃分數(shù)據(jù)。
遞歸的結(jié)束條件:1.遍歷完所有劃分數(shù)據(jù)集的屬性 2 每個分支下得所有實例都具有相同的分類。

后續(xù):改進算法的總結(jié)和代碼整理








歡迎光臨 (http://m.zg4o1577.cn/bbs/) Powered by Discuz! X3.1
主站蜘蛛池模板: 日韩成人在线播放 | 日本一级黄色大片 | 成人精品一区二区三区 | 国产高清av | 日韩一区不卡 | 成年人在线播放 | 天天舔天天干 | 午夜国产在线观看 | 精品久久网站 | 波多野结衣在线观看一区二区 | 欧美日韩小视频 | av高清在线| 欧美日韩三区 | 国产精品爽爽爽 | 精品国产精品 | 性做久久久久久久免费看 | 色哟哟一区二区 | 欧美又大又硬又粗bbbbb | 国产综合视频 | 国产综合久久久 | 成人不卡 | 午夜精品999 | 亚洲免费在线播放 | 超碰人人人 | 欧美黄色一级大片 | 国产日韩一区二区三区 | 国产精品99久久久久久久久久久久 | 日本免费中文字幕 | 三级视频在线 | 久久综合影院 | 精品视频99 | 久久视频在线免费观看 | 欧美专区在线观看 | a在线观看 | 精品一区二区免费视频 | 少妇网址| 亚洲精品免费视频 | 成人激情视频在线观看 | 91色漫| av资源站 | xxxx亚洲 |