Minggu, 28 Agustus 2011

Missing data analysis dalam multivariat

Missing data atau missing value adalah informasi yang tidak tersedia untuk sebuah subyek (kasus). Dalam alat statistik,missing data adalah adanya sel-sel kosong pada satu atau beberapa variabel. missing data terjadi karena informasi untuk sesuatu tentang objek tidak diberikan,sulit dicari atau memang informasi teresbut tidak ada.

Missing data pada dasarnya tidak bermasalah bagi keseluruhan data,apalagi jika jumlahnya hanya sedikit namun jika presentase data yang hilang tersebut ckup besar, maka perlu dilakukan pengujian apakah data yang mengandung missing tersebut masih layak diproses lebih lanjut ataukah tidak.

Jika pada sebuah data ditemukan adanya missing data (value) dan data yang hilang(missing) tersebut terbukti bersifat random perlu dilakuakn berbagai treatment.Random disini berarti missing value yang terjadi tidak disengaja dan tidak mengacu keadaan tertentu.
Treatment yang dapat dilakukan adalah
  • membuang baris (kasus) yang mengandung misssing value,menghapus variabel(kolom) yang mengandung missing value
  • mengisi sel(data) yang missing dengan nilai tertentu yang dianggap bisa mendekati kenyataan sebenarnya jika data terisi.Cara mengisi data yang missing bisa bermacam-macam, dan yang populer adalah mengisi dengan rata-rata keseluruhan data.

Uji Data statistik Multivariat

Uji data pada statistik multivariat pada prinsipnya betujuan untuk memastikan bahwa metode multivariat itu bisa digunakan pada data tertentu sehingga hasil proses multivariat bisa diinterprestasi dengan cepat. Pengabaian uji data bisa berakibat biasnya kesimpulan yang diambil atau bahkan metode multivariat tidak bisa diproses.

Jenis pengujian data dalam multivariat adalah
  • Pengujian  adanya missing data.yakni menguji apakah data yang tidak lengkap/ ada data yang hilang akan mempengaruhi pengolahan data secara keseluruhan.
  • Pengujian adanya outliner (data yang sangat ekstrem) : pada banyak kasus,keberadaan data outliner akan mengganggu keseluruhan data,yang dapat mengakibatkan biasnya kesimpulan yang diambil.
  • Pengujian beberapa asumsi-asumsi metode-metode multivariat,seperti uji normalitas data,uji linieritas data dan sebagainya.
Sedangkan cara pengujian dapat dilakukan dengan cara:
  • menggunakan grafik,misalkan untuk menguji bentuk kenormalan,sebuah distribusi data,menguji sebaran dua variabel untuk korelasi dan sebagainya. Tampilan garfik cukup praktis dan memadai untuk menguji sejumlah data secara sekilas
  • Menggunakan alat uji statistik tertentu. Cara ini digunakan untuk tampilan grafik yang dianggap belum cukup,atau untuk melengkapi dan mempertajam hasil analisis


Sabtu, 27 Agustus 2011

Analisis Multivariat

Analisis multivariat/ metode multivariat berhubungan dengan metode-metode statistik yang secara bersama-sama(simultan) melakukan analisis terhadap lebih dari dua variabel pada setiap objek atau orang. Jadi, bisa dikatakan analisis multivariat merupakan perluasan dari analisis univariat (seperti uji t) atau bivariat (seperti korelasi dan regresi sederhana)

Analisis multivariat adalah analisis multi variabel dalam satu atau lebih hubungan. Analisis ini berhubungan dengan semua teknik statistik yang secara simultan menganalisis sejumlah pengukuran pada individu atau objek

Sebagai contoh,jika dilakukan analisis regresi sederhana,dengan satu variabel y dan satu variabel x, maka analisis seperti itu dikatakan bivariat, karena ada dua (bi) variabel,X dan Y.Sedang jika dilakukan analisis regresi berganda,dengan satu variabel y dan dua variabel X(X1 dan X2), maka analisis sudah bisa dikatakan multivariat,karena ada tiga variabel (termasuk X1 dan X2). Sedangkan variat bisa didefinisikan sebagai suatu kombinasi linier dari variabel- variabel dengan bobot variabel yang ditentukan secara empiris.

Yang paling terpenting dalam menentukan analisis multivariat apa yang dipakai harus diketahui jenis data manakah X1 dan X2 itu.

Sampling error (presisi) dan non sampling eror (bias)

Sampling error menunjukkan variasi nilai pengukuran antara satu sampel dengan sampel lainnya. Nilai variasi ini biasanya dinyatakan dalam suatu angka yang disebut dengan presisi. Sedangkan non sampling error atau disebut juga bias merupakan kesalahan yang terjadi pada proses pengukuran. Non sampling error bisa diakibatkan oleh beberapa hal, di antaranya bias alat, yaitu alat yang digunakan dalam proses pengukuran memberikan nilai kesalahan. Misalkan alat yang digunakan rusak, tidak layak pakai, dan sebagainya. Hal kedua adalah bias pengukur, yaitu kesalahan akibat si pengukur (human error), misalkan si pengukur salah membaca alat, salah mencatatdan sebagainya.

Sedangkan bias metodologi, yaitu kesalahan dalam menerapkan metodologi pengukuran, dalam hal ini metodologi yang digunakan dalam proses pengukuran tidak sesuai dengankarakter populasi yang akan diukur. Contoh bias metodologi adalah kesalahan dalam menerapkan teknik dan metode sampling.

Jika pusat lingkaran adalah nilai tengah populasi dan titik-titik adalah nilai pengamatan sampel, maka
pengukuran yang akurat adalah pada posisi sampling error yang rendah dan non sampling error yang rendah pula. Apabila masalah bias telah bisa diatasi dan bernilai nol, maka besarnya akurasi dapat diukur dengan nilai presisinya.

Semakin kecil nilai presisi  maka variasi nilai pengamatan antar-sampel semakin kecil (precise). Namun, semakin besar nilai presisi maka variasi pengamatan antarsampel semakin besar (unprecise). Jika ukuran sampel semakin besar, maka distribusi sampling menjadi semakin mendekati normal, apa pun distribusi populasinya. Jika nilai σ tidak diketahui, dan data populasi mengikuti sebaran normal, maka estimasi nilai populasi dapat didekati dengan nilai Confident Interval (CI)

Senin, 22 Agustus 2011

Analisis Paired - Samples T

Analisis Paired-Samples T Test merupakan prosedur yang digunakan untuk membandingkan
rata-rata dua variabel dalam satu group. Artinya pula analisis ini berguna untuk melakukan pengujian terhadap dua sampel yang berhubungan atau dua sampel berpasangan.

Prosedur Paired-Samples Uji T digunakan untuk menguji bahwa tidak ada perbedaan antara dua variabel. Data boleh terdiri atas dua pengukuran dengan subjek yang sama atau satu pengukuran dengan beberapa subjek.
Prosedur uji ini akan menghasilkan output sebagai berikut:
• Statistik deskriptif untuk masing-masing variabel yang diuji.
• Pearson korelasi antara masing-masing pasangan dan arti korelasinya.
• Suatu interval kepercayaan untuk rata-rata perbedaan (95%
atau suatu nilai tertentu yang ditetapkan).

Data Nominal dan Ordinal untuk statistik deskriptif

Salah satu ciri utama sehingga sebuah data ‘harus’ diproses dengan metode nonparametrik adalah jika tipe data tersebut semuanya adalah data nominal atau ordinal. Hal ini tidak berarti semua data nominal (seperti gender, kategori usia, kode pos, dan lainnya) atau data ordinal (sikap konsumen, pendapat masyarakat, dan lainnya) dipastikan akan diproses secara metode nonparametrik; jika data nominal atau ordinal tersebut ada dalam kesatuan dengan sejumlah data rasio, data nominal dapat berfungsi sebagai grup (faktor) dalam sejumlah metode parametrik, seperti uji F/Anova.

Walaupun sebuah data termasuk interval/rasio, namun jika jumlah data minim, misalkan sepuluh ke bawah, data tersebut sebaiknya diproses menggunakan metode nonparametrik, karena distribusi data sulit untuk memenuhi syarat normalitas sehingga hasil pengolahan dapat bias. Namun, jika sebuah data nominal/ordinal berdiri sendiri, atau akan diproses secara individu, maka metode statistik nonparametrik adalah metode yang
paling tepat. Pada statistik nonparametrik, mengikuti metode statistik parametrik, pengolahan data dapat dibagi menjadi dua, yakni statistik deskriptif dan statistik induktif.

Model dari analisis diskriminan

Analisis diskriminan termasuk dalam Multivariate Dependence Method, dengan model:
Y1        = X1+X2+…+Xn
Non      -  Metrik Metrik
Keterangan:
• Variabel Independen (X1 dan seterusnya) adalah data metrik, yakni data berjenis interval atau rasio, seperti Usia seseorang, tinggi sebuah pohon, kandungan zat besi dalam tubuh, dan sebagainya.

• Variabel Dependen (Y1) adalah Data Kategorikal atau Nominal, seperti Golongan Miskin (kode 1), Golongan Menengah (kode 2), Golongan Kaya (kode 3) dan sebagainya. Jika data kategorikal tersebut hanya terdiri atas dua kode saja (misal kode 1 untuk Daerah Banjir dan kode 2 Daerah Non-Banjir), maka model bisa disebut Two-Group Discriminant Analysis. Sedang jika kode lebih dari dua kategori, disebut dengan Multiple Discriminant Analysis.

• Dari keterangan di atas, perhatikan adanya perbedaan dalam penempatan data yang sekilas mirip. Seperti Usia seseorang (dalam tahun). Jika usia disebut secara langsung sekian tahun (17 tahun, 32 tahun dan sebagainya), maka data tersebut adalah rasio dan otomatis diperlakukan sebagai variabel independen. Namun, jika Usia seseorang dilakukan penggolongan, dan dimasukkan dalam kategori-kategori tertentu, seperti jika Usia seseorang antara 15-20 tahun, ia digolongkan Remaja, di atas 20 tahun digolongkan Dewasa, maka data orang yang berusia 17 tahun tidak akan ditulis langsung '17', namun akan ditulis Remaja. Data hasil kategorisasi ini adalah data nominal dan termasuk variabel Dependen. Dengan demikian, usia 17 tahun bisa menjadi variabel dependen atau independen tergantung bagaimana data tersebut akan diperlakukan, langsung diinput apa adanya atau dilakukan penggolongan.

Asumsi pada analisis diskriminan

Asumsi penting yang harus dipenuhi agar model diskriminan bisa digunakan adalah:

• Multivariate Normality, atau variabel independen seharusnya berdistribusi normal. Jika data tidak berdistribusi normal, hal ini akan menyebabkan masalah pada ketepatan fungsi (model) diskriminan. Regresi Logistik (Logistic Regression) bisa dijadikan alternatif metode jika memang data tidak berdistribusi normal.

• Matriks kovarians dari semua variabel independen seharusnya sama (equal).

• Tidak ada korelasi antar-variabel independen. Jika dua variabel independen mempunyai korelasi yang kuat, dikatakan terjadi multikolinieritas

• Tidak adanya data yang sangat ekstrem (outlier) pada variabel independen. Jika ada data outlier yang tetap diproses, hal ini bisa berakibat berkurangnya ketepatan klasifikasi dari fungsi diskriminan.

Proses dasar dan jumlah sampel pada analisis diskriminan

Proses dasar dari analisis diskriminan:
• Memisah variabel-variabel menjadi Variabel Dependen dan Variabel Independen.
• Menentukan metode untuk membuat Fungsi Diskriminan. Pada prinsipnya ada dua metode dasar untuk itu, yakni:
     1. SIMULTANEOUS ESTIMATION, di mana semua variabel dimasukkan secara bersama-sama   kemudian dilakukan proses Diskriminan.
      2. STEP-WISE ESTIMATION, di mana variabel dimasukkan satu per satu ke dalam model diskriminan. Pada proses ini, tentu ada variabel yang tetap ada pada model, dan ada kemungkinan satu atau lebih
variabel independen yang 'dibuang' dari model.
• Menguji signifikansi dari Fungsi Diskriminan yang telah terbentuk, menggunakan Wilk's Lambda, Pilai, F test dan lainnya.
.• Menguji ketepatan klasifikasi dari fungsi diskriminan, termasuk mengetahuiketepatan klasifikasi secara individual dengan Casewise Diagnostics.
• Melakukan interpretasi terhadap Fungsi Diskriminan tersebut.
• Melakukan uji validasi Fungsi Diskriminan

Secara pasti tidak ada jumlah sampel yang ideal pada Analisis Diskriminan. Pedoman yang bersifat umum menyatakan untuk setiap variabel independen sebaiknya ada 5-20 data (sampel). Dengan demikian, jika ada enam variabel independen, seharusnya minimal ada 6x5=30 sampel. Secara terminologi SPSS, jika ada enam kolom variabel independen, sebaiknya ada 30 baris data.

Selain itu, pada analisis diskriminan sebaiknya digunakan dua jenis sampel, yakni analysis sample yang digunakan untuk membuat Fungsi Diskriminan, serta holdout sample (spilt sample) yang digunakan untuk menguji hasil diskriminan.

Sebagai contoh, jika ada 70 sampel, maka sampel tersebut bisa dibagi dua, 35 untuk analysis sample dan 35 untuk holdout sample. Kemudian hasil fungsi diskriminan yang terjadi pada analysis sample
dibandingkan dengan hasil fungsi diskriminan dari holdput sample, apakah terjadi perbedaan yang besar ataukah tidak. Jika ketepatan klasifikasi kedua sampel hampir sama besar, dikatakan fungis diskriminan dari analysis sample sudah valid. Inilah yang disebut proses validasi silang (Cross Validation) dari
fungsi diskriminan.


Analisis Diskriminan

Analisis Diskriminan adalah teknik Multivariat yang termasuk pada Dependence Method, dengan ciri adanya variabel dependen dan independen. Dengan demikian, ada variabel yang hasilnya tergantung pada data variabel independen. Ciri khusus analisis diskriminan adalah data variabel dependen harus berupa data kategori, sedangkan data untuk variabel independen justru berupa data rasio.

Secara teknis, analisis diskriminan mirip dengan analisis regresi, karena keduanya mempunyai variabel dependen dan variabel independen dalam modelnya. Hanya pada analisis regresi (sederhana maupun berganda), variabel dependen harus data rasio; sedangkan pada analisis diskriminan, jenis data untuk variabel dependen harus kategori.

Karena mempunyai model yang sama, secara dasar kegunaan, analisis diskriminan sama dengan analisis regresi. Dengan demikian, kegunaan utama dari analisis diskriminan ada dua. Pertama adalah kemampuan memprediksi terjadinya variabel dependen dengan masukan data variabel independen; kedua adalah kemampuan memilih mana variabel independen yang secara nyata memengaruhi variabel dependen dan mana yang tidak.

Tujuan Analisis Diskriminan

Karena bentuk multivariat dari Analisis Diskriminan adalah Dependence, maka variabel Dependen adalah variabel yang menjadi dasar analisis diskriminan. Variabel Dependen bisa berupa kode grup 1 atau grup 2 atau lainnya, dengan tujuan diskriminan secara umum adalah:

• Ingin mengetahui apakah ada perbedaan yang jelas antar-grup pada
variabel dependen? Atau bisa dikatakan apakah ada perbedaan antara
anggota Grup 1 dengan anggota Grup 2?
• Jika ada perbedaan, variabel independen manakah pada fungsi diskriminan
yang membuat perbedaan tersebut?
• Membuat Fungsi atau Model Diskriminan, yang pada dasarnya mirip
dengan persamaan regresi.
• Melakukan klasifikasi terhadap objek (dalam terminologi SPSS disebut
baris), apakah suatu objek (bisa nama orang, nama tumbuhan, benda
atau lainnya) termasuk pada grup 1 atau grup 2, atau lainnya.



TIPE DATA STATISTIK (DATA KUANTITATIF)

Data Kuantitatif (Quantitative Data)
Data kuantitatif bisa disebut sebagai data berupa angka dalam arti sebenarnya. Jadi. berbagai operasi matematika bisa dilakukan pada data kuantitatif. Seperti pada data kualitatif, data kuantitatif juga bisa dibagi menjadi dua bagian.

1. Data Interval
Data Interval menempati level pengukuran data yang lebih “tinggi” dari data ordinal karena selain bisa bertingkat urutannya, juga urutan tersebut bisa dikuantitatifkan. Seperti pengukuran temperatur sebuah ruangan pembakaran roti dari PT xxxx. Interval Temperatur ruang tersebut:
o Cukup Panas jika temperatur antara 500C - 800C
o Panas jika temperatur antara 800C - 1100C
o Sangat Panas jika temperatur antara 1100C - 1400C

Dalam kasus di atas, data temperatur bisa dikatakan data interval karena data mempunyai interval (jarak) tertentu, yaitu 300C. Namun, di sini data interval tidak mempunyai titik nol yang absolut. Misal pada pengukuran temperatur, seperti pernyataan bahwa ‘air membeku pada 00C‘. Pernyataan di atas bersifat relatif, karena 00C hanya sebagai tanda saja. Dalam pengukuran 0F, air membeku bukan pada 00F, namun pada 320F. Dengan demikian, juga tidak bisa dikatakan bahwa suhu 1000F adalah dua kali lebih panas dari suhu 500F.

2. Data Rasio
Data Rasio adalah data dengan tingkat pengukuran paling “tinggi” di antara jenis data lainnya. Data Rasio adalah data bersifat angka dalam arti sesungguhnya (bukan kategori seperti pada data nominal dan ordinal) dan bisa dioperasikan secara matematika (+, -, x, /). Perbedaan dengan data interval adalah bahwa data rasio mempunyai titik nol dalam arti sesungguhnya. Misal jumlah produk roti dari gudang PT xxxx pada contoh di atas.

Jika jumlah roti nol, berarti memang tidak ada sepotong roti pun dalam gudang tersebut. Jika ada 24 roti, kemudian bertambah produk baru sebanyak 3 roti, maka total roti sekarang adalah 24 + 3 = 27 roti (operasi penjumlahan), dan seterusnya. Atau, berat badan dan tinggi badan seseorang, pengukuranpengukurannya
mempunyai angka nol/0 dalam arti sesungguhnya. Misal berat badan 0 berarti memang tanpa berat. Dengan demikian, bisa dikatakan bahwa sekantong beras seberat 10 kilogram adalah benar-benar dua kali lebih
berat dari sekantong beras yang mempunyai berat 5 kilogram.

Jenis-jenis data di atas dikupas dengan cukup mendalam karena penerapan dalam statistik akan berbeda untuk jenis data yang berbeda. Data kualitatif karena bukan data angka dalam arti sesungguhnya, tidak bisa disamakan perlakuannya dengan data kuantitatif. Data nominal dan ordinal biasanya menggunakan metode statistik nonparametrik, sedangkan data kuantitatif memakai metode parametrik.

TIPE DATA STATISTIK (data kualitatif)

Seperti telah disebut di muka, statistik dalam prakteknya tidak bisa dilepaskan dari data yang berupa angka, baik itu dalam statistik deskriptif yang menggambarkan data, maupun statistik inferensi yang melakukan analisis
terhadap data. Namun, sebenarnya data dalam statistik juga bisa mengandung data non angka atau data kualitatif

Data dalam statistik berdasarkan tingkat pengukurannya (level of measurement) dapat dibedakan dalam empat jenis:

Data Kualitatif (Qualitative Data)
Data kualitatif secara sederhana bisa disebut data yang bukan berupa angka. Data kualitatif mempunyai ciri tidak bisa dilakukan operasi matematika, seperti penambahan, pengurangan, perkalian, dan pembagian.

Data kualitatif bisa dibagi menjadi dua:
1. Nominal
Data bertipe nominal adalah data yang paling “rendah” dalam level pengukuran data. Jika suatu pengukuran data hanya menghasilkan satu dan hanya satu-satunya kategori, maka data tersebut adalah data nominal (data
kategori). Misal proses pendataan tempat tinggal 40 responden dalam suatu penelitian. Dalam kasus ini setiap orang akan bertempat tinggal di suatu tempat tertentu (berdasar KTP), tidak bisa di tempat lain. Misal Amir berdomisili di Solo, maka dia (dianggap) tidak mungkin tinggal di Jakarta, atau punya dua KTP. Jadi, data tempat tinggal adalah data nominal karena Amir hanya punya satu dan satu-satunya, tidak bisa lebih dari satu, tempat tinggal yang ditunjukkan dengan KTP. Atau, data Jenis Kelamin seseorang. Ini juga suatu data nominal karena seorang laki-laki tidak mungkin berkelamin ganda. Demikian juga Tanggal Lahir seseorang, Pekerjaan (diasumsi hanya satu jenis pekerjaan dalam satu saat), dan seterusnya.

Data Nominal dalam praktek statistik biasanya akan dijadikan “angka”, yaitu proses yang disebut  kategorisasi. Misal dalam pengisian data, jenis kelamin lelaki dikategorikan sebagai “1” dan perempuan sebagai “2”. Kategori ini hanya sebagai tanda saja. Jadi, tidak bisa dilakukan operasi matematika,
seperti 1 + 2 atau 1 – 2, dan lainnya.

2. Ordinal
Data ordinal, seperti pada data nominal, adalah juga data kualitatif namun dengan level yang lebih “tinggi” daripada data nominal. Jika pada data nominal, semua data kategori dianggap sama, maka pada data ordinal, ada tingkatan  data. Misal pada data Jenis Kelamin di atas, Lelaki dianggap setara dengan Wanita, atau dalam data Tempat Kelahiran, data Jakarta dianggap sama dengan data Yogyakarta, Surabaya, Boyolali, dan seterusnya. Pada data ordinal, ada data dengan urutan lebih tinggi dan urutan lebih rendah. Misal data tentang sikap seseorang terhadap produk tertentu. Dalam pengukuran sikap konsumen, ada sikap yang “suka”, “tidak suka”, “sangat suka”, dan lainnya. Di sini data tidak bisa disamakan derajatnya, dalam arti“suka” dianggap lebih tinggi dari “tidak suka”, namun lebih rendah dari“sangat suka”. dan lainnya. Jadi, di sini ada preferensi atau tingkatan data,di mana data yang satu berstatus lebih tinggi atau lebih rendah dari yang lain.

Namun, pada data ordinal juga tidak bisa dilakukan operasi matematika, seperti jika “tidak suka” dikategorikan sebagai “1”, “suka” sebagai “2” dan “sangat suka” sebagai “3”, maka tidak bisa dianggap “1 + 2 = 3”, atau “tidak suka” ditambah “suka” menjadi “sangat suka”!

Elemen Statistik

Meskipun statistik bisa diterapkan pada hampir semua aspek kehidupan, namun ada beberapa elemen yang biasa terdapat dalam suatu persoalan statistik, yaitu:

1. Populasi
Masalah dasar dari persoalan statistik adalah menentukan populasi data. Secara umum populasi bisa didefinisikan sebagai sekumpulan data yang mengidentifikasi suatu fenomena. Definisi populasi lebih bergantung pada kegunaan dan relevansi data yang dikumpulkan. Populasi dalam statistik tidak hanya terbatas pada masalah-masalah manusia atau bisnis, namun dapat lebih luas cakupannya.

2. Sampel
Sampel bisa didefinisikan sebagai sekumpulan data yang diambil atau diseleksi dari suatu populasi; seperti dalam kasus populasi di atas, misalkan jika populasi adalah seluruh pekerja wanita di PT UTAMA, maka sampel bisa sebagian pekerja wanita, atau beberapa pekerja wanita di perusahaan tersebut. Jadi, sampel pada dasarnya adalah bagian dari populasi, ataupopulasi bisa dibagi dalam berbagai jenis sampel.Pengambilan sampel dilakukan karena dalam praktek banyak kendala yangtidak memungkinkan seluruh populasi diteliti. Kendala tersebut bisa karena situasi, waktu, tenaga, biaya, dan sebagainya.

3. Variabel
Dalam melakukan inferensi terhadap populasi, tidak semua ciri populasi harus diketahui. Hanya satu atau beberapa karateristik populasi yang perlu diketahui, yang disebut sebagai variabel. Seperti untuk meneliti kepuasan pekerja, variabel yang dianggap relevan bisa berupa usia pekerja, gender pekerja, penghasilan pekerja, dan lainnya. Namun, variabel seperti status pekerja, asal pekerja, atau tempat tinggal pekerja bisa saja dianggap tidak relevan dan tidak perlu dianalisis.


4. Statistik Inferensi
statistik inferensi pada dasarnya adalah suatu keputusan, perkiraan, atau generalisasi tentang suatu populasi berdasarkan informasi yang terkandung dari suatu sampel. Pada kasus pekerja wanita di atas, diambil sampel sebanyak 20 orang pekerja wanita di PT UTAMA. Jika setelah dilakukan serangkaian analisis statistik, ternyata umumnya para pekerja wanita bergaji rendah dan merasa tidak puas dengan kondisi kerjanya, maka bisa disimpulkan bahwa seluruh pekerja wanita di PT UTAMA (populasi) juga merasa tidak puas dengan kondisi kerja dan tingkat gaji yang diterima selama ini. Jadi, apa yang disimpulkan dari analisis terhadap sampel, itu pula yang digeneralisasikan (kesimpulan umum) pada populasi.

Aplikasi Ilmu Statistik

Statistik dalam praktek, berhubungan dengan banyak angka hingga bisa diartikan numerical description. Namun, selain merupakan sekumpulan data, statistik juga dipakai untuk melakukan berbagai analisis terhadap data, seperti melakukan peramalan (forecasting), melakukan berbagai uji hipotesis, dan kegunaan lainnya;
statistik untuk kegunaan ini disebut sebagai ilmu statistik.

Aplikasi ilmu statistik dapat dibagi dalam dua bagian:
1. Statistik Deskriptif
Statistik Deskriptif berusaha menjelaskan atau menggambarkan berbagai karateristik data, seperti berapa rata-ratanya, seberapa jauh data-data bervariasi dari rata-ratanya, berapa median data, dan sebagainya.
2. Statistik Induktif (Inferensi)
Statistik Induktif berusaha membuat berbagai inferensi terhadap sekumpulan data yang berasal dari suatu sampel. Tindakan inferensi tersebut seperti melakukan perkiraan besaran populasi, uji hipotesis, peramalan,
dan sebagainya.

Dalam praktek, kedua bagian statistik tersebut dipakai bersama-sama; biasanya dimulai dengan statistik deskriptif, lalu dilanjutkan dengan berbagai analisis statistik untuk inferensi. Sebagai contoh, ada data tentang penjualan Mobil merek “xxxx” per bulan di suatu show room mobil di Jakarta selama tahun 2011.

Dari data tersebut, pertama akan dilakukan deskripsi terhadap data tersebut, seperti menghitung berapa rata-rata penjualan mobil “xxxx” tersebut, berapa deviasi standarnya, dan lainnya. Setelah disusun
deskripsi atau penggambaran tentang data-data penjualan Mobil “xxxx” tersebut, kemudian baru dilakukan berbagai inferensi terhadap hasil deskripsi tersebut, seperti memperkirakan berapa estimasi penjualan mobil
“xxxx” di seluruh Indonesia (populasi), ramalan penjualan mobil xxxx” di bulan Januari tahun depan, bulan Februari, dan seterusnya. Jadi, statistik deskriptif akan dilakukan terlebih dahulu, lalu berdasar hasil tersebut, baru dilakukan berbagai analisis statistik secara induktif.