cdf

The cumulative distribution function¶

The distribution function completely caracterizes a random variable.

$$F_{U(0,1)}(x) = P[U(0,1) \leq x] = \int_0^x 1dt = x$$

$$F_X(a) = P[X \leq a]$$

Assume that $X$ is a continuous random variable and let $Z = F_X(X)$. If $x \in [0,1]$, the cumulative distribution function of $Z$ is $$ F_Z(x) = P[Z \leq x] = P[F_X(X) \leq x] = P[X \leq F_X^{-1}(x)] = F_X(F_X^{-1}(x)) = x. $$ In other terms, the distribution function of any continuous random variable follows a $U(0,1)$.

Empirical distribution function¶

Assume that we observe ${x_1,\dots,x_n}$, and sort them by ascending order. The sorted observations are denoted by ${x_{(1)},\dots,x_{(n)}}$. The empirical distribution function is defined as $$ {\hat F_n(x)} = \frac{1}{n} \sum_{i=1}^n I[x_{(i)} \le x], $$ where $$ I[y \le x] = \begin{cases} 1 \mbox{ if } y \le x, \\ 0 \mbox{ otherwise.} \end{cases} $$

Example¶

In [1]:

using RandomStreams
using Distributions

const SEED = 12345

seeds = [SEED, SEED, SEED, SEED, SEED, SEED]
gen = MRG32k3aGen(seeds)
unif = next_stream(gen)

n = 10

x = Array(Float64, n)
for i = 1:n
    x[i] = rand(Poisson(10000))/10000
end

In [2]:

Out[2]:

10-element Array{Float64,1}:
 1.0003
 1.0096
 1.0047
 0.9886
 0.9901
 0.9847
 1.0152
 0.9717
 0.9963
 1.0157

We can directly represent the empirical distribution function in Julia using the method ef.

In [3]:

using StatsBase

ef = ecdf(x)
methods(ef)

We can the evaluate it as any other distribution function.

In [30]:

u = ef(0.99)

Out[30]:

0.3

Quantiles¶

Several definitions exist to quantify the quantile of a sample, but all of them are consistent as an Monte Carlo estimator of a quantile.

In [9]:

y = sort(x)

Out[9]:

10-element Array{Float64,1}:
 0.9717
 0.9847
 0.9886
 0.9901
 0.9963
 1.0003
 1.0047
 1.0096
 1.0152
 1.0157

In [10]:

l = length(y)

Out[10]:

In [11]:

m = Int64(floor(n*0.45))

Out[11]:

In [12]:

y[m]

Out[12]:

0.9901

In [13]:

y[m+1]

Out[13]:

0.9963

In [14]:

y[m+2]

Out[14]:

1.0003

In [15]:

n*0.6

Out[15]:

6.0

In [16]:

quantile(y,0.45)

Out[16]:

0.9964999999999999

In [17]:

ef(quantile(y,0.6))

Out[17]:

0.6

In [18]:

0.5*(y[m+1]+y[m+2])

Out[18]:

0.9983

In [19]:

n/2.0

Out[19]:

5.0

In [20]:

methods(quantile)

Out[20]:

59 methods for generic function quantile:

quantile(d::Distributions.DiscreteUniform, p::Float64) at /home/bastin/.julia/v0.5/Distributions/src/univariate/discrete/discreteuniform.jl:114
quantile(d::Distributions.EmpiricalUnivariateDistribution, p::Float64) at /home/bastin/.julia/v0.5/Distributions/src/empirical.jl:61
quantile(d::Distributions.Hypergeometric, q::Real) at /home/bastin/.julia/v0.5/Distributions/src/univariates.jl:328
quantile(d::Distributions.Kolmogorov, p::Real) at /home/bastin/.julia/v0.5/Distributions/src/quantilealgs.jl:129
quantile{V,W<:Real}(v::AbstractArray{V,1}, w::StatsBase.WeightVec{W,Vec<:AbstractArray{T<:Real,1}}, p::AbstractArray{T<:Real,1}) at /home/bastin/.julia/v0.5/StatsBase/src/weights.jl:348
quantile{W<:Real}(v::AbstractArray{T<:Real,1}, w::StatsBase.WeightVec{W,Vec<:AbstractArray{T<:Real,1}}, p::Number) at /home/bastin/.julia/v0.5/StatsBase/src/weights.jl:413
quantile(v::AbstractArray{T<:Any,1}, p; sorted) at statistics.jl:694
quantile{T<:Real}(v::AbstractArray{T,N<:Any}) at /home/bastin/.julia/v0.5/StatsBase/src/scalarstats.jl:213
quantile{T<:Real}(d::Distributions.Bernoulli{T}, p::Real) at /home/bastin/.julia/v0.5/Distributions/src/univariate/discrete/bernoulli.jl:96
quantile(d::Distributions.BetaBinomial, p::Float64) at /home/bastin/.julia/v0.5/Distributions/src/univariate/discrete/betabinomial.jl:104
quantile(d::Distributions.Binomial, q::Real) at /home/bastin/.julia/v0.5/Distributions/src/univariates.jl:328
quantile(d::Distributions.Categorical, p::Float64) at /home/bastin/.julia/v0.5/Distributions/src/univariate/discrete/categorical.jl:195
quantile(d::Distributions.Geometric, p::Real) at /home/bastin/.julia/v0.5/Distributions/src/univariate/discrete/geometric.jl:111
quantile(d::Distributions.NegativeBinomial, q::Real) at /home/bastin/.julia/v0.5/Distributions/src/univariates.jl:328
quantile{T<:Real}(d::Distributions.NoncentralHypergeometric{T}, q::Real) at /home/bastin/.julia/v0.5/Distributions/src/univariate/discrete/noncentralhypergeometric.jl:17
quantile(d::Distributions.Poisson, q::Real) at /home/bastin/.julia/v0.5/Distributions/src/univariates.jl:328
quantile(d::Distributions.PoissonBinomial, x::Float64) at /home/bastin/.julia/v0.5/Distributions/src/univariate/discrete/poissonbinomial.jl:97
quantile(d::Distributions.Arcsine, p::Real) at /home/bastin/.julia/v0.5/Distributions/src/univariate/continuous/arcsine.jl:85
quantile(d::Distributions.Beta, q::Real) at /home/bastin/.julia/v0.5/Distributions/src/univariates.jl:328
quantile(d::Distributions.BetaPrime, p::Real) at /home/bastin/.julia/v0.5/Distributions/src/univariate/continuous/betaprime.jl:99
quantile(d::Distributions.Biweight, p::Real) at /home/bastin/.julia/v0.5/Distributions/src/quantilealgs.jl:129
quantile(d::Distributions.Cauchy, p::Real) at /home/bastin/.julia/v0.5/Distributions/src/univariate/continuous/cauchy.jl:91
quantile(d::Distributions.Chisq, q::Real) at /home/bastin/.julia/v0.5/Distributions/src/univariates.jl:328
quantile(d::Distributions.Chi, p::Real) at /home/bastin/.julia/v0.5/Distributions/src/univariate/continuous/chi.jl:89
quantile(d::Distributions.Cosine, p::Real) at /home/bastin/.julia/v0.5/Distributions/src/univariate/continuous/cosine.jl:78
quantile(d::Distributions.Epanechnikov, p::Real) at /home/bastin/.julia/v0.5/Distributions/src/quantilealgs.jl:129
quantile(d::Distributions.Exponential, p::Real) at /home/bastin/.julia/v0.5/Distributions/src/univariate/continuous/exponential.jl:76
quantile(d::Distributions.FDist, q::Real) at /home/bastin/.julia/v0.5/Distributions/src/univariates.jl:328
quantile(d::Distributions.Frechet, p::Real) at /home/bastin/.julia/v0.5/Distributions/src/univariate/continuous/frechet.jl:128
quantile(d::Distributions.Gamma, q::Real) at /home/bastin/.julia/v0.5/Distributions/src/univariates.jl:328
quantile(d::Distributions.Erlang, q::Real) at /home/bastin/.julia/v0.5/Distributions/src/univariates.jl:328
quantile{T<:Real}(d::Distributions.GeneralizedPareto{T}, p::Real) at /home/bastin/.julia/v0.5/Distributions/src/univariate/continuous/generalizedpareto.jl:160
quantile(d::Distributions.GeneralizedExtremeValue, p::Real) at /home/bastin/.julia/v0.5/Distributions/src/univariate/continuous/generalizedextremevalue.jl:160
quantile(d::Distributions.Gumbel, p::Real) at /home/bastin/.julia/v0.5/Distributions/src/univariate/continuous/gumbel.jl:88
quantile(d::Distributions.InverseGamma, p::Real) at /home/bastin/.julia/v0.5/Distributions/src/univariate/continuous/inversegamma.jl:100
quantile(d::Distributions.InverseGaussian, p::Real) at /home/bastin/.julia/v0.5/Distributions/src/quantilealgs.jl:129
quantile(d::Distributions.Laplace, p::Real) at /home/bastin/.julia/v0.5/Distributions/src/univariate/continuous/laplace.jl:85
quantile(d::Distributions.Levy, p::Real) at /home/bastin/.julia/v0.5/Distributions/src/univariate/continuous/levy.jl:80
quantile(d::Distributions.Logistic, p::Real) at /home/bastin/.julia/v0.5/Distributions/src/univariate/continuous/logistic.jl:84
quantile(d::Distributions.NoncentralBeta, q::Real) at /home/bastin/.julia/v0.5/Distributions/src/univariates.jl:328
quantile(d::Distributions.NoncentralChisq, q::Real) at /home/bastin/.julia/v0.5/Distributions/src/univariates.jl:328
quantile(d::Distributions.NoncentralF, q::Real) at /home/bastin/.julia/v0.5/Distributions/src/univariates.jl:328
quantile(d::Distributions.NoncentralT, q::Real) at /home/bastin/.julia/v0.5/Distributions/src/univariates.jl:328
quantile(d::Distributions.Normal, q::Real) at /home/bastin/.julia/v0.5/Distributions/src/univariates.jl:328
quantile(d::Distributions.NormalCanon, p::Real) at /home/bastin/.julia/v0.5/Distributions/src/univariate/continuous/normalcanon.jl:65
quantile(d::Distributions.LogNormal, q::Real) at /home/bastin/.julia/v0.5/Distributions/src/univariate/continuous/lognormal.jl:104
quantile(d::Distributions.Pareto, p::Real) at /home/bastin/.julia/v0.5/Distributions/src/univariate/continuous/pareto.jl:107
quantile(d::Distributions.Rayleigh, p::Real) at /home/bastin/.julia/v0.5/Distributions/src/univariate/continuous/rayleigh.jl:81
quantile(d::Distributions.SymTriangularDist, p::Real) at /home/bastin/.julia/v0.5/Distributions/src/univariate/continuous/symtriangular.jl:107
quantile(d::Distributions.TDist, q::Real) at /home/bastin/.julia/v0.5/Distributions/src/univariates.jl:328
quantile(d::Distributions.TriangularDist, p::Real) at /home/bastin/.julia/v0.5/Distributions/src/univariate/continuous/triangular.jl:112
quantile(d::Distributions.Triweight, p::Real) at /home/bastin/.julia/v0.5/Distributions/src/quantilealgs.jl:129
quantile(d::Distributions.Uniform, p::Real) at /home/bastin/.julia/v0.5/Distributions/src/univariate/continuous/uniform.jl:83
quantile(d::Distributions.Weibull, p::Real) at /home/bastin/.julia/v0.5/Distributions/src/univariate/continuous/weibull.jl:119
quantile(d::Distributions.EdgeworthZ, p::Float64) at /home/bastin/.julia/v0.5/Distributions/src/edgeworth.jl:59
quantile(d::Distributions.EdgeworthAbstract, p::Float64) at /home/bastin/.julia/v0.5/Distributions/src/edgeworth.jl:115
quantile(d::Distributions.Truncated, p::Float64) at /home/bastin/.julia/v0.5/Distributions/src/truncate.jl:61
quantile(d::Distributions.Distribution{Distributions.Univariate,S<:Distributions.ValueSupport}, p::Real) at /home/bastin/.julia/v0.5/Distributions/src/univariates.jl:163
quantile(d::Distributions.Distribution{Distributions.Univariate,S<:Distributions.ValueSupport}, X::AbstractArray) at /home/bastin/.julia/v0.5/Distributions/src/univariates.jl:205

In [21]:

ef(9)

Out[21]:

1.0

In [22]:

ef(10)

Out[22]:

1.0

In [23]:

?ecdf

search: ecdf searchsortedfirst secd vecdot asecd ObjectIdDict reducedim

Out[23]:

ecdf(X)

Compute the empirical cumulative distribution function (ECDF) of a real-valued vector.

In [24]:

ef(quantile(y,0.6))

Out[24]:

0.6

In [25]:

quantile(y,0.6)

Out[25]:

1.00206

In [26]:

y[700]

LoadError: BoundsError: attempt to access 10-element Array{Float64,1} at index [700]
while loading In[26], in expression starting on line 1

 in execute_request(::ZMQ.Socket, ::IJulia.Msg) at /home/bastin/.julia/v0.5/IJulia/src/execute_request.jl:169
 in eventloop(::ZMQ.Socket) at /home/bastin/.julia/v0.5/IJulia/src/eventloop.jl:8
 in (::IJulia.##9#15)() at ./task.jl:360

In [27]:

ef(y[700])

LoadError: BoundsError: attempt to access 10-element Array{Float64,1} at index [700]
while loading In[27], in expression starting on line 1

 in execute_request(::ZMQ.Socket, ::IJulia.Msg) at /home/bastin/.julia/v0.5/IJulia/src/execute_request.jl:169
 in eventloop(::ZMQ.Socket) at /home/bastin/.julia/v0.5/IJulia/src/eventloop.jl:8
 in (::IJulia.##9#15)() at ./task.jl:360

In [28]:

ceil(n*0.6)

Out[28]:

6.0

In [233]:

y[Int64(ceil(n*0.6))]

Out[233]:

1.0052

In [234]:

?quantile

search: quantile quantile! wquantile nquantile cquantile

Out[234]:

quantile(v, p; sorted=false)

Compute the quantile(s) of a vector v at a specified probability or vector p. The keyword argument sorted indicates whether v can be assumed to be sorted.

The p should be on the interval [0,1], and v should not have any NaN values.

Quantiles are computed via linear interpolation between the points ((k-1)/(n-1), v[k]), for k = 1:n where n = length(v). This corresponds to Definition 7 of Hyndman and Fan (1996), and is the same as the R default.

!!! note Julia does not ignore NaN values in the computation. For applications requiring the handling of missing data, the DataArrays.jl package is recommended. quantile will throw an ArgumentError in the presence of NaN values in the data array.

Hyndman, R.J and Fan, Y. (1996) "Sample Quantiles in Statistical Packages", The American Statistician, Vol. 50, No. 4, pp. 361-365

quantile(v, w::WeightVec, p)

Compute pth quantile(s) of v with weights w.

In [272]:

x = [1, 3, 5, 6, 6, 21]

Out[272]:

6-element Array{Int64,1}:
  1
  3
  5
  6
  6
 21

In [273]:

quantile(x,0.5)

Out[273]:

5.5

In [ ]: