Tomaremos una muestra de n elementos y lo que intentaremos es calcular el theta que maximice la probabilidad haber obtenido esa muestra. Como esa probabilidad depende de theta para tener un máximo tendrá que tener derivada nula respecto a theta. Adicionalmente, en lugar de hacer nula la derivada de la función probabilidad, se hace nula la derivada de la función logaritmo de la probabilidad, ya que tiene el mismo máximo y suele ser mas fácil de calcular.
La probabilidad de que n variables X independientes tomen los valores x1, x2, x3, ..., xn es:
$$P_{\theta}(X_1=x_1,X_2=x_2,...,X_n=x_n)=\prod_{i=1}^n\theta(1-\theta)^{x_i-1}$$
Como te decía, para calcular el máximo de esa función es mas sencillo hacer los cálculos con el logaritmo neperiano de ella que tiene los mismos máximos y mínimos.
$$\begin{align}&ln [P_{\theta}(X_1=x_1,...,X_n=x_n)]=\sum_{i=1}^nln[\theta(1-\theta)^{x_i-1}]=\\ &\\ &\sum_{i=1}^nln\theta+(x_i-1)ln(1-\theta) =\\ &\\ &n·ln\theta+ ln(1-\theta)\sum_{i=1}^n(x_i-1)=\\ &\\ &n·ln\theta+ln(1-\theta)\left(-n+\sum_{i=1}^nx_i\right)\\ &\\ &\text{Y ahora igualamos la derivada de esto a cero}\\ &\\ &\frac{n}{\theta}-\frac{-n+\sum_{i=1}^nx_i}{1-\theta}= 0\\ &\\ &\frac{n(1-\theta)-\theta\left( -n+\sum_{i=1}^nx_i \right)}{\theta(1-\theta)}=0\\ &\\ &\\ &\frac{n-\theta n +\theta n -\theta \sum_{i=1}^nx_i}{\theta(1-\theta)}=0\\ &\\ &\\ &\frac{n-\theta \sum_{i=1}^nx_i}{\theta(1-\theta)}=0\\ &\\ &\text {Como }\theta\ne 0 \;y\;(1-\theta) \ne 0\\ &\\ & \\ &n-\theta \sum_{i=1}^nx_i=0\\ &\\ &\\ &\theta = \frac{n}{\sum_{i=1}^nx_i}\\ &\end{align}$$
Ese es el estimador de theta obtenido por el método de máxima verosimilitud.
Espero que te sirva y lo hayas entendido. No olvides puntuar.