jump to navigation

Convertir documentación en linux con pandoc mayo 27, 2014

Posted by ximo88 in Libros Books, Linux, programas, SOs/OSes.
trackback

Web OS

3132ª Parte Convertir documentación en linux con pandoc

pandoc

notepad++

notepad++-plugins

xmltools

vídeos markdown

Bueno esto es copiado de un post que hay por payrefb2.com y viene a ser una explicación de lo ya dado y de lo que falta para convertir con pandoc. Viene con un ejemplo completo mas o menos a lo tocante a notas e imágenes:

Instrucciones de uso del HTM (hazlo tu mismo) o DIY (do it yourself) en la bola encontrarás una serie de ficheros, básicamente te ha de importar de primero el *.pdf sobre este tienes que usar pdftohtml mas que nada para extraer las imágenes procura hacerlo en el mismo directorio (hay que usar un directorio de trabajo para cada proyecto de documentación) y de la siguiente forma:

 pdftohtml -noframes -nomerge *.pdf (* es el nombre del pdf)

Los ficheros *.md  y *.txt salen de abrir el pdf con el evince a.k.a visor de documentos (yo esto lo explico mas para linux, mac pero para windows también vale) si usáis Acrobat Reader también os valdría u otro parecido.

Se abre el pdf con el visor o lector de pdfs con el botón derecho del ratón se abre el menú y se selecciona todo a continuación se pega en un editor normalillo, el resultado sería el *.txt. También existe una pestaña de edición
que os hará lo mismo ver arriba en la barra de la ventana del programa.

Es aconsejable volver a hacer una copia a continuación que se llamará lo mismo pero con la extensión *.md, normalmente en linux, mac siempre se trabaja en utf-8 pero no así en windows, los que estéis en windows siempre debéis de guardar los documentos en utf-8 debéis de fijaros en eso. Pandoc solo trabaja con utf-8.

Sobre la copia llamada *.md es sobre la que se ha de trabajar maquetando:

En un editor normalillo mousepad, por ejemplo o usar especificos de markdown, sublimetext2 o 3, texts, abrís en dos pestañas el .md y el .txt aparte es aconsejable tener el pdf abierto también y váis haciendo lo siguiente. Es aconsejable tener el pdf abierto también o el documento original para controlar los párrafos

1.Poniendo los capítulos  usar las marcas #  que van de #  hasta ###### de 1 a 6 (prácticamente solo de # a ###) mirar el índice de libro al principio o al final y buscar el capítulo en el texto y poner la marca procurar que
toque la letra si no no funciona.

2.arreglando los párrafos cualquier texto que empieze desde un punto y aparte hasta el siguiente punto y aparte, pero en markdown se dejan siempre dos espacios después de punto y aparte y se da al enter dejando una línea en blanco para separar entre párrafos, acostumbraros a dejar unos tres espacios cuando empezéis un nuevo párrafo os  valdrá para controlar los gazapos de lo que es párrafo y lo que no.

3. poner imágenes si las hubiera el formato es:
![](<*.jpg>) o ![](<*.png>) donde * es el nombre de la imagen, en linux intentar acortar los nombres y procurar  no dejar nombres con espacios entre ellos por ejemplo Alicia en el país de las maravillas es mejor que sea AEEPDLM o aeepdlm hay  diferencia siempre entre mayúsculas y minúsculas, eso lo veréis al usar el pdftohtml, hay renombradores masivos
para usar en tareas tediosas metamorphose2 va muy bien en cualquier linux.

4. Poner notas con markdown estas son secuenciales empiezan por el 1 y se acaban cuando se acaban, en los libros se suelen poner por capítulos por ejemplo el capítulo I tiene 10 notas y el segundo 20, bueno pues en markdown al empezar el segundo capítulo no se empieza con la nota 1 sino con la 11.

Lo mismo si hubiera notas a pié de página estas se incluyen en la numeración secuencial podéis tener control de ellas añadiendo letras por ejemplo 1a o 2bc, las notas a pié de página se encuentran mezcladas entre el propio texto salido de la copia de pdf pero no en el apartado de notas que cualquier libro tiene sino mezcladas en el propio texto,  tenéis que buscar ese texto de las notas cortarlo y pegarlo en el sitio adecuado, junto con los números de página, cabeceras, errores de ocr, palabras partidas los ebooks tienen su manera de presentar las palabras, tener cuidado con las pal-abras parti-das.

Normalmente para poner las notas sustituiréis un número (de pdf a texto pasa de ser un superíndice a un número) eso si no hay error de ocr y pone otra cosa en markdown la marca es [^n] por ejemplo [^1] si es la primera y se pone donde esté el número sustituyendolo (o lo que sea), la segunda parte del asunto es que cuando se acaba el párrafo, ya sabéis dos espacios y enter dáis mas veces al enter y pondréis a continuación situadas entre párrafos tantas notas como haya en el anterior párrafo, ver el *.md de ejemplo. Con la siguiente marca [^n]: y aquí lo que ponga la nota, ver el ejemplo. Da lo mismo si nota normal o de pié de página.

Si os equivocáis en la numeración secuencial, pandoc suele avisar de que hay repetidas y el número de línea donde está el error, se puede subsanar poniendo una letra aparte del número en la equivocada, hay flexibilidad en la secuencialidad.

Listas y tablas también están contempladas aunque yo no he tenido la suerte o desgracia de habérmelas encontrado lo que si hay pega es en que aunque no sea una lista numerada si pones algo de numeración el pandoc te lo interpreta como lista y es un fastidio.

5.La Conversión siempre  es con el programa pandoc veréis que hay dos ficheros uno el EPUB.css sacado de un QE  (Quality Ebook) y el otro el metadata.xml pandoc solo trabaja en ebook en formato epub y en fb2, en ebook hay mucha facilidad para hacerlo y salen de muy alta calidad siempre y cuando esté bien maquetado el *.md pero le hace falta usar estos dos archivos el que nos ha de importar es el metadata.xml que es donde pondremos, el título y el autor del libro entre otras cosas. El contenido viene a ser aunque lo del Creative Commons va de coña:

<dc:rights>Creative Commons Non-Commercial Share Alike 3.0</dc:rights>
<dc:title>Alicia en el país de las Maravillas</dc:title>
<dc:creator>Lewis Carroll</dc:creator>
<dc:language>en-En</dc:language>

Así que para cada epub hay que modificar el contenido del metadata.xml, el Epub.css es porque hay que poner un *.css y se puede aprovechar es el del QE. Y este no cambia de proyecto a proyecto a no ser que se quiera algo muy especial.

La fórmula para lanzarlo es : pandoc -s –epub-stylesheet=EPUB.css –epub-metadata=metadata.xml –epub-cover-image=AEEPDLM .jpg -o aeepdlm .epub aeepdlm .md

Con eso ya nos sale un epub la mar de chulo y práctico que no hay que pasar ni siquiera por el Sigil, se pueden poner fuentes de tipos de letras que estarán en el mismo directorio con el resto del proyecto ver la man de pandoc, el de windows con WINE funciona bien tanto en linux como en mac pero si lo queréis comprobar, pues ya sabéis.

Toda la facilidad que hay para epub no está para hacer fb2 aun así salen potables y las notas se pueden leer bien  y todo con la extensión fb2reader del firefox, algo como esto nos saca ya el fb2:

pandoc -s -o aeepdlm .fb2 aeepdlm .md

Aunque se puede arreglar mas el resultado cambiando las cabeceras podéis
probar con cabecera tipo QE (Quality Ebook) por ejemplo:

p {text-indent:2em; margin-bottom:0.2em;}
cite {margin-left: 3em; font-style:normal;}
title {hyphenate:none; font-weight:bold; margin-bottom:1em; font-size:150%; text-align:center; text-indent:0em; margin-left: 0em; margin-right: 0em; margin-top:20%;}
style [name=”h3″] {hyphenate:none; font-weight:bold; margin-bottom:1em; font-size:130%; text-align:left; text-indent:0em;margin-top:3em;}
style [name=”h4″] {hyphenate:none; font-weight:bold; margin-bottom:2em; font-size:130%; text-align:center;}
style [name=”h5″] {hyphenate:none; font-weight:bold; margin-bottom:1em; font-size:120%; text-align:justify; text-indent:1em;}
style [name=”h6″] {hyphenate:none; font-weight:bold; margin-bottom:1em; font-size:110%; text-indent:1em; margin-top:1em}
style [name=”b”] {font-size:160%; font-weight:bold}
style [name=”s”] {font-size:60%;}
style [name=”u”] {display:inline; text-decoration:underline;}
style [name=”o”] {display:inline; text-decoration:overline;}
</stylesheet>
<description>
<title-info>
<genre></genre>
<genre></genre>
<author>
<first-name></first-name>
<last-name></last-name>
</author>
<author>
<first-name></first-name>
<last-name></last-name>
</author>
<book-title></book-title>
<annotation><empty-line/>
<p></p>
</annotation>
<date></date>
<coverpage><image l:href=”#i0″/></coverpage>
<lang>en</lang>
</title-info>
<document-info>
<program-used>QualityEbook v0.73</program-used>
<date>2013-10-1</date>
<id></id>
<version>1.0</version>
</document-info>
<publish-info>
<book-name></book-name>
<publisher></publisher>
<isbn></isbn>
</publish-info>
</description>

O tipo BD (Book Designer)

<description>
<title-info>
<genre></genre>
<author>
<first-name></first-name>
<last-name></last-name>
</author>
<book-title></book-title>
<annotation>
<p></p>
</annotation>
<date></date>
<coverpage>
<image l:href=”#cover.jpg”/>
</coverpage>
<lang></lang>
</title-info>
<document-info>
<author></author>
<program-used></program-used>
<date></date>
<src-url></src-url>
<src-ocr></src-ocr>
<id></id>
<version>1.0</version>
</document-info>
<publish-info>
<publisher></publisher>
<year></year>
<isbn></isbn>
</publish-info>
</description>

Hay un problemilla con el fb2 sacado con pandoc y es que al abrirlo con un editor de texto sale una línea muuuuuuy larga, así que para editarlo que viene a ser copiar y pegar lo anterior (una y solo una de las dos cabeceras
donde toque y rellenarla con los datos correctos) hay que usar el Notepad++ con su plugin XML este funciona bien  con WINE tanto en linux como en mac.

La contra de todo esto es que las notas del fb2 hecho con pandoc no son de ida y vuelta si se leen en el coolreader o en un lector convencional, ya he comentado que sin embargo con el firefox y la extensión fb2reader si que se leen de cine, no hace falta ni lo de las cabeceras.

Bueno la solución es usar el convisolef que es el post al que os redirijo al principio aunque está visto por ahora que hay anidamientos y amazacotamientos vamos un verdadero lio si los epubs a convertir tienen mas de un nivel en la capitulación, en coolreader se pueden leer y las notas son de ida y vuelta, tampoco sale la portada porque este programa no pone la extensión de la imagen, que es, si *.jpg o *.png en las etiquetas de <coverpage></coverpage> crea el binario y lo pone abajo pero ahí no, y solo en los hechos con pandoc, en los otros extrañamente los hace bien, se subsana poniendo la extensión que sea en la etiqueta <coverpage>, aquí no hace falta usar expresamente el Notepad++ y su plugin XML para corregir esto. Usaremos:

 convisolef *.epub

Y con suertecilla un bonito y práctico fb2 con notas de ida y vuelta. Aunque los epubs hechos con pandoc ya están bien ya.

Tanto convisol como convisolef son convertidores de formatos entre ebooks el primero es desde un fb2 a epub y el segundo desde un epub a un fb2 aun se está probando este último aunque salen bien depende de como se hayan hecho.
Parece complicado pero es mas distraido que otra cosa y aparte y lo importante es que no hacen falta ni suites  onerosas ni depender del windows para tener ebooks chulos y prácticos.

*****El fichero modelo-imagen-notas.txt es una chuleta***** 🙂 Ximo

Comentarios»

No comments yet — be the first.

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s

A %d blogueros les gusta esto: