Autore Topic: Calibre ed il mistero delle doppie mancanti  (Letto 17201 volte)

Offline giannino loi

  • Scriba
  • **
  • Post: 129
 ;D
E' la prima volta che mi accingo ad ottenere un epub da un pdf. Di solito ho sempre il doc o odt.
Caricando su Calibre e trasformando direttamente dal pdf mi viene fuori un epub dove tutte le doppie non compaiono (es. nel mez o del cam in di nostra vita...).
Su suggerimento di uno dei Vs. post ho provato a trasformare il pdf in rtf. Ma anche l'rtf da lo stesso problema.
Premetto che il file l'ho avuto direttamente dall'autore e non proviene assolutamente da zone d'ombra.
Vi è mai capitato?
Avete una soluzione?
Grazie per il buon cuore

Offline giannino loi

  • Scriba
  • **
  • Post: 129
Re: Calibre ed il mistero delle doppie mancanti
« Risposta #1 il: 19/10/13 20:57 »
Ecco la spiegazione... http://forum.simplicissimus.it/quale-dovrei-comprare/repetita-juvant/msg70156/#msg70156

Grazie Luke, ma la notizia purtroppo non è entusiasmante XD

Offline Moebius

  • Amanuense
  • ***
  • Post: 367
  • Sesso: Maschio
  • PRS650 - PRS T2
Re: Calibre ed il mistero delle doppie mancanti
« Risposta #2 il: 19/10/13 21:14 »
...  il file l'ho avuto direttamente dall'autore ....
... Avete una soluzione?
Ehm, sì. O:)
Fumo elettronico, leggo elettronico.  Per quell'altra cosa siamo ancora molto indietro.

Offline giannino loi

  • Scriba
  • **
  • Post: 129
Re: Calibre ed il mistero delle doppie mancanti
« Risposta #3 il: 20/10/13 09:14 »
Ciao Moebius,
che soluzione prospetteresti, a parte l'olio di gomito? :)

ronnydaca

  • Visitatore
Re: Calibre ed il mistero delle doppie mancanti
« Risposta #4 il: 20/10/13 09:44 »
Non me ne voglia il buon Luke ma il repetita juvant nella sezione pdf to epub è completamente fuorviante. Proporrei una riscrittura meno drastica con le varie opzioni.

Giannino. Se il pdf è di testo, senza immagini, un romanzo insomma, e hai o lavori con un software come adobe acrobat pro, basta aprire quel pdf con suddetto software ed esportare il contenuto in html oppure doc.
Ottenuto questi file, puoi optare per due scelte.
Se vuoi un lavoro ben fatto aprire il file con libreoffice come consiglia Luke e sistemarlo nei modi consueti e i plugin, sempre di Luke (trovi guide e consigli qui sul forum) oppure, se vuoi una cosa veloce puoi caricare il file html su calibre  e fare una conversione brutale.

Ovviamente il lavoro certosino di passare per libreoffice è consigliabile e se sai come muoverti ottieni ottimi risultati in brevissimo tempo.

Sconsiglio invece software come nitropdf e simili. Nelle mie prove solo adobe acrobat pro non perde parti di testo per strada.

Offline giannino loi

  • Scriba
  • **
  • Post: 129
Re: Calibre ed il mistero delle doppie mancanti
« Risposta #5 il: 20/10/13 09:54 »
Grazie,
e la procedura di copiare e incollare il testo in un file word crea dei problemi?
Conserva la formattazione?
Con html ci sarà il problema di tutti gli "a capo" da eliminare uno ad uno?

Offline Moebius

  • Amanuense
  • ***
  • Post: 367
  • Sesso: Maschio
  • PRS650 - PRS T2
Re: Calibre ed il mistero delle doppie mancanti
« Risposta #6 il: 20/10/13 15:06 »
Ciao Moebius,
che soluzione prospetteresti, a parte l'olio di gomito? :)
Farselo dare dall'autore in un formato editabile.
Tutte le alternative implicano abbondante olio di gomito.
Però il fatto che siano saltate tutte le doppie insospettisce.
Ti suggerirei (se l'opzione principe è impraticabile) di stampare il PDF su una stampante PDF, solo una pagina, ovvio, e poi l'alleghi qui.
E naturalmente il copia/incolla del testo al reader all'editor che usi (ciao formattazione).
Se tutto fallisce ci sono sempre le Regex (tipo consonante_spazio_vocale); in Ita non sono moltissime.
E controlla l'Epub con Sigil Strumenti>Caratteri; ci sono dei font con caratteri che sovrappongono il carattere precedente, tipo œ tedesco.
Edit, mi ero dimenticato questa possibilità: passalo all'OCR, Abbyy o simili.
« Ultima modifica: 20/10/13 21:16 da Moebius »
Fumo elettronico, leggo elettronico.  Per quell'altra cosa siamo ancora molto indietro.

Offline eXistenZ

  • Digitalizzatore
  • *****
  • Post: 2.567
Re: Calibre ed il mistero delle doppie mancanti
« Risposta #7 il: 20/10/13 18:11 »
Grazie,
e la procedura di copiare e incollare il testo in un file word crea dei problemi?
Conserva la formattazione?
Con html ci sarà il problema di tutti gli "a capo" da eliminare uno ad uno?

Sono d'accordo con Moebius

Se sei in contatto con l'autore fatti dare in testo in un altro formato, non voglio credere che abbia il suo testo solo in pdf!

Per tutte le altre tecniche (copiatura del testo, salvataggio in altro formato, conversioni varie) alla fine il risultato dipende solo da una cosa, come è stato fatto il pdf di partenza (con che software, da che formato si è partiti, con quali impostazioni è stato creato), non c'è una risposta univoca, bisogna provare, alcune tecniche funzionano con alcuni pdf, altre con altri.

Offline Luke

  • eBook Club Italian co-founder
  • Super Moderator
  • Digitalizzatore
  • *****
  • Post: 5.505
  • Sesso: Maschio
  • …tanto più che danni non posso fare…
    • eBook Club Italia
Re: Calibre ed il mistero delle doppie mancanti
« Risposta #8 il: 20/10/13 18:52 »
Non me ne voglia il buon Luke ma il repetita juvant nella sezione pdf to epub è completamente fuorviante.

Al contrario! È più che realistica, e i problemi avuti da Giannino ne sono la dimostrazione più lampante… :)

Il problema in questione temo che dipenda dall'applicazione che ha creato il PDF, probabilmente InDesign o xPtress, che gestiscono con gran cura l'aspetto grafico del testo stravolgendo completamente il contenuto.

L'unica via semplice è farsi dare il sorgente editabile (.doc, .rtf o meglio .odt) e lavorare su quello. L'alternativa è rileggere tutto il testo parola per parola e correggere i problemi a mano.

Il PDF non è un formato di eBook.

Luke

ronnydaca

  • Visitatore
Re: Calibre ed il mistero delle doppie mancanti
« Risposta #9 il: 20/10/13 19:03 »
Non me ne voglia il buon Luke ma il repetita juvant nella sezione pdf to epub è completamente fuorviante.

Al contrario! È più che realistica, e i problemi avuti da Giannino ne sono la dimostrazione più lampante… :)

Il problema in questione temo che dipenda dall'applicazione che ha creato il PDF, probabilmente InDesign o xPtress, che gestiscono con gran cura l'aspetto grafico del testo stravolgendo completamente il contenuto.

L'unica via semplice è farsi dare il sorgente editabile (.doc, .rtf o meglio .odt) e lavorare su quello. L'alternativa è rileggere tutto il testo parola per parola e correggere i problemi a mano.

Il PDF non è un formato di eBook.

Luke

Cito dal repetita Juvant
Citazione
Conversione dei PDF in altri formati.
Impossibile.
Come già detto, il PDF nasce per essere non modificabile, e quindi anche la conversione risulta molto difficile o in alcuni casi letteralmente impossibile.

Non è opinabile che questa parte sia fuorviante.
Prima scrivi che è impossibile e in seguito scrivi che lo è in alcuni casi.
IL significato è completamente diverso.
Io in precedenza ho consigliato di modificare un po’ quella parte perché è fuorviante. Non è impossibile. Proponevo di riscriverlo in modo meno drastico consigliando e sconsigliando i software in base alle prove fatte.
 Il caso di Giannino non è una dimostrazione lampante fino a quando non lo provi con quel software.

Io per ora tutti i pdf che ho convertito usando adobe acrobat con la sua esportazione sono venuti ottimi.
Tempo addietro ho anche chiesto, perché mi piace imparare se mi si dimostra il contrario, dei test.
Se mi mandate dei pdf con solo testo che reputate impossibili o difficili, in modo che, se lo sono davvero, anche io me ne convinco.
L’informatica non è fatta da opinioni, ma da fatti  e io voglio vedere sulla mia pelle queste situazioni difficili, altrimenti come imparo? :)

Quindi, per gentilezza, Luke, se hai pdf (solo testo) che dici essere impossibili o difficilissimi da convertire in doc (non epub, ma doc/odt) mi manderesti una copia?
Così posso rendermi conto dei problemi visto che io non li ho mai avuti, per ora.
Altrimenti ogni volta è un botta e risposta di qualcuno che dice che si può fare, altri che non si può fare.
Già una volta in privato ho potuto constatare diversamente.
« Ultima modifica: 20/10/13 19:05 da ronnydaca »

Offline Luke

  • eBook Club Italian co-founder
  • Super Moderator
  • Digitalizzatore
  • *****
  • Post: 5.505
  • Sesso: Maschio
  • …tanto più che danni non posso fare…
    • eBook Club Italia
Re: Calibre ed il mistero delle doppie mancanti
« Risposta #10 il: 21/10/13 08:46 »
…se hai pdf (solo testo) che dici essere impossibili o difficilissimi da convertire in doc (non epub, ma doc/odt) mi manderesti una copia?

Purtroppo non ne ho, non tengo per principio la roba che altri mi inviano per test, ma posso dirti che gran parte di quelli di cui ho esperienza diretta sono stati creati usando InDesign.

I punti critici riguardano più o meno questi fattori:
– non linearità del contenuto: tipico il caso del testo su due colonne inserito per righe, ma anche porzioni di testo o note posti a fine pagina/capitolo/libro invece che dove appaiono. In lina di massima la pagina di un PDF va pensata come un foglio in cui possiamo mettere gli oggetti (lettere, parole, paragrafi, immagini etc) nell'ordine sequenziale che preferiamo, ed è questo ordine che viene seguito all'interno del contenuto del PDF.
– caratteri particolari: mezzi spazi, caratteri accentati sostituiti con equivalenti, simboli composti con porzioni di caratteri UNICODE. Trovo spesso dei PDF ai quali scompaiono le lettere accentate, che in realtà sono sostituite dai corrispondenti UNICODE che iniziano dal E000 (Private use), molto precisi dal punto di vista tipografico, ma che su un qualunque editor vengono totalmente ignorati. Ho visto anche usare nei PDF i "combining accent" (0300-036F) insieme alle lettere non accentate, col risultato che nel testo le lettere rimangono e gli accenti vanno persi.
– ritorni a capo: nel PDF ad ogni fine riga in genere (ma non sempre) viene aggiunto un fine paragrafo per indicare la fine della riga. Questo è il problema più evidente per chiunque cerchi di convertire un PDF. Anche le lineette di interruzione parola vengono aggiunte nel contenuto, se una parola viene interrotta a fine riga.
 
Sono anch'io curioso di vedere il PDF di Giannino, me ne potresti mandare una copia in privato? Ho il sospetto che per fare le doppie venga usato qualche espediente di cui non sono a conoscenza…

Grazie

Luke

Offline Luke

  • eBook Club Italian co-founder
  • Super Moderator
  • Digitalizzatore
  • *****
  • Post: 5.505
  • Sesso: Maschio
  • …tanto più che danni non posso fare…
    • eBook Club Italia
Re: Calibre ed il mistero delle doppie mancanti
« Risposta #11 il: 21/10/13 08:53 »
mi manderesti una copia?

Ne ho trovato uno particolarmente ostico, proprio l'esempio di contenuti non sequenziali, te lo mando in privato.

Luke

ronnydaca

  • Visitatore
Re: Calibre ed il mistero delle doppie mancanti
« Risposta #12 il: 21/10/13 11:10 »
Ti ringrazio Luke. Dopo lo guardo. :)

Offline giannino loi

  • Scriba
  • **
  • Post: 129
Re: Calibre ed il mistero delle doppie mancanti
« Risposta #13 il: 21/10/13 19:13 »
Grazie a tutti per l'interessamento.
Ho provato a stampare un pdf, ma sapete cosa succede?
Pagina bianca completamente.

Trovo un modo per farvi comunque vedere la pagina e appena posso vi invio le risultanze. Oramai a prescindere da tutto sta diventando un caso che forse può essere utile per molti...
io nel mentre sto usando "l'olio di gomito". :o

Offline giannino loi

  • Scriba
  • **
  • Post: 129
Re: Calibre ed il mistero delle doppie mancanti
« Risposta #14 il: 21/10/13 19:23 »
Questo è il massimo che sono riuscito a fare, però rende l'idea.
Purtroppo l'autore non trova più il file word e sono costretto ad usare il pdf dell'editore del cartaceo.
Come potrete notare il problema si presenta per la doppia "t" e la doppia "l".
 ???
@Moebiius
Citazione
E controlla l'Epub con Sigil Strumenti>Caratteri;
Questa opzione non l'ho trovata su Sigil...