Forums / Developer / Searching content into a pdf file

Searching content into a pdf file

Next topic

Author	Message
Simone Conti	Monday 01 August 2011 7:34:00 am Hi there, I have a lot of pdf files in my site and I need to enable EzPublish look for a specific content into those pdf files, in order to list the results together with the standard search results. Is that possible? Is there any extension or something else to enable to make it possible? Thank you so much!
Peter Keung	Monday 01 August 2011 7:51:40 am This is the first thing that comes to mind: http://projects.ez.no/eztika http://www.mugo.ca Mugo Web, eZ Partner in Vancouver, Canada
Simone Conti	Monday 01 August 2011 8:05:24 am Unfortunately is not what I'm looking for. I need something that allows me to search into a pdf files. Somebody told me that EzPublish has this feature embedded but it needs to be allowed. Any suggestions?
Steven E. Bailey	Monday 01 August 2011 9:07:18 am eZPublish does have this feature and you should be seeing your pdfs indexed - with a bunch of caveats. What happens is that when a pdf is saved (or you update your search index), the pdf is run through the tool defined by [PDFHandlerSettings] TextExtractionTool=pstotext in your binaryfile.ini If you don't have this tool on your machine, then your pdfs won't be indexed. If you search for TextExtractionTool or pdftotext in these forums you'll see a couple other possible tools - such as: http://share.ez.no/forums/extensions/ez-find/solr-indexing-error If you have whatever tool you are using and if you're pdfs aren't being indexed, then it probably means that your pdfs aren't structurally text - the content is actually an image (or series of images) saved in the pdf container. It means that you're not going to be able to index using pdftotext - a good test is to run whatever tool you have on the command line against the file that isn't be indexed to see what actually comes out. If nothing comes out you'll have to use some other tool - like eztika (I've never used it) or, something like tesseract to extract the text. Certified eZPublish developer http://ez.no/certification/verify/396111 Available for ezpublish troubleshooting, hosting and custom extension development: http://www.leidentech.com
Simone Conti	Thursday 04 August 2011 3:26:58 am Now something works. I decided to use eztika as suggested by Peter. I have a question: where does eztika store its data? I hope it's not made to scan all pdf for each search... I have a very large number of pdf files!! Thanks
Paul Borgermans	Friday 05 August 2011 10:23:26 am Hi eztika does not store the data itself, its goal is to extract the plain text for subsequent indexing by the configured search plugin (you should use eZ Find of course :) ) the default search plugin stores the indexing result in the database, while eZ Find uses Solr which stores its data into Lucene index files on teh filesystem This is done only when the pdf is uploaded or updated. hth Paul eZ Publish, eZ Find, Solr expert consulting and training http://twitter.com/paulborgermans

eZ debug

Timing:

Jan 17 2025 23:51:08

Script start

Timing:

Jan 17 2025 23:51:08

Module start 'content'

Timing:

Jan 17 2025 23:51:09

Module end 'content'

Timing:

Jan 17 2025 23:51:09

Script end

Main resources:

Total runtime

0.8535 sec

Peak memory usage

4,096.0000 KB

Database Queries

209

Timing points:

Checkpoint	Start (sec)	Duration (sec)	Memory at start (KB)	Memory used (KB)
Script start	0.0000	0.0051	588.8516	180.8359
Module start 'content'	0.0051	0.7489	769.6875	665.6094
Module end 'content'	0.7540	0.0994	1,435.2969	337.0547
Script end	0.8534		1,772.3516

Checkpoint

Start (sec)

Duration (sec)

Memory at start (KB)

Memory used (KB)

Script start

0.0000

0.0051

588.8516

180.8359

Module start 'content'

0.0051

0.7489

769.6875

665.6094

Module end 'content'

0.7540

0.0994

1,435.2969

337.0547

Script end

0.8534

1,772.3516

Time accumulators:

Accumulator	Duration (sec)	Duration (%)	Count	Average (sec)
Ini load
Load cache	0.0036	0.4195	21	0.0002
Check MTime	0.0014	0.1627	21	0.0001
Mysql Total
Database connection	0.0006	0.0745	1	0.0006
Mysqli_queries	0.7864	92.1471	209	0.0038
Looping result	0.0017	0.2025	207	0.0000
Template Total	0.8323	97.5	2	0.4162
Template load	0.0020	0.2325	2	0.0010
Template processing	0.8303	97.2882	2	0.4152
Template load and register function	0.0002	0.0182	1	0.0002
states
state_id_array	0.0005	0.0615	1	0.0005
state_identifier_array	0.0006	0.0757	2	0.0003
Override
Cache load	0.0016	0.1864	41	0.0000
Sytem overhead
Fetch class attribute can translate value	0.0012	0.1400	5	0.0002
Fetch class attribute name	0.0008	0.0984	9	0.0001
XML
Image XML parsing	0.0016	0.1879	5	0.0003
class_abstraction
Instantiating content class attribute	0.0000	0.0020	9	0.0000
General
dbfile	0.0019	0.2212	42	0.0000
String conversion	0.0000	0.0006	3	0.0000
Note: percentages do not add up to 100% because some accumulators overlap

Accumulator

Duration (sec)

Duration (%)

Count

Average (sec)

Ini load

Load cache

0.0036

0.4195

0.0002

Check MTime

0.0014

0.1627

0.0001

Mysql Total

Database connection

0.0006

0.0745

0.0006

Mysqli_queries

0.7864

92.1471

209

0.0038

Looping result

0.0017

0.2025

207

0.0000

Template Total

0.8323

97.5

0.4162

Template load

0.0020

0.2325

0.0010

Template processing

0.8303

97.2882

0.4152

Template load and register function

0.0002

0.0182

0.0002

states

state_id_array

0.0005

0.0615

0.0005

state_identifier_array

0.0006

0.0757

0.0003

Override

Cache load

0.0016

0.1864

0.0000

Sytem overhead

Fetch class attribute can translate value

0.0012

0.1400

0.0002

Fetch class attribute name

0.0008

0.0984

0.0001

XML

Image XML parsing

0.0016

0.1879

0.0003

class_abstraction

Instantiating content class attribute

0.0000

0.0020

0.0000

General

dbfile

0.0019

0.2212

0.0000

String conversion

0.0000

0.0006

0.0000

Note: percentages do not add up to 100% because some accumulators overlap

CSS/JS files loaded with "ezjscPacker" during request:

Cache	Type	Packlevel	SourceFiles
	CSS	0	extension/community/design/community/stylesheets/ext/jquery.autocomplete.css extension/community_design/design/suncana/stylesheets/scrollbars.css extension/community_design/design/suncana/stylesheets/tabs.css extension/community_design/design/suncana/stylesheets/roadmap.css extension/community_design/design/suncana/stylesheets/content.css extension/community_design/design/suncana/stylesheets/star-rating.css extension/community_design/design/suncana/stylesheets/syntax_and_custom_tags.css extension/community_design/design/suncana/stylesheets/buttons.css extension/community_design/design/suncana/stylesheets/tweetbox.css extension/community_design/design/suncana/stylesheets/jquery.fancybox-1.3.4.css extension/bcsmoothgallery/design/standard/stylesheets/magnific-popup.css extension/sevenx/design/simple/stylesheets/star_rating.css extension/sevenx/design/simple/stylesheets/libs/fontawesome/css/all.min.css extension/sevenx/design/simple/stylesheets/main.v02.css extension/sevenx/design/simple/stylesheets/main.v02.res.css
	JS	0	extension/ezjscore/design/standard/lib/yui/3.17.2/build/yui/yui-min.js extension/ezjscore/design/standard/javascript/jquery-3.7.0.min.js extension/community_design/design/suncana/javascript/jquery.ui.core.min.js extension/community_design/design/suncana/javascript/jquery.ui.widget.min.js extension/community_design/design/suncana/javascript/jquery.easing.1.3.js extension/community_design/design/suncana/javascript/jquery.ui.tabs.js extension/community_design/design/suncana/javascript/jquery.hoverIntent.min.js extension/community_design/design/suncana/javascript/jquery.popmenu.js extension/community_design/design/suncana/javascript/jScrollPane.js extension/community_design/design/suncana/javascript/jquery.mousewheel.js extension/community_design/design/suncana/javascript/jquery.cycle.all.js extension/sevenx/design/simple/javascript/jquery.scrollTo.js extension/community_design/design/suncana/javascript/jquery.cookie.js extension/community_design/design/suncana/javascript/ezstarrating_jquery.js extension/community_design/design/suncana/javascript/jquery.initboxes.js extension/community_design/design/suncana/javascript/app.js extension/community_design/design/suncana/javascript/twitterwidget.js extension/community_design/design/suncana/javascript/community.js extension/community_design/design/suncana/javascript/roadmap.js extension/community_design/design/suncana/javascript/ez.js extension/community_design/design/suncana/javascript/ezshareevents.js extension/sevenx/design/simple/javascript/main.js

Cache

Type

Packlevel

SourceFiles

CSS

extension/community/design/community/stylesheets/ext/jquery.autocomplete.css
extension/community_design/design/suncana/stylesheets/scrollbars.css
extension/community_design/design/suncana/stylesheets/tabs.css
extension/community_design/design/suncana/stylesheets/roadmap.css
extension/community_design/design/suncana/stylesheets/content.css
extension/community_design/design/suncana/stylesheets/star-rating.css
extension/community_design/design/suncana/stylesheets/syntax_and_custom_tags.css
extension/community_design/design/suncana/stylesheets/buttons.css
extension/community_design/design/suncana/stylesheets/tweetbox.css
extension/community_design/design/suncana/stylesheets/jquery.fancybox-1.3.4.css
extension/bcsmoothgallery/design/standard/stylesheets/magnific-popup.css
extension/sevenx/design/simple/stylesheets/star_rating.css
extension/sevenx/design/simple/stylesheets/libs/fontawesome/css/all.min.css
extension/sevenx/design/simple/stylesheets/main.v02.css
extension/sevenx/design/simple/stylesheets/main.v02.res.css

extension/ezjscore/design/standard/lib/yui/3.17.2/build/yui/yui-min.js
extension/ezjscore/design/standard/javascript/jquery-3.7.0.min.js
extension/community_design/design/suncana/javascript/jquery.ui.core.min.js
extension/community_design/design/suncana/javascript/jquery.ui.widget.min.js
extension/community_design/design/suncana/javascript/jquery.easing.1.3.js
extension/community_design/design/suncana/javascript/jquery.ui.tabs.js
extension/community_design/design/suncana/javascript/jquery.hoverIntent.min.js
extension/community_design/design/suncana/javascript/jquery.popmenu.js
extension/community_design/design/suncana/javascript/jScrollPane.js
extension/community_design/design/suncana/javascript/jquery.mousewheel.js
extension/community_design/design/suncana/javascript/jquery.cycle.all.js
extension/sevenx/design/simple/javascript/jquery.scrollTo.js
extension/community_design/design/suncana/javascript/jquery.cookie.js
extension/community_design/design/suncana/javascript/ezstarrating_jquery.js
extension/community_design/design/suncana/javascript/jquery.initboxes.js
extension/community_design/design/suncana/javascript/app.js
extension/community_design/design/suncana/javascript/twitterwidget.js
extension/community_design/design/suncana/javascript/community.js
extension/community_design/design/suncana/javascript/roadmap.js
extension/community_design/design/suncana/javascript/ez.js
extension/community_design/design/suncana/javascript/ezshareevents.js
extension/sevenx/design/simple/javascript/main.js

Templates used to render the page:

Usage	Requested template	Template	Template loaded
1	node/view/full.tpl	full/forum_topic.tpl	extension/sevenx/design/simple/override/templates/full/forum_topic.tpl
6	content/datatype/view/ezxmltext.tpl	<No override>	extension/community_design/design/suncana/templates/content/datatype/view/ezxmltext.tpl
8	content/datatype/view/ezxmltags/paragraph.tpl	<No override>	extension/ezwebin/design/ezwebin/templates/content/datatype/view/ezxmltags/paragraph.tpl
3	content/datatype/view/ezimage.tpl	<No override>	extension/sevenx/design/simple/templates/content/datatype/view/ezimage.tpl
2	content/datatype/view/ezxmltags/link.tpl	<No override>	design/standard/templates/content/datatype/view/ezxmltags/link.tpl
1	content/datatype/view/ezxmltags/line.tpl	<No override>	design/standard/templates/content/datatype/view/ezxmltags/line.tpl
1	pagelayout.tpl	<No override>	extension/sevenx/design/simple/templates/pagelayout.tpl
Number of times templates used: 22 Number of unique templates used: 7

Usage

Requested template

Template

Template loaded

Edit

Override

node/view/full.tpl

full/forum_topic.tpl

extension/sevenx/design/simple/override/templates/full/forum_topic.tpl